米国議会図書館プログラマーのChris Adams氏、OpenCVを使ってスキャン書籍から図版だけ抽出する方法を解説

noteで書く

《この記事は約 1 分で読めます(1分で600字計算)》

【編集部記事】米国議会図書館で書籍スキャンシステムの開発に携わっているプログラマーのChris Adams氏が、オープンソースのグラフィック処理ライブラリ「OpenCV」を使ってスキャン書籍から図版だけ抽出する方法を解説している。

 Adams氏は、実験システムにOpenCV、Python(スクリプト言語)、numpy(Python用数値演算ライブラリ)を使用。手動でフィルタ値をスライダー調整しながらイラスト部分の質感を検知する方式のため、全自動とはいかないが、スキャン書籍や新聞などからかなり高精度に図版の抽出に成功したとのこと。

 今後これを発展し、デジタル化蔵書の検索ポータルなどの新UI開発に活用したいとのこと。【hon.jp】

問合せ先:Chris Adams氏のブログ記事( http://chris.improbable.org/2013/08/31/extracting-images-from-scanned-pages/

noteで書く

広告

著者について

About hon.jp Staff 7938 Articles
株式会社hon.jp(2018年3月31日で解散)スタッフによる記事のアーカイブです。ニュースメディア「hon.jp DayWatch」はNPO法人HON.jpが事業継承し、2018年10月1日より「HON.jp News Blog」へ名称変更、リニューアルして運営しています。リンク先が消えている場合は、Wayback Machineなどを利用すると、当時の記事が掘り出せるかもしれません。