《この記事は約 1 分で読めます(1分で600字計算)》
【編集部記事】電子書籍やオープンデータ運動の台頭により、過去の文書をスキャンするニーズが世界的に高まっている。そのような中、最近海外のジャーナリストたちの間で「Docsplit」というオープンソースツールを使う事例が増えつつある。
Docsplitは世界中のジャーナルリストたちが公開しているオープンデータ検索ツール群「DocumentCloud」の一部で、PDF文書のテキストデータ化を担っているスクリプト。Rubyを使い、Linuxユーザーにお馴染みのオープンソースライブラリ「GraphicsMagick(PDFの画像化)」「Poppler(PDFメタデータ抽出)」「Ghostscript(PDF内部コード解析)」「Tesseract(OCR)」「pdftk(PDFページ分割)」「LibreOffice(Office形式ファイルで出力)」間の入出力フローを自動化している。
気になるTesseractも日本語OCRに対応させることはできるし、必要ならば代わりに「NHocr」を使うことも可能と思われるので、画像ベースのPDFのテキスト化で悩んでいるシステム関係者は、試してみる価値はあるだろう。【hon.jp】
問合せ先:DocsplitのGitHubページ( http://documentcloud.github.com/docsplit/ )