News Ticker

複数のオープンソースツールを連携させて大量のPDF文書をOCR化する「Docsplit」

2013年3月19日 hon.jp Staff hon.jp DayWatch Archive

《この記事を読むのに必要な時間は約 1 分です（1分600字計算）》

【編集部記事】電子書籍やオープンデータ運動の台頭により、過去の文書をスキャンするニーズが世界的に高まっている。そのような中、最近海外のジャーナリストたちの間で「Docsplit」というオープンソースツールを使う事例が増えつつある。

　Docsplitは世界中のジャーナルリストたちが公開しているオープンデータ検索ツール群「DocumentCloud」の一部で、PDF文書のテキストデータ化を担っているスクリプト。Rubyを使い、Linuxユーザーにお馴染みのオープンソースライブラリ「GraphicsMagick（PDFの画像化）」「Poppler（PDFメタデータ抽出）」「Ghostscript（PDF内部コード解析）」「Tesseract（OCR）」「pdftk（PDFページ分割）」「LibreOffice（Office形式ファイルで出力）」間の入出力フローを自動化している。

　気になるTesseractも日本語OCRに対応させることはできるし、必要ならば代わりに「NHocr」を使うことも可能と思われるので、画像ベースのPDFのテキスト化で悩んでいるシステム関係者は、試してみる価値はあるだろう。【hon.jp】

問合せ先：DocsplitのGitHubページ（ http://documentcloud.github.com/docsplit/ ）

About hon.jp Staff 7938 Articles

株式会社hon.jp（2018年3月31日で解散）スタッフによる記事のアーカイブです。ニュースメディア「hon.jp DayWatch」はNPO法人HON.jpが事業継承し、2018年10月1日より「HON.jp News Blog」へ名称変更、リニューアルして運営しています。リンク先が消えている場合は、Wayback Machineなどを利用すると、当時の記事が掘り出せるかもしれません。

複数のオープンソースツールを連携させて大量のPDF文書をOCR化する「Docsplit」

広告

著者について

関連記事