《この記事は約 2 分で読めます(1分で600字計算)》
イースト株式会社は7月18日、テキストPDFから構造化テキストを取り出しリフロー型EPUBに変換するクラウドサービス「EPUBpack」(イーパブパック)の販売開始を発表した。この技術を用い、岩波新書のEPUB化を開始している。
EPUBpackは、PDFに目次ページ、大見出し、小見出しなど、若干のマークを付けることで、構造化されたマークダウン(簡易HTML)形式のテキストを出力する。画像、表、グラフなどの図版は、キャプション文字を組み込んだ画像ファイルとして生成される。ルビ、窓見出し、ページ単位の縦組み/横組み混在なども、正しく抽出できるという。
このマークダウンファイルを独自のCMSに入れ、電書協ガイドに沿った正確なリフローEPUBを制作する。最新規格EPUB 3.2にも対応している。改訂も容易で、コンテンツの履歴管理にはGitを使用している。開発には「でんでんコンバーター」による約28万回のEPUB生成ノウハウが活用されているという。
イーストは、2004年にAdobe社と契約、Adobe PDFライブラリの販売を開始した。15年間蓄積したPDFドキュメント技術により、抽出アプリを開発。複雑な日本語組版のPDFから、正確な構造化テキスト抽出を可能としたという。新書、文庫、一般書、学術書などの出版物、学術論文、また、深層学習(AI)に投入する社内ドキュメントの構造化など、様々な分野への応用が期待される。
EPUB制作費は1点あたり2.8万円から6万円。文字コード、ルビ、図版、脚注、段組みなどにより価格は変動する。ほか、CMSサーバ運営費が年間10万円(100点まで)で、電子書籍の世代管理やバージョン管理、各種EPUB仕様への対応が行える。初期経費は20万円から80万円。なお、イーストは7月31日に日本電子出版協会(JEPA)主催セミナーでこの技術を初公開、8月8日にはイースト社内で個別セミナーを開催するとのこと。
参考リンク
EPUBpack
https://www.epubpack.com
7/31 JEPAセミナー
https://kokucheese.com/event/index/568003/
8/8 イースト説明会