イースト、PDFから構造化テキストを抽出しリフロー型EPUBに変換するクラウドサービス「EPUBpack」の提供を開始

epubpack
noteで書く

《この記事は約 2 分で読めます(1分で600字計算)》

 イースト株式会社は7月18日、テキストPDFから構造化テキストを取り出しリフロー型EPUBに変換するクラウドサービス「EPUBpack」(イーパブパック)の販売開始を発表した。この技術を用い、岩波新書のEPUB化を開始している。

 EPUBpackは、PDFに目次ページ、大見出し、小見出しなど、若干のマークを付けることで、構造化されたマークダウン(簡易HTML)形式のテキストを出力する。画像、表、グラフなどの図版は、キャプション文字を組み込んだ画像ファイルとして生成される。ルビ、窓見出し、ページ単位の縦組み/横組み混在なども、正しく抽出できるという。

 このマークダウンファイルを独自のCMSに入れ、電書協ガイドに沿った正確なリフローEPUBを制作する。最新規格EPUB 3.2にも対応している。改訂も容易で、コンテンツの履歴管理にはGitを使用している。開発には「でんでんコンバーター」による約28万回のEPUB生成ノウハウが活用されているという。

 イーストは、2004年にAdobe社と契約、Adobe PDFライブラリの販売を開始した。15年間蓄積したPDFドキュメント技術により、抽出アプリを開発。複雑な日本語組版のPDFから、正確な構造化テキスト抽出を可能としたという。新書、文庫、一般書、学術書などの出版物、学術論文、また、深層学習(AI)に投入する社内ドキュメントの構造化など、様々な分野への応用が期待される。

 EPUB制作費は1点あたり2.8万円から6万円。文字コード、ルビ、図版、脚注、段組みなどにより価格は変動する。ほか、CMSサーバ運営費が年間10万円(100点まで)で、電子書籍の世代管理やバージョン管理、各種EPUB仕様への対応が行える。初期経費は20万円から80万円。なお、イーストは7月31日に日本電子出版協会(JEPA)主催セミナーでこの技術を初公開、8月8日にはイースト社内で個別セミナーを開催するとのこと。

参考リンク

EPUBpack
https://www.epubpack.com
7/31 JEPAセミナー
https://kokucheese.com/event/index/568003/
8/8 イースト説明会

noteで書く

広告

著者について

About 鷹野凌 830 Articles
NPO法人HON.jp 理事長 / HON.jp News Blog 編集長 / 日本電子出版協会 理事 / 日本出版学会理事 / 明星大学 デジタル編集論 非常勤講師 / 二松学舍大学 編集デザイン特殊研究・ITリテラシー 非常勤講師 / デジタルアーカイブ学会 会員 / 著書『クリエイターが知っておくべき権利や法律を教わってきました。著作権のことをきちんと知りたい人のための本』(2015年・インプレス)など。
タグ: / / / / /