【雑誌編集者向き】複雑レイアウトのPDFからEPUB電子書籍向けにテキスト抽出する「PDFMasher」

noteで書く

《この記事は約 1 分で読めます(1分で600字計算)》

【編集部記事】ネット上には、PDFをEPUB/MOBI形式の電子書籍ファイル形式に一括変換するユーティリティが多く存在するが、一風変わっているものがある。それが「PDFMasher」だ。

 PDFMasherは、カナダ在住プログラマーであるVirgil Dupras氏が開発を進めているWindows/Mac/Linux対応のPDF->電子書籍変換ツールで、寄付金ベースで開発を進めていくというクランドファンディング・スタイルのソフト。同ソフトの特長は、雑誌・論文PDFなど、各ページ上で複数コラム状態に散乱するテキスト要素を、まるでDTPソフトのように人間がマウスと矢印チェーンで視覚的に指示しながら、1つのMarkdown形式テキストファイルに中間変換するというアプローチをとっている。

 Pythonソースコードも公開されているが、寄付金ベースのソフトなのでフル機能を使うには5カナダドル(約398円)以上の寄付が必要となる。…といいつつも、10ページまでお試しできる無料モードも提供している。複雑なマルチコラム・レイアウトPDFから電子書籍向けテキストを制作したいユーザーは、一度試してみる価値があるだろう。【hon.jp】

問合せ先:PDFMasherのページ( http://www.hardcoded.net/pdfmasher/

noteで書く

広告

著者について

About hon.jp Staff 7938 Articles
株式会社hon.jp(2018年3月31日で解散)スタッフによる記事のアーカイブです。ニュースメディア「hon.jp DayWatch」はNPO法人HON.jpが事業継承し、2018年10月1日より「HON.jp News Blog」へ名称変更、リニューアルして運営しています。リンク先が消えている場合は、Wayback Machineなどを利用すると、当時の記事が掘り出せるかもしれません。
タグ: