《この記事は約 12 分で読めます(1分で600字計算)》
HON.jpが9月8日に開催したオープンカンファレンス「HON-CF2024」の基調講演Ⅲ「電子出版・近未来」の様子を、小桜店子氏にレポートいただきました。
【目次】
生成AIの進化がもたらす、「紙からデジタル」の先
基調講演Ⅲは「電子出版・近未来 ~当たるも八卦、当たらぬも八卦~」と題して一般社団法人日本電子出版協会(JEPA)の副会長・下川和男氏が行った。目覚ましい勢いで進化する生成AIの登場を基に、JEPAが対象とする「広義の電子出版1https://www.jepa.or.jp/jepa/denshi/」の領域を超えて多方面にわたり「紙からデジタル」の、その先について語った。
下川氏は、1980年代からIT業界と出版業界の双方に携わってきた。JEPAは1986年に設立され、下川氏はその翌年から参加している。それ以来、電子出版の普及に長年努めてきた。
画像版面から正しい構造化テキストを取得
まず下川氏は、数年後に国立国会図書館の全蔵書が正しい構造化テキストになると予測した。国立国会図書館では現在、Vision2021-20252https://vision2021.ndl.go.jp/というプロジェクトに基づき、蔵書のデジタル化を推進している。画像スキャンを行い、館内限定でデジタル画像が閲覧できる環境を整備。さらに、納本制度で収集した蔵書のうち、入手困難なものについては個人送信3https://www.ndl.go.jp/jp/use/digital_transmission/individuals_index.htmlや図書館送信4https://www.ndl.go.jp/jp/use/digital_transmission/index.htmlという形で公開している。また、並行して「NDL OCR5https://github.com/ndl-lab/ndlocr_cli」というプロジェクトで、デジタル画像のテキスト化(OCR)にも取り組んでいる。下川氏もOCRを「画像版面ではなくテキスト版面にすれば応用範囲が広い」と評価。このアプリケーションはオープンソースで公開されており、下川氏が試したところOCRの精度は98%だったという。
これがChatGPT-4oといったオムニ型6【編注】4oの“o”はOmni(全て)の意味で、テキスト、音声、画像といった複数のモーダル(モード)に対応していることを意味している。マルチモーダル型とも呼ばれる。の生成AIの登場で、精度が100%に近づいている。「(オムニ型の生成AIは)画像や動画、音声やテキストを総合的に処理する」ため、画像とテキストを扱うOCRに向いている。今後登場するとされるChatGPTの次世代モデル(GPT-Next)では、画像版面から図版も区別した、正しい構造化テキストが取得できるという。
下川氏は、実際にオムニ型の生成AIを使用したOCRの結果を例示した。現状では前処理や後処理、プロンプトの工夫が必要となるが、テキストは100%の精度だったという。横書きや縦書きは問わず、複雑なレイアウトや、白抜き文字なども正確に認識できていた。
しかし、構造化に失敗したり、全版面を対象とするため広告のテキストやノンブル・柱まで取得してしまうなど、まだ課題はあるようだ。また、100年前の本については上手くいかなかったようで、版面が汚かったり、ドロップキャップ・総ルビといった組版が原因で、一部のテキストが取得できなかったという。
これを踏まえて下川氏は「(オムニ型の生成AIが)言語や日本語組版の問題を、ほぼ超えていることの証明になる」と語る。画像版面から正しい構造化テキストが取得できれば、EPUB制作も安価になり、DTPデータが残っていない古い書籍の改訂版制作も容易になると見通す。
「良い本を残して、売れる状態にする」として、下川氏はこれまで絶版した雑誌を9000点ほど電子復刻7https://www.fukkoku.net/したが、こうしたことを専業で行う会社ももっと出てくるとした。電子復刻については、著者からも「自分の書いた本が世に出たままにしたい」と反響が良かったという。
それから、日本の著作権法8https://laws.e-gov.go.jp/law/345AC0000000048が世界的に見て「テキスト活用で緩い」点を逆手に取り、正しい構造化テキストになった国立国会図書館の蔵書データをOpenAIやGoogle Geminiなどに提供9【編注】実は、NDL Labでは「令和3年度デジタル化資料のOCRテキスト化」事業で、以前は「6.3. 【研究者・開発者向け】一般公開していない成果物の利用について」として、国立国会図書館との協議の上で「著作権法上認められた範囲内での利用(著作権法第30条の4の規定による機械学習目的など)に限り」提供することが可能としていた。
https://lab.ndl.go.jp/data_set/ocr/r3_text/
ただし、現在ではこの記述は消えている。WARPに保存された記録では2024年4月2日時点のページまでは残っていた。
https://warp.ndl.go.jp/info:ndljp/pid/13512816/lab.ndl.go.jp/data_set/ocr/r3_text
NDL Labがなぜこの記述を消したのかは不明だが、下川氏の予測と関連することでもあり、付記しておく。することにより、生成AIが「日本的に話し出す」と予測。将来的にはNDL LLMといったものが登場することで、初版しかない蔵書の改訂箇所の発見や、法律の自動生成による国会議員の定数削減といった波及効果を見通した。
教育のデジタル化と生成AI活用――出版物との対話
下川氏は出版を「知識、感動、情報などを提供する手段」と定義し、たまたま570年間その媒体が紙だったとする。感動を与える小説の場合は、文字を読んでイマジネーションを高めるという点で今後も媒体に大きな変化がないかもしれない。しかし、知識の吸収については、本を「読む」でも「聴く」でもなく、「本と対話する」ことが生成AIによって可能になると予測した。
特徴ある出版社やジャンルごとのRAG(Retrieval Augmented Generation)が登場することで、ハルシネーションが少なく、「対話型で、質問すると答えてくれて、知識を得られる世界になる」。他にも、SakanaAI10https://weel.co.jp/media/innovator/about-sakanaai/のような比較的小さいLLMの組み合わせといったサービスが登場するとした。
また、教科書も生成AIによって対話するようになるとして、オンライン学習プラットフォームKhan Academy11https://www.businessinsider.jp/post-271296とOpenAI12https://openai.com/index/khan-academy/が連携して新しい教育を行うことに下川氏は注目している。OpenAIが出資する英語学習Speak13https://www.speak.com/が急成長しており、こうした外圧と、AIが言語の問題を超えていることも相まって、日本でもKhan Academyを使い始める児童・生徒は増えるとした。韓国でもAI教科書を導入する動き14https://xtech.nikkei.com/atcl/nxt/column/18/01231/00109/が出てきており、「小中高校生500万人のための500万種類の教科書」を標榜している。これは、日本における「個別に最適化された学び」とも合致する。
試験のデジタル化も重要だと下川氏は語った。現在、GIGAスクール構想15https://www.mext.go.jp/a_menu/other/index_00001.htmによって国が児童・生徒1人につき1台の端末を貸与できており、4年目に突入したMEXCBT16https://www.mext.go.jp/a_menu/shotou/zyouhou/mext_00001.htmlという文科省のクラウドサービスと連携して学力調査を行っている。
こうしたコンピューターを使った試験(Computer Based Testing:CBT)の普及が進めば、記述型の問題を生成AIで自動採点できたり、高校入試や大学入試が複数回行えるなど、多くの利点がある。CBTはアクセシビリティ対応の点でも有利なため、教科書と対話することと組み合わせることで、「国民の6%といわれるディスレクシアや様々な障害を持つ人が、生産に参加できる」とのこと。
教科書や試験の次は、証明書もデジタル化されるという。「Open Badges17https://www.1edtech.org/standards/open-badges」というスキル・知識・経験のデジタル証明書の仕様をMozillaが開発し、1EdTechが標準化している。これが日本でも流行してきており、卒業証書や合格証という大きな単位ではなく、学習指導要領の単元といった細分化した証明を行っている。また、マイナンバーカードがスマホ化される18https://www.digital.go.jp/news/ed0adc91-4d86-4cf6-a551-4961a07b00a2。これにより、国家資格や運転免許についてもデジタル証明書としてスマホへ搭載可能になる19https://www.watch.impress.co.jp/docs/news/1613259.htmlという。
生成AIとWebで言語の壁がなくなる
科学論文はデータとロジックに移行し、学会誌や論文誌はなくなっていくと下川氏は考える。XMLでの投稿や、プレプリントという査読前投稿が推進されているからだ。人間による査読は時間を要する。AIは要約や査読を得意としているため、将来的にはこれらをAIが担うことになるという。
最たる例として、COVID-19が世界的に感染拡大した時のWHOの取り組みを下川氏は挙げた。WHOが論文より先にデータを出すように指令したことで、すぐにウイルスの変異を把握20https://www.tmiph.metro.tokyo.lg.jp/lb_virus/worldmutation/して、対応するワクチンが製造できた。こうしたオープンサイエンスの動きは、急速に進んでいくと見通した。
下川氏はまた、読む媒体が紙から画面へ移行すると予測。紙から画面への流れは、スマホが2007年に登場したことで加速する(日本でのスマホシフトは2010年ごろから)。現在、電車の中では誰もがスマホの画面を見ている。下川氏も紙の新聞を読んでいる人を見かけると驚くという。2000年ごろに下川氏の周囲では「紙の書籍は和綴じ本と同じくらい珍しいものになる」と予想していたが、今でも紙の書籍は残っている。一方で、2004年に公開されたEPIC201421https://www.youtube.com/watch?v=Afdxq84OYIUでは、ニュースは自動生成され、画面で見る前提になっていた。
アメリカでは、こうした影響で従来の地方紙が衰退しているところに、ピンクスライムメディア22https://www.asahi.com/articles/ASQDY5W79QD9UHBI033.htmlの地方紙が1000紙以上生まれている。記者は3人ほどで、穴埋め式のプロンプトが用意され、生成AIを活用して記事を量産23https://www.nhk.jp/p/bssp/ts/6NMMPMNK5K/episode/te/5K93LJ4Y71/。従来の地方紙では扱わない、質の低い記事が多いという。媒体によって1ページの情報量が異なるため、紙とWebの両方で運営しているのが特徴だ。
また、下川氏は言語の壁がなくなるとも予測した。テキストの翻訳ではDeepL24https://www.deepl.com/ja/translatorやGoogle翻訳25https://translate.google.com/などの活用が増えてきている。テキストの音声化、音声のテキスト化はAIによって精度が向上。会話についてはポケトーク26https://pocketalk.jp/がヒットしている。VoiceTra27https://voicetra.nict.go.jp/という情報通信研究機構のアプリでは、ポケトークと同様の技術を使用しているため下川氏も重宝しているとのこと。「地球から言語の壁がなくなり、生成AIとWebで1つになっていく感じがする」と語った。
Webによるマンガの世界配本は急務
最後に下川氏は、現在もクールジャパンは続いていて、日本人の心情が理解できる良質なマンガが量産されており、「Webでの世界配本は急務28https://japan.wipgroup.com/media/language-population」だと語った。これを踏まえて、AIを活用した各国語への翻訳29https://prtimes.jp/main/html/rd/p/000000032.000059295.htmlと、縦書きから横書きにした際、吹き出しの形状を絵柄を壊さずに自動レイアウトするといった技術が研究されると見通す。また、AIを使えばアクセシビリティを向上させるオーディオブック化や、ラノベ化も可能になるとした。
既刊は、海外版権を契約しているためWebでの世界配本に課題があるが、新刊の場合はそれがない。そして、アラブ系のコミック翻訳出版社が日本へ進出30http://animationbusiness.info/archives/15843したことに下川氏は注目している。しかし、海外では日本より表現規制が厳しい場合があるため、単に同じものを出すのではなく、各国に合わせて絵柄を変えたり、警告を出す必要性があるという。
今後、マンガ系出版社はライツビジネスも含めてWebでの世界配本ができれば、売上が数十倍になると下川氏は考えている。現在の大手出版社は1000億企業だが、数兆円規模になるというのだ。下川氏からは「紙からデジタル」の先について、期待を持てる話がいくつも出てきた。今も生成AIは目覚ましい勢いで進化を続けている。下川氏の語る近未来は、すぐそこまで来ているのかもしれない。