
《この記事は約 17 分で読めます(1分で600字計算)》
「ぽっとら」は、HON.jp News Blog 編集長 鷹野凌がお届けするポッドキャスト「HON.jp Podcasting」の文字起こし(Podcast Transcription)です。2025年4月1日に配信した第25回では、生成AIの普及がウェブや本の未来にもたらす影響について語っています。
【目次】
#25 生成AIと本の未来
こんにちは、鷹野です。今回は「生成AIと本の未来」をテーマにお話したいと思います。生成AI、Generative Artificial Intelligenceです。これがみなさんにとって身近になったのは、2022年11月「ChatGPT」が登場してからでしょうか。
それ以前にもたとえば、「Google翻訳」のアルゴリズムがニューラルネットワークを利用したものに変更されたのが2016年11月です。「ChatGPT」が登場するちょうど6年前のことです。そのころから機械翻訳の精度って飛躍的に向上したと思うんですね。
もう海外のウェブサイトで配信されている情報をパッと把握するくらいの使い方なら、「Google Chrome」ブラウザの上で右クリックして「日本語に翻訳」ってやるだけで、もうパッと日本語に変わってしまう。もうそれだけで済んじゃうんですよね。ツークリックですよ。めちゃめちゃ便利になりましたよね。
この2016年というのはいろいろエポックメイキングな年で、囲碁の「AlphaGo」というGoogleが開発した対戦用AIが、人間のプロ囲碁棋士に勝った。囲碁で人間に勝つのは非常に難しいんじゃないかって言われてたんですけど、ついに勝った。そんなことがあったのも2016年でした。
で、その翌年の2017年には、「Transformer」という深層学習モデルがGoogleの研究者などから発表されて、自然言語処理の分野で広く利用されるようになっていきました。Google翻訳で採用されたアルゴリズムもこの「Transformer」ってやつです。
いま広く使われるようになった生成AIの多くが、この「Transformer」という深層学習モデルを基礎としているんですよね。Googleすげぇって話なんですけど。(いきなり話題になった)「ChatGPT」は、Googleを出し抜いたかっこうになりますよね。
OpenAIの「ChatGPT」も、この「Transformer」を使ってます。「ChatGPT」のうしろのGPTって、Generative Pre-trained Transformersの略です。「Transformer」が発表されてから5年で「ChatGPT」が登場した、ということになります。
そこからMicrosoftがOpenAIと資本提携して「Bing検索」に組み込んだり、Copilot、副操縦士という名前を付けて、「Word」とか「Excel」とか「Windows OS」そのものに組み込んだりしたもんだから、Googleもそれに対抗してガンガンあたらしいサービスを投入してきたりとか。
「Facebook」とか「Instagram」のMeta社も対抗して自社開発のモデルを出したりとか、「X(旧Twitter)」イーロン・マスクの会社も追随したりとか。まあ、いろんな動きが起きてます。Appleも遅まきながら、「iPhone」や「Mac」に「Apple Intelligence」というAI機能の搭載を始めました。「Apple Intelligence」はちょうど今日、これを収録している4月1日から日本でも展開が開始されました。
あとは中国のスタートアップ企業DeepSeekが、けっこう限られた計算能力でも高性能を発揮できるっていうAIモデルを、なんと無償で提供を始めたり――そういうオープンモデルを対抗して始めたりとか、などなど。生成A関連だとここ数年、もうほんと毎日のようにいろんなニュースがあって、ちょっと目を離してると話題に置いていかれるような状態になっているかと思います。
ChatGPTの“ジブリ風”画像生成
先週は、「ChatGPT」がまた新しくなって、アップグレードして新しい機能が追加されて、ジブリ風の画像が生成できるようになった。そんな話題でもちきりでしたね。モリアキさん、簡単に説明していただけますか?
はい、モリアキさんありがとうございます。これ、このポッドキャストをお聞きのみなさん、試されました? 私の周囲、とくに「Facebook」だとここ数日ですね、ニュースフィードにこのジブリ風の画像がビュンビュン飛び交っていて、ちょっとうんざりするような状況になっています。
まあ、3日もすればみんな飽きるかなと思ってたんですけど、「Facebook」のニュースフィードって数日前の投稿もレコメンドしてくるんですよ。だからまだ今日もジブリ風の画像だらけになってます。プロフィール画像もジブリ風に変える人が多くて「もういいよ! お腹いっぱいです」って気分になってます。
私は、こういうみんながウワッと殺到している状態のときって、静観するようにしてるんですよね。ハスに構えていると言ってもいいかもしれませんが。だからまだ触ってません。もう触らなくてもだいたい結果は見えますし、面白くもなんともないだろうなって思えてですね。今回は検証してみる気にもなれませんでした。
この流行ってるって状況の中、著作権法を独自解釈して合法だ違法だといろいろ騒ぐ声も見えるんですけど、今回は専門家の動きがすごく早かったですね。さきほどモリアキさんに紹介してもらった弁護士ドットコムの記事は、私が非常に信頼している、著作権法を専門とした弁護士・福井健策さんによる解説です。
非常に素早くて、非常にわかりやすい解説だと思います。著作権に限らず、利用する際に注意すべき点ってのが網羅されてまして、ああ、ほんとうにさすがだなと。私が「たぶんこれはこうだろうな」って思ってた見解とも相違ないことも確認できました。まだ読んでない方は、あとでぜひ読んでみてください。
生成AIが普及していくと、5年後、10年後にどうなる?
これ、技術的なところだとですね、「Stable Diffusion」とか「Adobe Firefly」なんかの、従来の画像生成AIで使われているのが「拡散モデル」といいまして、ランダムなノイズを加えて拡散させるプロセスってのを学習させて、逆に画像を生成するときはノイズを除去していく。除去していってデータを復元していくっていう仕組みが拡散モデルってやつなんですね。
ところがいま話題になってる「ChatGPT」の「GPT-4o」とか、「Google Gemini 2.0」ってモデルで採用されているのが「自己回帰モデル」というやつで、過去のデータと現在のデータをもとに将来の予測を行う。回帰分析ってやつですね。そういう手法になっているようです。
技術的なところではと言いながらですね、私も(技術は)よく分かってないところが結構あるんですけど。そういう難しい話は置いといてですね。これだけ話題になると、今後は画像生成のAIに関しても広く一般に知られるようになって、多くの人が利用するようになっていくんだろうなと。そんなことを感じてました。
でね? 今回のテーマは「生成AIと本の未来」なんですけど、これからこの生成AIってやつがもう当たり前の存在として世間一般に普及していくわけですよね。そうなったとき、これから5年後とか10年後くらいに、本を取り巻く環境というのがどんな状態になっているだろうか? というね。まあ、たぶん当たらない、当たらない占いみたいな話をしてみようかな、というふうに思いました。
私は楽天的なんで、あんまり悲観的な予想はしないです。こうなったらいいなっていう、希望的観測を2つほど挙げます。ほかにもいろいろ思いついたんですけど、ちょっとめちゃくちゃ長くなっちゃいそうだったので、今日は2つだけお話しします。
価値ある情報の多くがペイウォールの向こう側になる
まず1つ目。「生成AIと本の未来」というテーマで最初に思いついたのが、ウェブが今後、5年とか10年後にどうなってるか? についてです。伝統的なメディアで言えば雑誌とか新聞みたいに定期的に刊行されている、時事の事象を扱う比較的短めの記事を配信しているような領域の話です。
メディアがいま、ウェブにおいては結構な割合で、無料でニュースを配信してるんですよね。たとえば「Yahoo!ニュース」とか「SmartNews」とか、そういうアグリゲーターからは対価はもらいつつ、ユーザーは無料で閲覧できるという形でのニュース配信を行っていて。(その上で)自社のメディアでもニュースを配信して、みたいなことをやってるわけなんですけど。
生成AIがそうやって配信された情報を元に、Deep Searchとかでそういうのを出力するための材料として使う。学習用というよりは、AI検索の方ですね。Googleだと「AI Overviews(AIによる概要)」ってやつが、いま検索結果にときどき出てきますけど、ああいう使い方です。
メディア側としては、ああいう使い方はされたくないわけですよね。自社でコストをかけて作った記事、ニュース記事を、そうやって巨大IT企業、AIの企業に、タダで使われてしまう。そういうのをなるべく避けたいと考えてるわけです。
これ、前から言ってることなんですけど、結果どうなるかっていうと、価値ある情報の多くがペイウォールの向こう側になります。これはもう間違いないでしょう。ここ数年のあいだに、ペイウォールを採用してるメディアが3倍に増えたみたいな情報もあります。[追記:記事化時に調べなおしたら「3倍」ではなく「倍」でした。お詫びして訂正します。]
価値ある情報の多くがペイウォールの向こう側――まあ少なくとも会員登録くらいは必要ぐらいの領域の向こう側に行ってしまう。そういうことがまず起きると思います。そうなると、無料で誰でも閲覧できるっていう状態から、そうじゃなくなるわけですよね。もう勝手にAIのロボットが情報収集できないような領域に行ってしまう。
そうすると、なにが起こるか。まあ、間違いなく情報格差は大きくなるんですよね。情報格差ってなにか? というと、情報って無くても死なないんですよね。無くても死なないんですよ、情報って。
情報って、知ってると便利で役に立つとか、逆に、知らないと損をするとか、そういう性質のものなんですよね。情報は無くても死なない。死なないんですけど、知ってると得をする、差がつく。それがまさに情報格差ってやつですよね。
私は若いころ「新聞くらい読んでおけよ」なんてことを、よく上の世代の方々から言われてました。で、「新聞くらい取ってますよ」って言い返したりすると、「複数の新聞を取れ」「複数の新聞でクロスチェックしろ」みたいなことをよく言われたものです。
で、新聞一紙取ると、月3000円から4000円ぐらいかかるわけですよね。それを複数っていうと、月1万円とか軽く飛んでっちゃうわけですよ。いやまあ、若い身空でそんなのなかなか難しいっていうのはあったわけですけど。一紙だけは、30代前半ぐらいまでは取ってたかな。
一人暮らしをするようになったのが大学入ってからなんですけど、そこから15年ぐらいは自分で新聞を取ってた時期があったんですね。いまその、月に3000円から4000円みたいなサブスクリプションって、まあ、あんまりないですよね。あってもちょっとハードル高すぎちゃって、ちょっと契約っていうところには至らないかなみたいな。
でも、ちょっと冷静に考えてみるとですね。いま私が契約している、本に関連するサブスクのサービスは、順にあげていくと「dマガジン」「楽天マガジン」「Kindle Unlimited」。「スマートニュース+」も最近契約しました。「カクヨムネクスト」は1年前からです。あとは「ブックウォーカー読み放題」、これはほぼ毎日使ってます。あとはオトバンク「audiobook.jp」。
新聞だと「日本経済新聞」「朝日新聞」「毎日新聞」。あとは「文化通信デジタル」と「宣伝会議デジタル」も契約してます。あとは「theLetter」と「note」のマガジンで有料サブスクのを3つか4つぐらい契約しててですね。
これ、あの、合計すると、結構な額になってますよね。まあ、そういうのがみんなペイウォールの向こう側ですから、契約してない人には届かない情報なわけですよ。そういう状況がいずれ……そうじゃないと価値ある情報にアクセスできなくなるっていう状態が、本当にこれから訪れるんだろうなと。
で、無料でアクセスできる範囲でももちろんいろいろ情報収集できるんでしょうけど、無料で収集できる範囲、アクセスできる範囲って、ゴミの山が築かれてくと思うんですね、これから。そびえ立つゴミ。キュレーションサイトって、2016年ぐらいに話題になりましたけど、記事の最後に「いかがでしたか?」っていう定型文で締める、そんな記事だらけになった。
それでSEO対策をして、検索で流入を増やして稼ぐみたいな。そんなメディアがたくさん出てきて、そこで発信されてる情報はもう本当にこう……あんまり価値がないゴミみたいな情報も多くて。まあ、「いかがでしたかブログ」みたいな揶揄をされることも多かったりするわけですけど。
生成AIが、DeepSearchとかって検索で探してくる対象が、みんなそういう……ほとんどがそういうゴミの山ばかりになっちゃったとしたら。またそれで生成AIによって、ゴミが大量に再生産されるみたいな。そんな状況が起きちゃうわけですよ。価値ある情報の多くがペイウォールの向こう側になるっていう状況の一方で、生成AIでそびえ立つゴミが生成されるっていうね。
そういう二分された情報格差が起きたとき、これは今年の正月に書いた予測記事でも触れたんですけど、その情報格差を解消するためには図書館、ライブラリーの果たすべき役割ってのが今後、すごく大きくなってくるんだろうな、と。
そんなのが1つ目の予想でした。価値ある情報の多くがペイウォールの向こう側になる。まあ、現状でもすでにそうなりつつありますけど、それがますます今後加速していくんだろうな、という予想です。
生成AIによって価値ある本が発見されやすくなる
2つ目。書物とか書籍とか図書とか、そんなふうに呼ばれている不定期の刊行で1つのテーマとか1つのイシューを掘り下げた比較的長めのコンテンツの領域についてです。こっちはもうちょっと明るい予想で、生成AIによって本が発見されやすくなる未来が来るんじゃないか、なんてことを思ってます。
現状でもこの、商業出版物ってだんだん……年間だと6万点の中ばくらいまで減ってます。一時期、8万点超えそうな時期もあったんですけど。だんだんいま減ってるんですよね。とはいえ、年間に6万5000点とか新しい本が毎年出ている状態だと、その中で埋もれていってしまう本ってのもたくさんあるわけですね。現状だと。見つけられなかった本、誰かに見つけられなかった本って、存在してないのと同じなわけですよ、発見されるまでは。
で、いま実は、『ブック・ウォーズ:デジタル革命と本の未来』っていう本を読んでるんですね。今年の1月にみすず書房から刊行された本なんですけど。ずいぶん高かったんですけど。著者のジョン・B・トンプソンという方が2018年ぐらいまでの状況をヒアリングして書いた本なんですね。
当然、最近のこの生成AIの隆盛っていうのは踏まえていない本です。で、いま第4章まで読んで――まだだいぶ序盤なんですけど。いちおう目次を見る限り後ろの方でもその、最近の生成AIの状況とかってのはまったく踏まえてないなってのは確認してるんですけどね。
その第4章で、Googleが2004年に始めたGoogle Books、Google PrintとかGoogle Books Scan Projectとか、いろんな呼び方もされてますけど。要は、紙の本をスキャンしてテキストデータにして、そのテキストデータにインデックスをつけて検索できるようにする。そんなプロジェクトをGoogleが2004年に始めて、(権利者から訴えられ)裁判になって、それがGoogleの勝利で終わるまで10年かかった。
そのあたりの経緯が記されてるのがこの『ブックウォーズ』の第4章なんですけど。そこで書かれてることが、結構印象的だったんです。そのGoogle Booksのプロジェクトを始めたのは「検索アルゴリズムの強化」(が目的)だと。とにかく検索アルゴリズムを強化して、他の検索エンジンに勝つため。その検索結果の質の向上を図るためなんだと。
そういう(Googleの当時の)言い分がそのまま書かれていてですね。それを信じてるような書きっぷりで第4章は終わってるんですね。裁判に10年とかかかっちゃって、その間にGoogleは検索のエンジンの覇者になってしまった、みたいな。そんな書き方がしてあるんですけど。
いま、この生成AIが普及し始めた段階で、その「単に検索結果の質の向上を図るために紙の本をスキャンしてるんだ」という当時の言い分を信じる人がどれくらいいるのかな? って。読んでて思わずにはいられなかったんですね。
Googleって、DeepMindという組織を作って、AGI(Artificial General Intelligence)、汎用人工知能の開発を目指してるんですよね。当時スキャンされた本の中身って、おそらくGoogleの生成AIの学習用に使われてますよ。少なくとも、著作権の保護期間が切れてパブリックドメインになってる本は、間違いなく学習用に使われてます。
ハーバード大学が昨年末に公開した約100万冊のパブリックドメインの書籍を含む高品質なデータセットってのがあるんですけど、これね、Google Booksプロジェクトの一環で、ハーバード大学の図書館が持ってた蔵書をスキャンしたものだということが明かされています。間違いなくそれ、学習用にGoogleが使ってるわけですよね。
で、そのデータセットを公開してる組織には、Googleじゃなくて、MicrosoftとOpenAIが資金提供してるみたいな話もあってですね。じゃあ、そっちも間違いなく使ってんだろうなっていう話ですよね。Google Booksプロジェクトの一環でスキャンされたデータは、そのテキストにインデックスをつけて検索できるようにするだけじゃなくて、(AIの)学習用のデータとしても使われている、という話です。
日本でも国立国会図書館が、過去のアーカイブされてる叡智をデジタル化して、紙だといずれ劣化して保存できなくなってしまう可能性もあるんで、デジタル化して保存しましょうと。そのデジタル化した本の中身をOCRの技術を使ってテキスト化して、そのOCRの技術改善も行って、全文のテキストを串刺しで検索できるような形のものも提供しましょう、というのをやってるんですね。
いまどんどん国立国会図書館が持ってる過去の本のスキャンが進められて、片っ端からテキストデータが全文検索できるような形にどんどん進行してます。いま国立国会図書館デジタルコレクションで検索をすると、デジタル化が終わって全文テキスト(検索)の対象になってる――古い本ほど先にそういう形になってるんですけど。その古い本ほど先に、中に書かれてることが発見しやすいっていう、逆転現象が起きてるんですね。
いまは20世紀の本までで、20世紀でもわりと近いほうの年代の(本は)まだデジタル化が行われていないんで、70年代、80年代、90年代(初頭)くらいまでなんですけど、そのくらいの年代の本のほうが、検索に引っかかるんですよ。本文に書かれていることが、見つけやすいんですよ。
まあ、いまはまだ20世紀の本までですけど、いずれすべての本が中身を見る前に検索して探せるようになる。アマゾンの「なか見!検索」とか「Googleブックス」が目指してたのはそういう方向性ですけど、いずれそういう未来が訪れるだろうな、と。あとちょっとのとこまで来てますよね。
おそらくこれ法律的なところで言っても、生成AIが本の中身の概要をまとめて出力するってのはですね、「権利者の利益を不当に害さない限り」つまり本が売れる手伝いをするような、そういう使い方であれば、法律的にも問題ないはずなんですね。
ここからちょっといろいろ発想も飛躍するんですけど。「Google検索」のアルゴリズム、これ基礎ってバックリンク(PDF)っていう仕組みなんですよね。定評のある大手のサイトからリンクが貼られると、そのリンクが貼られた先にも参照元の価値が渡されて、そのページには価値があると見なされるようになる、みたいな。そういうのの連鎖ですよね。それが(アルゴリズムの)おおもとの基礎にあって。
本の世界でも、同じようなことが可能になるはずなんですね。参考文獻とか、巻末にまとめられてたり、章の最後にまとめられてたり、あるいは本文の中で直接言及されてるケースもあると思うんですけど。本の中身が全文テキストデータ化されたときに、当然どの本が言及されてるかみたいなことも調べることが可能になるわけですよね。
そうすると、この本の中で過去のこの本のことが言及されてるよっていう膨大なデータ――リンク構造みたいなのが形成できるようになるわけで。そのバックリンクによって、本の価値みたいなものも、「Google検索」と同じ考えでできるようになってくるんじゃないかな、と。
まあ、いまふっと思ったのが、その「Google検索」と同じようにバックリンクを悪用して、ブラックハットSEOって呼ばれてるようなやり方をするような人も出てくるかもなあ、とも思ったんですけど。(記事化時追記:つまり、「Google検索」のアルゴリズム改善と同じように、悪意と戦い続ける必要もあるでしょう)
まあ、その本の中身というところについて、ちょっと違った角度で検証できるようになる。あるいは、探すことができるようになる。中身の薄い本って、ありますよね。本当にペラペラな内容を、もう薄く伸ばしてページ数だけ増やしたみたいな。そういう本は、読む前にバレますね。読む前にバレるようになりますよ。中身が検索できるようになったりするとね。
そうなると、本当に読む価値がある重要な本、定評のある本というのが、選びやすくなる、選ばれやすくなる。そんな効果も出てくるんじゃないかなみたいな。ちょっと牧歌的かもしれませんが、そんな未来がいずれ訪れるんじゃないかな、なんてことを思いました。