情報の洪水と捏造の時代におけるデジタルアーカイブの意義

《この記事を読むのに必要な時間は約 6 分です（1分600字計算）》

　デジタルアーカイブ推進コンソーシアム（DAPCON）は7月18日、2019年デジタルアーカイブ産業賞授賞式典を開催した。1990年代半ばに世界で初めて「デジタルアーカイブ」という言葉を提唱した月尾嘉男氏（東京大学名誉教授）に特別功労賞が授与され、「デジタルアーカイブの危機」と題した記念講演会が行われた。本稿では、その講演の模様を私見を交えつつレポートする。

【目次】

“情報洪水”の時代
機械対機械の情報交換が大半を占める
データを貯蔵する場所や電力の問題
プライバシーゼロの監視社会と公正さ
参考リンク

“情報洪水”の時代

　月尾氏はまず、アーカイブの成立条件として「収集」「分類」「検索」の3つを挙げた上で、爆発的に情報量が増え続けている“情報洪水”とも言うべき近年の状況について解説した。

　テクノロジーアナリストのブレット・スワンソンは2007年1月に、Exaflood という造語を生みだしている（The Wall Street Journal “The Coming Exaflood”）。これは Exabyte（10の18乗）の flood（洪水）が起きているという意味で、人類が生み出す情報量がエクサバイト単位の時代になる、という警鐘だ。

　では1エクサバイトとは、どれほどの情報量か。たとえば、大英図書館が250年以上かけて集めてきた蔵書数は約1200万冊だ。すでにこの時点で、人間がその生涯をかけても処理できるような情報量ではない。ところが1冊あたりの情報量を1メガバイトとすると、大英図書館の総情報量は12テラバイト。つまり1エクサバイトは、大英図書館8万3000館ぶんに相当するのだ。

　International Data Corporation（IDC）によると、年間情報量は2010年ごろには、次の単位である1ゼタバイトを超えている。10の21乗、1エクサバイトの1000倍だ。そして、このままいくと2020年には年間40ゼタバイトに到達すると予想されている（IDC “The Digital Universe in 2020” ※2012 / PDF）。月尾氏は、2015年時点での年間情報量を人間が読もうと思うと、24時間ぶっ続けでも160兆年かかるという試算を、冗談めかして語った。

機械対機械の情報交換が大半を占める

　もう1つ困ったことは、人間とは関係なく、機械間でやり取りされる情報量の増大だという。いわゆる IoT（Internet of Things）だ。人間対人間（P2P）のやり取りは4％に過ぎず、人間対機械（P2M）ですら8％、残りの88％はすでに機械対機械（M2M）でやり取りされている情報だという。これをどこまでアーカイブするか？というのが問われていると月尾氏。

　なお、このグラフの出典である総務省「平成27年版情報通信白書」を確認してみたところ、割合として大きいのは防犯・遠隔監視カメラデータ（約8.5エクサバイト）、センサーデータ（約3.5エクサバイト）、POSデータ（約1.1エクサバイト）であった。

データを貯蔵する場所や電力の問題

　次に月尾氏が挙げたのは、データの「検索」について。グーグルに代表されるキーワード検索はもちろんのこと、画像による類似画像の検索や、アップル「Shazam」のような音による曲の検索なども、いまでは容易に行えるようになっている。

　ちなみに、筆者が愛用している「グーグルフォト」は、クラウドに自動保存されている画像に対し、自分ではタグ付けなど人為的な操作はまったく行っていないが、「猫」や「犬」などのキーワード検索によって、実際に犬猫が写っている画像（※イラストを含む）をかなりの精度で見つけ出すことができる。つまり、すでにグーグルのAIは、写真になにが写っているかを判別できるようになっているのだ。

　閑話休題。月尾氏が次に挙げたのは、そういったデータを「貯蔵」する場所についての問題だ。広大な土地に巨大なデータセンターを建設し、M2Mでやり取りされている膨大なデータを徹底的にアーカイブしている組織も存在する。世界で最大のデータセンターは、アメリカ国家安全保障局（NSA：National Security Agency）が持っており、通信でやり取りされたデータはすべて保存されていると言われている。

　他にも、アマゾン、フェイスブック、グーグルなどの巨大IT企業が、巨大なデータセンターを複数持っている。顧客がいつなにを買ったか、なにを見たか、どこへ行ったかなど、あらゆるデータが保管されている。膨大な電力も必要となるため、発電所の近くへ建設したり、環境に配慮して自社で発電施設を持ったりしている。また、冷却しやすいよう、寒い地方にデータセンターを建設するような動きもある。

プライバシーゼロの監視社会と公正さ

　また、月尾氏は「もうちょっと物騒な問題」として、プライバシーについての問題を挙げた。グーグルの元CEOエリック・シュミットは、2010年の時点ですでに「我々はあなたがいまどこにいるか知っている。これまでどこにいたかも知っている。いまなにを考えているかもほぼ知っている」という発言をしている（TechCrunch “Eric Schmidt: “We Know Where You Are, We Know What You Like””）。検索ログ、閲覧履歴、スマートフォンの位置情報などあらゆる情報が、保存・分析・利用されているのだ。

　また、エドワード・スノーデンは2013年に、NSAの「PRISM」による国際的監視網についての内部告発を行った。彼の持ち出した資料には、マイクロソフト、ヤフー、グーグル、フェイスブック、アップルなどのIT企業が、NSAの通信傍受に協力させられていたことが記されていたのだ。

　また、デジタルアーカイブに特化した問題として、月尾氏は保存されたデータの「公正さ」についても挙げた。例えばアメリカ議会図書館による「アメリカン・メモリー（American Memory）」は、アメリカの歴史上のさまざまな記録を公開し誰でもアクセスできるようにするものだが、そこで配信されているのは「アメリカにとって都合のいい情報」だと月尾氏は指摘する。つまり、アメリカにとって都合の悪い情報は、ここには保存されていないというのだ。

　それをもっと露骨にやっているのが、中華人民共和国の「グレート・ファイアウォール（金盾）」だと月尾氏。下図は、アメリカの非営利団体 Freedom House が世界の国々のインターネット環境の自由さを調査したレポート “Freedom on the Net 2018” をグラフ化したものだ。

　月尾氏は最後に、贋作問題についても触れた。トランプ氏が大統領へ就任してから頻出するようになった「ポスト・トゥルース」や「オルタナティブ・ファクト」。そして、本物そっくりの偽物動画が制作できてしまう「ディープ・フェイク」など。「よく考えてアーカイブしないと、間違った情報が世界中から参照されてしまいます。ぜひ、みなさん対策を考えてください」という呼びかけで、月尾氏の講演は締めくくられた。

　これは私見だが、仮にフェイク情報だとわかっていても、可能な限りアーカイブしたほうがいいと思う。アーカイブする際、あらかじめ「これはフェイクだ」というメタデータを付与しておけばいい。あとからフェイクと判明した場合も同様、消去するのではなく、「これは間違っている」「理由はこの情報を参照すればわかる」といったメタデータを付与するのだ。

　というのは、そのとき「間違っている」と判断したことが、間違っている場合もあるのだ。消してしまっては、あとから検証できない。また、どういうフェイクがいつ誰によってどのように生み出されたのか、そして、どれくらいの人が騙されたのか、その背景にはなにがあるのか、などが記録として残っていないと、恐らくまた似たようなフェイクが生まれることになるだろう。

　そういう意味では、フェイクのアーカイブにも価値はあるのだ。

参考リンク

2018年度デジタルアーカイブ産業賞受賞内容 – デジタルアーカイブ推進コンソーシアム
https://dapcon.jp/uncategorized/da-industrial-award-1/
デジタルアーカイブという言葉を生んだ「月尾嘉男」- ミュージアムIT情報：影山幸一 04年1月
http://www.dnp.co.jp/artscape/artreport/it/k_0401.html