OCRは時代の変化に弱い? Google Booksが古典文字「s」を「f」に誤認識

《この記事は約 1 分で読めます(1分で600字計算)》

【編集部記事】卑語文学の研究ブログ「Strong Language」が、Google社の書籍検索サイト「Google Books」のOCR機能の限界を指摘している。

 記事によると、1800年以前の英語圏ではアルファベット「S」の小文字が2種類使われていたが、Google製OCRはその1つをほぼ毎回「f」に誤認識。結果、「fuck」vs.「suck」の語彙分布を分析したときに、特定の時代で「fuck」の検出頻度が跳ね上がってしまうのだという。【hon.jp】

問合せ先:Strong Languageブログの記事( https://stronglang.wordpress.com/2015/04/03/google-ngrams-vs-long-s/

広告

著者について

About hon.jp Staff 7938 Articles
株式会社hon.jp(2018年3月31日で解散)スタッフによる記事のアーカイブです。ニュースメディア「hon.jp DayWatch」はNPO法人HON.jpが事業継承し、2018年10月1日より「HON.jp News Blog」へ名称変更、リニューアルして運営しています。リンク先が消えている場合は、Wayback Machineなどを利用すると、当時の記事が掘り出せるかもしれません。
タグ: