News Ticker

[ 2026年4月5日 ] Kindleストアでこんどは綾辻行人氏作品の偽物など日刊出版ニュースまとめ 2026.04.05 日刊出版ニュースまとめ
[ 2026年4月4日 ] Claude Codeのソースコード流出でAnthropicがDMCA削除申請など日刊出版ニュースまとめ 2026.04.04 日刊出版ニュースまとめ
[ 2026年4月3日 ] NotebookLMに他人の著作物をアップロードした場合の法解釈など日刊出版ニュースまとめ 2026.04.03 日刊出版ニュースまとめ
[ 2026年4月2日 ] Originator Profile技術研究組合が実証実験に成功など日刊出版ニュースまとめ 2026.04.02 日刊出版ニュースまとめ
[ 2026年4月1日 ] 出版産業における返品削減研究会とりまとめ（案）など日刊出版ニュースまとめ 2026.04.01 日刊出版ニュースまとめ
[ 2026年3月31日 ] 書協が生成AI対応の契約書ヒナ型を準備など日刊出版ニュースまとめ 2026.03.31 日刊出版ニュースまとめ
[ 2026年3月30日 ] 「KADOKAWAの筆頭株主、ソニーグループから“物言う株主”オアシスに」「AIの出力結果を検証もせずそのまま用いるとこうなる」など、週刊出版ニュースまとめ＆コラム #708（2026年3月22日～28日）週刊出版ニュースまとめ＆コラム
[ 2026年3月29日 ] AIの出力結果を検証もせずそのまま用いるとこうなるなど日刊出版ニュースまとめ 2026.03.29 日刊出版ニュースまとめ
[ 2026年3月28日 ] KADOKAWAの筆頭株主、ソニーグループから“物言う株主”オアシスになど日刊出版ニュースまとめ 2026.03.28 日刊出版ニュースまとめ
[ 2026年3月27日 ] NHK「100分de名著」公式X（旧Twitter）アカウントが3月末で閉鎖など日刊出版ニュースまとめ 2026.03.27 日刊出版ニュースまとめ

OCRは時代の変化に弱い？ Google Booksが古典文字「s」を「f」に誤認識

2015年4月6日 hon.jp Staff hon.jp DayWatch Archive

《この記事を読むのに必要な時間は約 1 分です（1分600字計算）》

【編集部記事】卑語文学の研究ブログ「Strong Language」が、Google社の書籍検索サイト「Google Books」のOCR機能の限界を指摘している。

　記事によると、1800年以前の英語圏ではアルファベット「S」の小文字が2種類使われていたが、Google製OCRはその1つをほぼ毎回「f」に誤認識。結果、「fuck」vs.「suck」の語彙分布を分析したときに、特定の時代で「fuck」の検出頻度が跳ね上がってしまうのだという。【hon.jp】

問合せ先：Strong Languageブログの記事（ https://stronglang.wordpress.com/2015/04/03/google-ngrams-vs-long-s/ ）

About hon.jp Staff 7938 Articles

株式会社hon.jp（2018年3月31日で解散）スタッフによる記事のアーカイブです。ニュースメディア「hon.jp DayWatch」はNPO法人HON.jpが事業継承し、2018年10月1日より「HON.jp News Blog」へ名称変更、リニューアルして運営しています。リンク先が消えている場合は、Wayback Machineなどを利用すると、当時の記事が掘り出せるかもしれません。

タグ：グーグル

© HON.jp / This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.