takaです。
Google BlogによるとGoogleは、OCRを使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功したそうだ。
Googleは、OCRの技術を使って、印刷媒体や画像上の文字や言葉をデジタルのテキストファイルに変換するようだ。
これからは、印刷物も、インターネット上のデジタル文字情報として認識でき、検索できるようになり、検索結果に現れた印刷物ドキュメントは、そのリンクをクリックするとPDFやHTML形式で読むことができるようになるらしい。
これによって、まだデジタル化されていない本や論文などの紙媒体が検索結果として得られるとしたら、とても大きな変化と言えます。
これには、膨大な処理能力と高度な画像認識技術が必要でしょう。
この難しい問題にチャレンジし解決策を見出したGoogleは、流石です。
でも反面、
OCRを使って印刷文書をテキストデータに変換する技術は、文字認識の精度がいつも問題になります。
アルファベットは、比較的単純であるが、日本語や中国語などの漢字系の文字は、複雑で文字数も多い。
はたして認識できるのでしょうか?
昔よりは進歩しているとは言え、現在のOCR技術では日本語の正確なテキスト化は難しいと思われます。
いつか日本語もある程度の精度で認識できるような時代がくるのでしょうか?
みなさんは、どう思われますか?