2010-01-12

本日のお題：所信貫徹

前回、最近のOCRというのは、実はOWRであることを説明しました。ところが、今日は、最近のOCRというのは、実はOWRであるんだけど、さらに、もう一歩進んで、OCRに回帰しているんだよ、という点を見ていきましょう。

さて、ちょっと離れた場所からスタートしましょう。

「所信貫徹*1」というキーワードで、Googleに聞いてみましょう。

という感じで、「もしかして、あなた、初志貫徹のこと言いたいの？」と見透かしてきます。

Googleは、

「初志貫徹」という言葉は、「初心貫徹」や「所信貫徹」などと、よく混同される

ということをご存知です。賢いですね*2。

このような、よく混同（Confusion）される単語などを関係付けておくものとして、Confusion Matrix（コンフュージョン・マトリックス）という表（Matrix）があります。

Googleが持っているConfusion Matrixは、

人間のタイピングミス
IMEなどの変換ミス
同音異義語
音が似てるので、勘違いしてそうなもの

などが関連付けられているのでしょう。

最近、Googleが日本語入力システムを発表しましたが、技術的には、同じ類ですね。その開発者のブログにこう書いてありました。

スペルミスの多くがインプットメソッドの誤変換に起因していることと、チームで開発した「もしかして」システムが高い精度でそれらを修正していく様を目の当たりにして、Google 日本語入力の可能性を確信しました。

http://googlejapan.blogspot.com/2009/12/google_03.html

さて、話をOCRへ戻しますと、すでに、みなさんもお察しのように、OCRで使うConfusion Matrixは、OCRの変換の時に発生するであろう混同（Confusion）を集めてきて、作られます。（みなさん、日本語での例がお知りになりたいようですので、リクエストにお応えして）例えば、「意見」と「煮見」*3、「点数」と「占一数」*4など。

そして、前回からの続きで言いますと、OWRは変換時に、辞書との照合により、「もしかしたら、この単語は、変換を間違えたかもしれないな」とお知らせをしてきます。それを受けて、次のシステムがConfusion Matrixと照合することで、「もしかして、○○ですか」というリストを作成することができるわけです。そして、次のシステムないし人間に最終判断を委ねるのです。

というわけで、最近のちゃんとしたOCRというのは、ちゃんと混同（Confusion）を認識（Recognition）しているわけでして、その意味で、OCR（Optical Confusion Recognition）なのです。ただし、OCRをこの意味で使っているのは、誰もいないので、ご注意あれ。

さて、ここで、確認問題です。*5
私は、

このページ（http://www8.cao.go.jp/youth/kenkyu/tekiou_g/pdf/0-1.html）は、OCRで一度読まれて、そのデータを元に作成されたHTMLである

と疑っています。なぜでしょ？（しばらく考えてから、http://denshika.cc/ocr.phpへどうぞ）

*1:この言葉は、言いたいことは分かるけど、おそらく、単なる言い間違いか、自分の信念（所信）を意地でも押し通して（貫徹）やるぞー、という意味の造語かな。

*2:たまに、ウルセーなー、と思うことがありますが

*3:http://www.google.co.jp/search?q=%22%8E%CF%8C%A9%82%F0%22

*4:これは日本語の縦書きをOCR変換するとき出現するもので、「点」の下の4つの点々を、漢数字の「一」と混同するわけです。こちらから確認してみよう。http://www.google.co.jp/search?q=%22%90%E8%88%EA%90%94%22

*5:って、なんで突然？

電子化

OWRから、再び、OCRへ