OCRはどのように間違いを犯すのか?

さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。


本日のお題画像

     


本日は、OCRについて、お話します。
http://denshika.cc/faq/faq4.phpも参照してください。)


OCRの技術を簡単に説明しますと、こんな紙面の画像があるとしますと、

http://chroniclingamerica.loc.gov/lccn/sn83030272/1879-07-01/ed-1/seq-1/

赤丸の記事に該当する部分を抜き出して、

さらに、1行を抜き出して、

さらに、単語を抜き出して、

さらに、文字単位に切り分けます。

     

ここまで来たら、各文字が、それぞれ何か、ということを計算します。


普通に1文字づつ計算をしていくと、たとえば、  を  と勘違いしたり、  を  と勘違いしたりします。


なので、上の「PIECES」という単語を

     

と勘違いする可能性があります。


実際に間違っている例をお見せしましょう。


http://www.archive.org/stream/treasureisland09stevgoog#page/n14/mode/1upに行ってみると、

という部分があります。そして、http://www.archive.org/stream/treasureisland09stevgoog/treasureisland09stevgoog_djvu.txtに行くと、OCRの結果があるのですが、該当する部分が、

XXVn. "PiBOBS OP Eight" 218

という感じで、見事に、誤変換しています。


そのほかにも、「PIBOBS」で検索すれば、出てきますよ。

(例)
http://newspapers.nla.gov.au/ndp/del/article/4814383
http://newspapers.nla.gov.au/ndp/del/article/3693201
http://eagle.brooklynpubliclibrary.org/Repository/BEG/1881/12/09/008-BEG-1881-12-09-01-SINGLE.pdfの4ページ
http://fultonhistory.com/newspaper%202/Syracuse%20NY%20Daily%20Courier/Syracuse%20NY%20Daily%20Courier%201857.pdf/Newspapers%20Syracuse%20NY%20Daily%20Courier%201857%20-%200997.PDF
http://cbsrfs.ucr.edu/batches/batch_ca_20070524_tahoe/sn84031933/00000000058/1859101401/0177.pdf


というわけで、OCRというのは、こういうミスをします。しかし、このようなミスは、ある程度予測可能ですので、すでに対策があります。JPEG2000のシリーズが終了したら、その対策について、お話します。