経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる

電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。

Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words.


http://www.dlib.org/dlib/july09/munoz/07munoz.html

というわけで、

経験上、単語レベルのOCR変換が80%以上の精度だと、あいまい検索により目当てのものがヒットする確率は95-98%の確率となる

とのこと。


では、さっそく、どんなもんなのか、実例で確認してみましょう。


These results clearly show that 2/3 of the newspaper titles have an average character accuracy above 80% accuracy. However, 1/2 have the same for word accuracy.

というわけで、これは「BL新聞デジタル化プロジェクト*1」におけるOCR変換の精度に関する報告からの抜粋で、上グラフが「文字単位でのOCR精度」をあらわしていて、下グラフが「単語単位でのOCR精度」をあらわしています。普通に考えれば分かると思いますが、「文字単位でのOCR精度」の方が「単語単位でのOCR精度」より高いはずです*2。そして、肝心の80%以上の変換精度についてですが、文字単位で考えると、全体の66%の新聞タイトルが合格していますが、単語単位で考えると、53%しか残りません。さらに追い討ちをかけておくと、

only a mere 1/4 have greater than 80% significant word accuracy.

という感じで、「aとかonだとか、まさか、こんな単語で検索しないでしょ、という単語を除いた"significant word"だけに焦点を当ててみると、たったの25%しか「80%ルール」をクリアしていません*3


だから何だ?ということも含めて、これは、最近の2009年7月/8月号の「D-Lib Magazine」の記事なので、詳細を知りたい方は、原文を読んでみてください。なかなか読み応えがあるものです。(http://www.dlib.org/dlib/july09/munoz/07munoz.html


さて、遅ればせながら、「BL新聞デジタル化プロジェクト」の紹介をしましょう。ご存知かもしれませんが、BLというのは、British Library(英国図書館)のことですので、名前の通り、イギリスのプロジェクトです。


URLは、http://newspapers.bl.uk/blcs/です。これまでご紹介したプロジェクトと異なり、このプロジェクトは、すでにスキャン作業などが完了し、有料閲覧サービスとして公開されています。*4通称(プロジェクトのコードネーム)は、「JISC I」ないし「JISC II」です。*5


さて、このプロジェクトは、3つの部分から成り立っています。

区分 名称 対象年代 規模 タイトル数
第一部 JISC I 19世紀 220万ページ 48
第ニ部 Burney collection 17〜18世紀 100万ページ -
第三部 JISC II 19世紀 110万ページ 22+α*6


第一部の「JISC I」ですが、公開データの名称は「19世紀BL新聞(19th Century British Library Newspapers)」です。概要としては、

19th Century British Library Newspapers has been developed by Gale in partnership with the British Library and offers national, regional and local 19th century British newspapers, taken directly from the holdings of the British Library.


http://gale.cengage.co.uk/britishlibrarynewspapers/

というわけで、「BLとGale社(http://www.cengage.jp/gale/)のパートナーシップで開発されたもので、BLの所蔵する新聞ないしマイクロフィルムを電子化したものです」。


第ニ部の「Burney collection」ですが、公開データの名称は「17、18世紀バーニーコレクション新聞(17th and 18th Century Burney Collection Newspapers)」です。概要としては、

17th and 18th Century Burney Collection Newspapers represents the largest single collection of 17th and 18th century English news media available from the British Library and includes more than 1,000 pamphlets, proclamations, newsbooks and newspapers from the period.


http://gale.cengage.co.uk/britishlibrarynewspapers/

というわけで、「17、18世紀のイギリスの新聞などを集めたコレクションで、規模としてはイギリス最大級のコレクションです」。


第三部の「JISC II」ですが、公開データの名称は「British newspapers 1620-1900」です。概要としては、

The objective for this project is to digitise some 1.1 million pages from regional and local newspapers from the 19th century and all of these are intended to be uploaded to the website currently hosted by Gale Cengage in partnership with the British Library by March 2009.


http://www.jisc.ac.uk/media/documents/programmes/digitisation/newspp.pdf


22 titles covering each region of the UK are in production with a further 70,000 pages of JISC 1 titles that started in the eighteenth century included.


http://www.jisc.ac.uk/media/documents/programmes/digitisation/bl_newspapers_public_plan.pdf

というわけで、「再びBLとGale社のパートナーシップで開発されたもので、19世紀の新聞、おおよそ110万ページを電子化したものです。JISC Iでやり残した18世紀の新聞、22タイトル、7万ページも含まれます」。


予算についてですが、JISC Iに関して、あまり予算が明示的に公開されていませんので、山勘ですが、200〜250万ポンド(約3.0〜3.5億円)ではないでしょうか*7。Burney collectionは、すでに電子化されたものを、13,500ポンド(約200万円)で買いました。JISC IIは、114.3万ポンド(約1.7億円)が予算として確保されて、その後、正確な実績値が、まだ入手できていません。という感じで、電子化コストとしては、1ページあたり約150円くらいでしょう。


ちなみに、このプロジェクトでは、保存用画像フォーマットとして非圧縮TIFFを使用し、閲覧用画像フォーマットとしてJPGとPDFを採用しています。

*1:これは何?というのは、とりあえず置いておいて、先に進めていきます

*2:なぜなら、meetがmootと変換されてしまった場合、文字単位では2勝2敗なのに、単語単位では0勝1敗だからです。

*3:これが現実です

*4:しかし、いろいろと複雑で、どのサイトを紹介してよいものか、わかりません。

*5:電子化された画像などを公開しているサイト「近世近代イギリス新聞アーカイブ」は、BNないしBNPと称されることもありますが、あまりに短いので、よっぽどのツウでない限り、BNと聞いて、「あー、あれね」と分かる人はいないような気がします。http://www.yushodo.co.jp/ypc/bri_news/bnp_guide.pdf

*6:JISC Iのタイトルから7万ページを追加として電子化なので、タイトル数は不明

*7:いつも外れますので、期待しないでください