新聞はこうして電子化される(1)

さて、このへんで、新聞電子化の現場をご紹介しましょう*1。本日の題材は、こちらのビデオです。(出所が書かれていない写真は、全てこのビデオ内から取りました。)


このビデオは、

Promotional video of the University of Kentucky methodology for newspaper digitization for the National Digital Newspaper Program

というわけで、米国ケンタッキー大学が、彼らの「やり方」を紹介したビデオです。この米国ケンタッキー大学は、先日ご紹介したNDNPの一環として新聞電子化に関わっています。


ところで、新聞を電子化する場合、2つの方法が考えられます。すでにマイクロフィルム化されている場合はマイクロフィルムから電子化し、マイクロフィルムが無い場合は、紙面を直接電子化していきます。本日は、マイクロフィルムからの電子化を見てみましょう。*2


(以下に使用する画像は、単なるイメージ画像であり、実際とは異なりますので、注意書きもあわせて読んでください)


図書館などに行くと、見ることができると思いますが、マイクロフィルムというのは、


写真:http://www.nucba.ac.jp/blog/index.php?ID=189

こんな感じです。

まず、どのマイクロフィルムを電子化するのかを選考するのですが、(かなりつまらない話なので)ここでは、省略します。



写真:http://www.lib.ynu.ac.jp/ANNAI/RIYOU/micro.html

次に、電子化対象のマイクロフィルムをチェックします。フィルムが切れたり、汚れていたりしないか、チェックします。もし、フィルムが劣化している場合は、スキャンをかける前に、複製をとることもあります。*3

次に、マイクロフィルムスキャナーにかけます。*4


時間のある方は、動画もご覧ください。(音声がなく、ちょっとつまらないですが)

スキャン画像のチェックを行います。
 


さて、スキャンされた画像の修正に入ります。


日本で撮影されたマイクロフィルムは、だいたい品質が良く*5、傾き補正などが、ほとんど必要ありません。しかし、念のため、スキャン画像全てに傾き補正を入れます。
傾き補正に関しては、こちらを参照してください。
http://d.hatena.ne.jp/bookscanner/20060919
http://d.hatena.ne.jp/bookscanner/20060920

傾きが直ったら、明るさやコントラストを調整するのですが、すでにスキャンされた画像を修正するのは、少し限界があります。なので、スキャンするときに、明るさやコントラストを調整します。

次に、紙面を、記事ごとに分割していきます。この工程が、新聞電子化の大きな特徴になります。書籍と異なり、新聞というのは、1ページ(1画像)の中に、たくさんの記事が、様々なレイアウトで組み込まれています。さすがに、このレイアウトを、自動的に検出する方法が(まだ)ありません。なので、このレイアウトを人間の目で確認して、それを効率よく入力していく作業が必要になります。この部分で、どのような工程、どのようなソフトウェアを使うのか、ということが、プロジェクトの予算を大きく左右します
 




レイアウトを設定すると、こんな感じになります。

そして、最後にこのレイアウト情報付きの画像を、OCRの工程へと引き渡します。
OCR工程では、レイアウトを計算に入れながら、各記事を文字データに変換して行きます。


OCRに関しては、こちらを参照してください。
http://d.hatena.ne.jp/bookscanner/20061004
http://d.hatena.ne.jp/bookscanner/20061008


OCR(オーシーアール)というのは、何ですか?
http://denshika.cc/faq/faq4.php


OCRの精度というのは、どのくらいですか?
http://denshika.cc/faq/faq5.php


以上がおおよその「スキャンされた画像の修正」工程になります。上の写真のように、

  • 手前右下で、スキャン画像の検査、傾き補正、明るさ/コントラスト補正
  • 左中央で、レイアウト追加
  • 真ん中で、各レイアウトの検査および相互の関連付け
  • 右奥で、OCRおよびその検査

という感じで進めていきます。

というわけで、本日は、新聞の電子化の現場を、マイクロフィルムからの電子化に絞って、紹介しました。


これからも、随時、いろんな側面に焦点をあてて、紹介していきます。

*1:書籍電子化の時もそうでしたが、現場を知らずして、あれこれ語るわけには行きません。http://kotonoha.cc/no/8141

*2:おおよその感覚として、プロジェクトとしては、マイクロフィルムからの電子化の方が、多いような気がします

*3:この写真は、正確に言うと、スキャン前のチェックではないと思われます。スキャン後に、画像内に異常があったので、それがスキャンの異常か、それとも、もともとのフィルムが悪いのか、を確認しているのだと思われます。結構、頻繁に発生しますので、このあたりの作業工程をどのように組んでいくのかが、重要です。

*4:この写真は、正確に言うと、スキャンをしているのではなく、フィルムの複製を作っているものです。フィルムの素材は、時間の経過とともに、劣化してしまうので、使えなくなる前に、複製をしていく必要があります。

*5:良すぎて、ちょっと心配になります