新聞電子化にまつわるエコノミー その2

ここで、次の話題(OCR)へ移る前に、ちょっとだけ、新聞電子化の工程について見てみましょう。


本日のお題

  • 1日あたり10万画像
  • 1月あたり300万画像
  • 1年あたり3600万画像


現在の日本において、

  • 平均的な電子化機器(スキャナなど)の性能・価格
  • 平均的な人件費
  • 平均的な家賃
  • 平均的なスキャン価格相場
  • 年間を通じた仕事量

などを考慮すると、普通のスキャン業者が1社で電子化できる最大量は、「10万画像/日」となるでしょう*1


この「10万画像/日」というのは、マイクロフィルムからの電子化の場合であって、もし、紙ベースの資料からの電子化の場合、効率が1/8〜1/6くらいに落ちますので、「1.2万画像/日〜1.5万画像/日」となります。


さらに、さらに、上記の「10万画像/日」ないし「1.2万画像/日〜1.5万画像/日」というのは、OCR変換作業*2を含んでいません。もし、OCRまでを含めるとすると、効率が1/10〜1/3くらいに落ちますので、「1.0万画像/日〜3.3万画像/日」や「0.4万画像/日〜0.5万画像/日」となります。


まとめると、こうなります。

原本の種類 OCRなし OCRあり
マイクロフィルム 10万画像/ 3.3万画像/日
紙ベース 1.5万画像/日 0.5万画像/日


というわけで、十分な準備期間をいただいた場合、1社で提供できる処理能力は、

  • 1日あたり10万画像
  • 1月あたり300万画像
  • 半年あたり1800万画像
  • 1年あたり3600万画像

ということになります。これを超える処理を集中的に行いたい場合、1社での作業は無理ですので、複数の会社での共同作業になるでしょう。ただし、作業が複数の会社に分担される、というのは、使用される機器、ソフト、管理手法などが異なる環境において、全ての画像を均質にしなくてはならないことを意味しますので、プロジェクト自体の難易度レベルはワンランク上がります。


さて最後に、「1日あたり10万画像」と言われても、あまりピンと来ないかもしれませんので、いろいろな形で言い換えて、ピンとしてみましょう。

  • A4サイズの原稿を300dpi相当でスキャンしたTIFF画像は、8MBくらいとなりますので、10万枚のTIFF画像は、800GBとなります。
  • 一番多い納品パターンは、TIFF+JPEGですので、その10万セットは、約1TBとなりますので、1日10万画像というのは、毎日1TBのHDD1台が必要になります。
  • TIFFからJPEGへの変換で、1画像あたり0.3秒だとしても、10万画像では8時間強かかります。
  • シリアルATAで接続されたHDDにTIFF10万画像をコピーすると、7時間強かかります。
  • シリアルATAで接続されたHDDにTIFF+JPEG10万セットをコピーすると、9時間強かかります。
  • さらに、たまにDVDで納品というケースもありますので、そのときは毎日200枚くらいが必要となります。
  • 1枚あたり6分くらいかかると、200枚焼くためには、2台のマシンで16時間くらいかかります。
  • 最後の最後にまだピンと来ない方のため、10万画像を用意しました。こんな感じです。http://denshika.cc/10000.php

*1:ただし、10万画像分の資料を持ち込んで、明日までやってください、と言われても無理です。準備期間をいただいて、さらに最低でも100万画像くらいの規模があれば、作業開始から10日間で納品できます、という意味になります。ただし、特急料金となります。通常料金でやりたければ、十分な準備期間を設けていただいて、1万画像/日くらいで納期日程を組んでいただく必要があります。

*2:OCR変換と省略していますが、OCR変換だけでなく、OCR前のゾーニング作業、OCR後のチェック・修正作業の一連を指しています