新聞電子化にまつわるエコノミー その2
ここで、次の話題(OCR)へ移る前に、ちょっとだけ、新聞電子化の工程について見てみましょう。
本日のお題
- 1日あたり10万画像
- 1月あたり300万画像
- 1年あたり3600万画像
現在の日本において、
- 平均的な電子化機器(スキャナなど)の性能・価格
- 平均的な人件費
- 平均的な家賃
- 平均的なスキャン価格相場
- 年間を通じた仕事量
などを考慮すると、普通のスキャン業者が1社で電子化できる最大量は、「10万画像/日」となるでしょう*1。
この「10万画像/日」というのは、マイクロフィルムからの電子化の場合であって、もし、紙ベースの資料からの電子化の場合、効率が1/8〜1/6くらいに落ちますので、「1.2万画像/日〜1.5万画像/日」となります。
さらに、さらに、上記の「10万画像/日」ないし「1.2万画像/日〜1.5万画像/日」というのは、OCR変換作業*2を含んでいません。もし、OCRまでを含めるとすると、効率が1/10〜1/3くらいに落ちますので、「1.0万画像/日〜3.3万画像/日」や「0.4万画像/日〜0.5万画像/日」となります。
まとめると、こうなります。
原本の種類 OCRなし OCRあり マイクロフィルム 10万画像/ 3.3万画像/日 紙ベース 1.5万画像/日 0.5万画像/日
というわけで、十分な準備期間をいただいた場合、1社で提供できる処理能力は、
- 1日あたり10万画像
- 1月あたり300万画像
- 半年あたり1800万画像
- 1年あたり3600万画像
ということになります。これを超える処理を集中的に行いたい場合、1社での作業は無理ですので、複数の会社での共同作業になるでしょう。ただし、作業が複数の会社に分担される、というのは、使用される機器、ソフト、管理手法などが異なる環境において、全ての画像を均質にしなくてはならないことを意味しますので、プロジェクト自体の難易度レベルはワンランク上がります。
さて最後に、「1日あたり10万画像」と言われても、あまりピンと来ないかもしれませんので、いろいろな形で言い換えて、ピンとしてみましょう。
- A4サイズの原稿を300dpi相当でスキャンしたTIFF画像は、8MBくらいとなりますので、10万枚のTIFF画像は、800GBとなります。
- 一番多い納品パターンは、TIFF+JPEGですので、その10万セットは、約1TBとなりますので、1日10万画像というのは、毎日1TBのHDD1台が必要になります。
- TIFFからJPEGへの変換で、1画像あたり0.3秒だとしても、10万画像では8時間強かかります。
- シリアルATAで接続されたHDDにTIFF10万画像をコピーすると、7時間強かかります。
- シリアルATAで接続されたHDDにTIFF+JPEG10万セットをコピーすると、9時間強かかります。
- さらに、たまにDVDで納品というケースもありますので、そのときは毎日200枚くらいが必要となります。
- 1枚あたり6分くらいかかると、200枚焼くためには、2台のマシンで16時間くらいかかります。
- 最後の最後にまだピンと来ない方のため、10万画像を用意しました。こんな感じです。http://denshika.cc/10000.php