新聞電子化にまつわるエコノミー

オランダのDDDプロジェクトをご紹介したついでですので、ここで、ちょっとだけ、新聞電子化のコストだとか、予算だとか、その他の数字について見てみましょう。


DDDプロジェクトのコスト内訳
http://www.ifla.org/files/hq/papers/ifla75/99-klijn-en.pdf 4ページ目より

上の図は、DDDのプロジェクトマネージャーであるEdwin Klijnさん(下写真)が、今年8月にイタリアで発表したときに提示したものです。


この図の詳細を検討する前に、Edwin Klijnさんの説明を順を追って、確認していくことにします。


まずは、プロジェクトの全体数を再確認しておきますが、

By digitizing 8 million pages from Dutch national, regional, local and colonial newspapers still only a small selection (about 8%) of all Dutch newspapers ever published is included in the project.

というわけで、「今回のDDDプロジェクトでは800万ページを電子化する」とのことですが、その数字は「これまでにオランダで発行された新聞の約8%に過ぎない」とのことです。つまり、オランダでは、これまでに、1億ページくらいの量の新聞が発行されている、ということになります。(ちなみに、前回の復習ですが、オランダでは、1618年以来、7,000種類以上の新聞がでています。


続いて、電子化していく速度についてですが、

According to the project planning the supplier has to process an average of 65.000 pages per week.
This does not only include scanning, but also OCR’ing and metadata processing.

というわけで、「スキャンをして(画像の補正などを施し)、OCRにかけて、メタデータをつけていく、という一連の流れを、1週間に65000ページの速度で進めなくてはいけない」とのことで、

800万ページを、6.5万ページ/週なので、約123週

(休みを考慮しなければ、約2年半)
(ヨーロッパなので、1年の半分は休みだとすると*1、約5年)

で終わらせようとしていることになります。


次に全体予算ですが、前回(http://d.hatena.ne.jp/denshikA/20090907)確認したように、1250万ユーロ(約17億円)を用意してあります。なので、

800万ページのプロジェクトを、1250万ユーロで行うので、1ページあたり約1.56ユーロ

ということになります。


さて、この1ページあたり1.50*2ユーロという数字をどう考えますか?


プロジェクトマネージャーのEdwin Klijnさんは、

Within the current workflow there is still a lot of room for improvement. The current overall, allinclusive price per page (1,50 Euro) is relatively high.

というように、「1.50ユーロというコストは比較的高いと思われ、改善の余地がたくさんあります」と反省の弁を述べています。


ここで出してきたのが、冒頭の図です。


Edwin Klijnさんは、

This is not due to the scanning costs but is very much the result of the high demands made by the project on the depth and the quality of the metadata. Furthermore the costs of staff . because of the huge efforts in selection, preparation and quality assurance - make up for one fourth of the overall budget (see figure 1).

というわけで、「コストがかかっている原因は、スキャンそのものではありません。埋め込まなければならないメタデータが膨大なため、コストが膨らんでいます。さらに、対象新聞の選抜や、スキャン前の準備作業、スキャン画像の品質チェックなどに膨大な人件費がかかっていて、予算の1/4を占めています」とのことです。


つまり

  • 1ページあたり1.50ユーロの約半分、0.75ユーロは、スキャン・OCRメタデータ付与に使われる
  • その0.75ユーロのうち、多くの部分が、メタデータ付与の人件費に使われる
  • 1ページあたり1.50ユーロの約1/4、0.38ユーロは、スキャン対象の選抜や、前処理後処理に使われる

ということになります。


すでに、前々回(http://d.hatena.ne.jp/denshikA/20090903)にご紹介したように、新聞の電子化の場合、「紙面を、記事ごとに分割していく工程」が必要であり、それが新聞電子化の大きな特徴と言えるわけです。


Edwin Klijnさんは、「the high demands made by the project on the depth and the quality of the metadata(埋め込まなければならないメタデータが膨大)」と表現していますが、それは、この「紙面を、記事ごとに分割していく工程」のことを意味しています。なので、前々回、

この部分で、どのような工程、どのようなソフトウェアを使うのか、ということが、プロジェクトの予算を大きく左右します。


http://d.hatena.ne.jp/denshikA/20090903

と書いたのです。


最後に、ストレージのコストも確認しておきましょう。


データ容量について、

The newspaper digitization project . only a small piece of the pie - is likely to generate about 120 TB of data that needs to be preserved over time.

というように、「全体で、120テラバイトになるだろう」との予測を示しています。全部で、800万ページですから、1ページあたり、15MBくらいです。


条件は、

  • 300dpi
  • カラー グレー*3
  • 非圧縮TIFF

ということでしょうから、1ページあたり15MBというのは、妥当なラインだと思われます。


そして、

Currently storing 1 TB in the e-Depot costs an estimated 8,500 Euros per year.

というわけで、「現在、1TBあたり、年間8,500ユーロかかります」とのことなので、102万ユーロ(約1.4億円)/年がストレージにかかるコストとなります。*4


前回の最後に、ちょろっと、

ちなみに、このプロジェクトでは、保存用画像フォーマットとして非圧縮TIFFを使用し、閲覧用画像フォーマットとしてPNGとPDFを採用していますが、保存用非圧縮TIFFに替わってJPEG2000を採用することに積極的な姿勢を示しています。


http://d.hatena.ne.jp/denshikA/20090907

ということを書いたのですが、なぜ彼らが「JPEG2000を採用することに積極的な姿勢を示してい」るのか、理解していただけると思います。


もし仮に、JPEG2000を採用して、データ容量が1/10になると、年間で90万ユーロ(約1.3億円)のコスト削減につながるからです。さらに、このようなプロジェクトは、基本的に、未来永劫にデータを保存したいわけですから、その長ーい目で見た場合のコスト削減幅は、もの凄いものになるわけです。


というわけで、本日は、細かい数字を出してみましたが、新聞電子化というものが、どのような計算に基づいて進められているのか、少しはお伝えできたでしょうか?

*1:言い過ぎました(反省)

*2:話を単純化するために、丸めました

*3:ごめんなさい、訂正です、寝ぼけてました

*4:これが高いのか、安いのか、というのは、今度、別の機会にしましょう