新聞電子化

リボン・スキャニングのまとめ

最後のまとめとして、リボン・スキャニング技術を採用している、実際のスキャナーを見てみましょう。各メーカーの宣伝文句を見てみると、これまでに解説しておいたことが声高に叫ばれているだけなので、あー、あのことね、とお分かりいただけると思います。 …

パレート法則とリボン・スキャニング

本日のお題:マイクロフィルムの電子化(スキャン)におけるいびつなコスト構造を理解しましょう。 *1 パレート法則とは、おおまかに言って、 20%のコストをかけたものが80%の利益を生み、80%のコストをかけたものが20%の利益しか生まない ということですね…

リボン・スキャニングが持ち込んだ「新しい土俵」 その2

本日のお題:「ながら」作業は非効率 このシリーズは、リボン・スキャニングについて、概要はご理解いただけていることが前提となっています。もし、なじみがなければ、以下を先にご覧ください。 http://d.hatena.ne.jp/denshikA/20100517 http://d.hatena.n…

リボン・スキャニングが持ち込んだ「新しい土俵」 その1

本日のお題:ないものは見つからない さて、リボン・スキャニングについて、概要はご理解いただけたことでしょう。 もし、なじみがなければ、以下を先にご覧ください。 http://d.hatena.ne.jp/denshikA/20100517 http://d.hatena.ne.jp/denshikA/20100518 ht…

リボン・スキャニングとは何か?その4

過去3回、リボン・スキャニングというものを説明してきました。 http://d.hatena.ne.jp/denshikA/20100517 http://d.hatena.ne.jp/denshikA/20100518 http://d.hatena.ne.jp/denshikA/20100520 リボン・スキャニング以前のスキャン方法の問題点は、ズバリ、再…

リボン・スキャニングとは何か?その3

本日のお題: VHSの時代を思い出して! 前々回(http://d.hatena.ne.jp/denshikA/20100517)、リボン・スキャニングという「(自称)超マイナーでありながら、メジャー級の進歩」を紹介し、前回(http://d.hatena.ne.jp/denshikA/20100518)、コマの自動検出…

リボン・スキャニングとは何か?その2

本日のお題: マイクロフィルムのコマ検出 前回、リボン・スキャニングという「超マイナーでありながら、メジャー級の進歩」と、私が勝手に思い込んでいるものを紹介しました。そして、 話を聞いただけだと、「なんだ、たいしたことないな」と思うかもしれま…

リボン・スキャニングとは何か?

さて、このへんで再び、新聞電子化の現場をご紹介しましょう。本日の題材は、こちらのビデオ*1です。 以前、ちょろっとご紹介したように、書籍や新聞の電子化プロジェクトは、 すでにマイクロフィルム化されている場合はマイクロフィルムから電子化し、マイ…

新聞電子化にまつわるエコノミー その2

ここで、次の話題(OCR)へ移る前に、ちょっとだけ、新聞電子化の工程について見てみましょう。 本日のお題 1日あたり10万画像 1月あたり300万画像 1年あたり3600万画像 現在の日本において、 平均的な電子化機器(スキャナなど)の性能・価格 平均的な人件費 …

新聞電子化の歩き方 その2

そろそろ、内容が拡充されましたので、前の地図を改訂しておきます。 新聞電子化に興味はあるけれど、道が分からなければ、以下のガイドを参考にしてみてください。 以下のような方に、お勧めです。 はじめて、このサイトへ迷いこんで来た方 これから新聞電…

電子化というのは、「お見せする」までが、電子化ですよ

本日は、ユーザーインターフェースについて見てみましょう。 要するに、電子化した新聞を、どのようにお見せしましょうか?という話題です。 まずは、普通のインターフェースの例として、BnFの新聞コーナー*1を見てみましょう。 http://gallica.bnf.fr/ark:/…

新聞電子化の歩き方 その1

そろそろ、いろいろと揃ってきたので、地図を提示しておきます。 新聞電子化に興味はあるけれど、どこから手をつけたら良いのか分からなければ、以下のステップで、自己診断してみてください。 以下のような方に、お勧めです。 はじめて、このサイトへ迷いこ…

経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる

電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or fin…

新聞電子化にまつわるエコノミー

オランダのDDDプロジェクトをご紹介したついでですので、ここで、ちょっとだけ、新聞電子化のコストだとか、予算だとか、その他の数字について見てみましょう。 DDDプロジェクトのコスト内訳 http://www.ifla.org/files/hq/papers/ifla75/99-klijn-en.pdf 4…

電子新聞データバンクプロジェクト@オランダ

(引き続き、世界中のプロジェクトを見ていくことにしましょう。その後、各プロジェクトの超細部へ切り込んで行きます。) 本日は、「電子(日刊)新聞データバンクプロジェクト@オランダ」のご紹介です。 URLはhttp://www.kb.nl/hrd/digi/ddd/index-en.htmlで…

新聞はこうして電子化される(1)

さて、このへんで、新聞電子化の現場をご紹介しましょう*1。本日の題材は、こちらのビデオです。(出所が書かれていない写真は、全てこのビデオ内から取りました。) このビデオは、 Promotional video of the University of Kentucky methodology for newsp…

世界最古の新聞をネットで拝見

世界最古の新聞といえば、ドイツの「Relation」というのが有名です*1。さっそく、最古の新聞を見てみましょう。 http://diglit.ub.uni-heidelberg.de/diglit/relation1609?sid=1b8f5b58855ce043bee9a796d3b38113&ui_lang=ger 右の画像のヘッダー部分をアップ…

全豪新聞電子化プログラム

(昨日の「全米電子新聞プログラム」に引き続き、まずは、ざっと、世界中のプロジェクトを見ていくことにしましょう。その後、各プロジェクトの超細部へ切り込んで行きます。) 本日は、「全豪新聞電子化プログラム」のご紹介です。 URLはhttp://www.nla.gov…

全米電子新聞プログラム

本日は、「全米電子新聞プログラム」のご紹介です。 URLはhttp://www.loc.gov/ndnp/です。 「全米電子新聞プログラム」は、その名の通り、全米の新聞を電子化しようとする試みであり、「米国議会図書館(LC)と全米人文科学基金(NEH)とが協同で実施してい…