2009-01-01から1年間の記事一覧

電子化検定2009

今年最後のエントリです。なので、突然ですが、「電検」こと電子化検定を行います。 あなたは何級? 以下の問題にすばやく答えよ。制限時間13分くらい。 *1(問題1)左上のような画像を2値化した場合、右上のように消えてしまう文字がある。なぜか? (問題2…

画像データの模式図(まとめ)

本日のお題画像: 過去2回、画像データの模式図に挑戦したのですが、話を分かりやすくするために、多少、画像をゆがめてありました。今回は、どんな感じでゆがめたのかをお話します。 まず、グレースケールで行きましょう。 前々回、下の左の画像は、右のよ…

画像データの模式図(カラー編)

本日のお題画像: 前回、グレースケール画像について、模式図に挑戦してみました。 念のため、もう一度言っておきますと、模式図というのは、 おおよその理解を得るために、正確とは言えないかもしれないけど、とりあえず図示してみました というような意味…

画像データの模式図(グレースケール編)

本日のお題画像: 模式図というのは、 おおよその理解を得るために、正確とは言えないかもしれないけど、とりあえず図示してみました というような意味だと思います。 本日は、画像データの模式図に挑戦します。「画像データというのが、パソコンの中にどん…

ビットレートとは何か

本日のお題画像: 前回に引き続き、今回もビットレートについて、見てみます。 こちらの画像ですが、なんのヘンテツもない、私がかつて住んでいたモントリオールです。 こういう写真を、パソコンで見ると、こんな感じで、 縦と横にひろがっている「平らなも…

ビットレートは、なぜヘンテコな数字なのか?

本日のお題: 1,0.84,0.7,0.6,0.5,0.4,0.35,0.3,0.25,0.21,0.18,0.15,0.125,0.1,0.088,0.07,0.0625,0.05,0.04419,0.03716,0.03125,0.025,0.0221,0.01858,0.015625 最近、なんとなく小難しい技術っぽい話が続いてまして、「全然、新聞電子化について書いてな…

カラー画像とSSIM

本日のお題画像: 左:http://ja.wikipedia.org/wiki/HSV%E8%89%B2%E7%A9%BA%E9%96%93 右:http://www.sikiken.co.jp/colors/colors11.html まだまだ、SSIM関連で行きましょう。 語弊を覚悟でシンプルに言ってしまいましょう。 SSIMというのは、PSNRと同様、…

グレースケールとSSIM

本日のお題画像: 引き続き、SSIM関連で行きましょう。 まず、この二つの画像を見てください。 くだらん説明をするな、と怒られそうですが、左がカラー画像で、右がグレースケール画像です。グレースケールというのは、要は、モノクロです。 グレースケール…

SSIMでウソをつく法

本日のお題画像 前回(http://d.hatena.ne.jp/denshikA/20091115)、確認しました通り、SSIMというのは、簡単に言ってしまえば、 画像を数字に置き換えて、それについて、平均や分散で比較する というものです。(なので、エクセルでも計算できてしまうのです…

SSIMとは何か? その4

本日のお題:エクセルでSSIMを計算しましょう。 お久しぶりです。家庭の事情で、遠くに行っていましたが、無事帰国しましたので、再開です。本当は、OCRの話題へ移ろうと思っていたのですが、なぜかSSIMの話題です。 前に、 また今回のSSIMに関する3回シリー…

新聞電子化にまつわるエコノミー その2

ここで、次の話題(OCR)へ移る前に、ちょっとだけ、新聞電子化の工程について見てみましょう。 本日のお題 1日あたり10万画像 1月あたり300万画像 1年あたり3600万画像 現在の日本において、 平均的な電子化機器(スキャナなど)の性能・価格 平均的な人件費 …

新聞電子化の歩き方 その2

そろそろ、内容が拡充されましたので、前の地図を改訂しておきます。 新聞電子化に興味はあるけれど、道が分からなければ、以下のガイドを参考にしてみてください。 以下のような方に、お勧めです。 はじめて、このサイトへ迷いこんで来た方 これから新聞電…

新聞電子化とJPEG 2000 その6(最終回)

本日のお題画像 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 本日は、ズバッと項目15を見て行きます。 項目15は、 15. The JPEG 2000 will use 102…

新聞電子化とJPEG 2000 その5

本日のお題画像 0.1 0.2 0.5 1.0 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 しかし、そろそろ、飽きてきた頃でしょうから、あと2回でJPEG2000シ…

新聞電子化とJPEG 2000 その4

本日のお題画像 − = 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 本日、説明するのは、項目10だけですので、時間のない人もすっ飛ばずに読んでく…

OCRはどのように間違いを犯すのか?

さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。 本日のお題画像 本日は、OCRについて、お話します。 (http://denshika.cc/faq/faq4.phpも参照してください。) OCRの技術を簡単に説明しますと、こんな紙面の画像があるとします…

新聞電子化とJPEG 2000 その3

本日のお題画像 オリジナル画像提供:http://www.s-hoshino.com/f_photo/syoku/sy_012.html 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 本日、最…

新聞電子化とJPEG 2000 その2

本日のお題画像 NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。このシリーズの概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 では、さっそく行きまぁす。本日、最も重要なことは、項目5ですので、時間のない…

新聞電子化とJPEG 2000 その1

本シリーズのお題 kdu_compress -i YOURINPUT.pgm -o YOUROUTPUT.jp2 -rate 1,0.84,0.7,0.6,0.5,0.4,0.35,0.3,0.25,0.21,0.18,0.15,0.125,0.1,0.088,0.075,0.0625,0.05,0.0 4419,0.03716,0.03125,0.025,0.0221,0.01858,0.015625 Clevels=6 Stiles={1024,1024…

SSIMとは何か? その3

本日は、同じSSIMでも、少し異なる側面を見てみましょう。(過去2回と比べても、マニア度高めですので、お酒でも飲みながら、リラックスして読んでください。) 本日の課題画像: http://www.ece.uwaterloo.ca/~z70wang/publications/icassp05.pdf 4ページよ…

SSIMとは何か? その2

本日も、引き続き、画像の圧縮などの話をしましょう。(相変わらず、マニア度高めですが、気にせずに、読み進んでいただければ、おそらく大丈夫です。) 本日の課題画像: http://www.cns.nyu.edu/pub/eero/wang03-reprint.pdf 11ページより抜粋 前回は、PSN…

SSIMとは何か? その1

本日は、画像の圧縮などの話をしましょう。(マニア度高めですが、細かいところを気にせずに、読み進んでいただければ、大丈夫だと思います。) *1 上の画像が元の画像だとして、下のどちらが、元の画像に近いと感じますか?(解説は後ほど) (変換A) *2 (変…

電子化というのは、「お見せする」までが、電子化ですよ

本日は、ユーザーインターフェースについて見てみましょう。 要するに、電子化した新聞を、どのようにお見せしましょうか?という話題です。 まずは、普通のインターフェースの例として、BnFの新聞コーナー*1を見てみましょう。 http://gallica.bnf.fr/ark:/…

(感謝)無事、大気圏外へ出れました

皆さんのおかげで、無事、大気圏外へ出ることができました。感謝です。 http://tophatenar.com/view/denshikA 当面の目標は、永遠のライバル、こちら。 http://tophatenar.com/view/bookscanner 引き続き、よろしくお願いしまーす。

新聞電子化の歩き方 その1

そろそろ、いろいろと揃ってきたので、地図を提示しておきます。 新聞電子化に興味はあるけれど、どこから手をつけたら良いのか分からなければ、以下のステップで、自己診断してみてください。 以下のような方に、お勧めです。 はじめて、このサイトへ迷いこ…

経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる

電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or fin…

新聞電子化にまつわるエコノミー

オランダのDDDプロジェクトをご紹介したついでですので、ここで、ちょっとだけ、新聞電子化のコストだとか、予算だとか、その他の数字について見てみましょう。 DDDプロジェクトのコスト内訳 http://www.ifla.org/files/hq/papers/ifla75/99-klijn-en.pdf 4…

電子新聞データバンクプロジェクト@オランダ

(引き続き、世界中のプロジェクトを見ていくことにしましょう。その後、各プロジェクトの超細部へ切り込んで行きます。) 本日は、「電子(日刊)新聞データバンクプロジェクト@オランダ」のご紹介です。 URLはhttp://www.kb.nl/hrd/digi/ddd/index-en.htmlで…

新聞はこうして電子化される(1)

さて、このへんで、新聞電子化の現場をご紹介しましょう*1。本日の題材は、こちらのビデオです。(出所が書かれていない写真は、全てこのビデオ内から取りました。) このビデオは、 Promotional video of the University of Kentucky methodology for newsp…

世界最古の新聞をネットで拝見

世界最古の新聞といえば、ドイツの「Relation」というのが有名です*1。さっそく、最古の新聞を見てみましょう。 http://diglit.ub.uni-heidelberg.de/diglit/relation1609?sid=1b8f5b58855ce043bee9a796d3b38113&ui_lang=ger 右の画像のヘッダー部分をアップ…