コンピュータに画像はどう見えるのか? その1 Hough変換

本日のお題画像: 人間は、画像を見たときに、その中に写っている文字や形状を見ています。ところが、コンピュータは、画像を見たときに、その中に写っている文字や形状を見ていません。個々の点の色や明るさを見ているだけです。つまり、「木を見て森を見ず…

大容量ファイルSSIM縛りJP2変換に関する雑感

おそらく、最初で最後でしょうが、雑感(私見)を述べてみようと思います。 最近、「SSIM JPEG2000」で検索する人が増えているようです。(と言っても、マニアな領域の話ですので、たかが知れてて、AKB48全員よりも少ないでしょう、きっと) その理由は明ら…

なんでSSIMの計算では、ボケ画像を使うでしょうか?

本日のお題画像: http://cvcl.mit.edu/hybrid_gallery/smile_angry.html お題画像を見てください。ずいぶんと古い話ですが、かつて、この画像が話題になったのを覚えてますか?*1 目を細めてみたり、パソコンの画面から少し離れたところから見てみると、「…

SSIMを計算する時に出てくるディスタンス

本日のお題画像: これまでの流れを整理します。 まず、SSIMとPSNRの比較をし、 SSIMってのは、無限のバリエーションがあるので、SSIM値を指定して電子化発注をする場合、ちゃんと具体的な計算式を指定しないと、いけないよ っぽいことを主張し、その無限の…

SSIMを計算する時に出てくるガウシアンフィルター

本日のお題: window = fspecial('gaussian', 11, 1.5) 昨日、SSIMとPSNRの比較をして、 SSIMってのは、無限のバリエーションがあるので、SSIM値を指定して電子化発注をする場合、ちゃんと具体的な計算式を指定しないと、いけないよ っぽいことを主張しまし…

PSNRとSSIMの違い(総論)

さて、本日は、再びSSIMの話題です。お題は、 後だしジャンケンはやめましょう です。 前にPSNRとSSIMというのを比較しました*1。簡単にまとめると、「PSNRより、SSIMの方が、私たちの感覚に近い結果を出してくれる」というものでした。一般論としては、合っ…

OWRから、再び、OCRへ

本日のお題:所信貫徹 前回、最近のOCRというのは、実はOWRであることを説明しました。ところが、今日は、最近のOCRというのは、実はOWRであるんだけど、さらに、もう一歩進んで、OCRに回帰しているんだよ、という点を見ていきましょう。 さて、ちょっと離れ…

OCRからOWRへ

本日のお題: wordFromDictionary="false" さて、新年なので話題を変えて、OCRについて進めていきましょう。 OCRというのは、本名、Optical Character Recognitionですので、その名前が示すとおり、文字(Character)単位の認識(Recognition)をしていきま…

電子化検定2009

今年最後のエントリです。なので、突然ですが、「電検」こと電子化検定を行います。 あなたは何級? 以下の問題にすばやく答えよ。制限時間13分くらい。 *1(問題1)左上のような画像を2値化した場合、右上のように消えてしまう文字がある。なぜか? (問題2…

画像データの模式図(まとめ)

本日のお題画像: 過去2回、画像データの模式図に挑戦したのですが、話を分かりやすくするために、多少、画像をゆがめてありました。今回は、どんな感じでゆがめたのかをお話します。 まず、グレースケールで行きましょう。 前々回、下の左の画像は、右のよ…

画像データの模式図(カラー編)

本日のお題画像: 前回、グレースケール画像について、模式図に挑戦してみました。 念のため、もう一度言っておきますと、模式図というのは、 おおよその理解を得るために、正確とは言えないかもしれないけど、とりあえず図示してみました というような意味…

画像データの模式図(グレースケール編)

本日のお題画像: 模式図というのは、 おおよその理解を得るために、正確とは言えないかもしれないけど、とりあえず図示してみました というような意味だと思います。 本日は、画像データの模式図に挑戦します。「画像データというのが、パソコンの中にどん…

ビットレートとは何か

本日のお題画像: 前回に引き続き、今回もビットレートについて、見てみます。 こちらの画像ですが、なんのヘンテツもない、私がかつて住んでいたモントリオールです。 こういう写真を、パソコンで見ると、こんな感じで、 縦と横にひろがっている「平らなも…

ビットレートは、なぜヘンテコな数字なのか?

本日のお題: 1,0.84,0.7,0.6,0.5,0.4,0.35,0.3,0.25,0.21,0.18,0.15,0.125,0.1,0.088,0.07,0.0625,0.05,0.04419,0.03716,0.03125,0.025,0.0221,0.01858,0.015625 最近、なんとなく小難しい技術っぽい話が続いてまして、「全然、新聞電子化について書いてな…

カラー画像とSSIM

本日のお題画像: 左:http://ja.wikipedia.org/wiki/HSV%E8%89%B2%E7%A9%BA%E9%96%93 右:http://www.sikiken.co.jp/colors/colors11.html まだまだ、SSIM関連で行きましょう。 語弊を覚悟でシンプルに言ってしまいましょう。 SSIMというのは、PSNRと同様、…

グレースケールとSSIM

本日のお題画像: 引き続き、SSIM関連で行きましょう。 まず、この二つの画像を見てください。 くだらん説明をするな、と怒られそうですが、左がカラー画像で、右がグレースケール画像です。グレースケールというのは、要は、モノクロです。 グレースケール…

SSIMでウソをつく法

本日のお題画像 前回(http://d.hatena.ne.jp/denshikA/20091115)、確認しました通り、SSIMというのは、簡単に言ってしまえば、 画像を数字に置き換えて、それについて、平均や分散で比較する というものです。(なので、エクセルでも計算できてしまうのです…

SSIMとは何か? その4

本日のお題:エクセルでSSIMを計算しましょう。 お久しぶりです。家庭の事情で、遠くに行っていましたが、無事帰国しましたので、再開です。本当は、OCRの話題へ移ろうと思っていたのですが、なぜかSSIMの話題です。 前に、 また今回のSSIMに関する3回シリー…

新聞電子化にまつわるエコノミー その2

ここで、次の話題(OCR)へ移る前に、ちょっとだけ、新聞電子化の工程について見てみましょう。 本日のお題 1日あたり10万画像 1月あたり300万画像 1年あたり3600万画像 現在の日本において、 平均的な電子化機器(スキャナなど)の性能・価格 平均的な人件費 …

新聞電子化の歩き方 その2

そろそろ、内容が拡充されましたので、前の地図を改訂しておきます。 新聞電子化に興味はあるけれど、道が分からなければ、以下のガイドを参考にしてみてください。 以下のような方に、お勧めです。 はじめて、このサイトへ迷いこんで来た方 これから新聞電…

新聞電子化とJPEG 2000 その6(最終回)

本日のお題画像 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 本日は、ズバッと項目15を見て行きます。 項目15は、 15. The JPEG 2000 will use 102…

新聞電子化とJPEG 2000 その5

本日のお題画像 0.1 0.2 0.5 1.0 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 しかし、そろそろ、飽きてきた頃でしょうから、あと2回でJPEG2000シ…

新聞電子化とJPEG 2000 その4

本日のお題画像 − = 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 本日、説明するのは、項目10だけですので、時間のない人もすっ飛ばずに読んでく…

OCRはどのように間違いを犯すのか?

さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。 本日のお題画像 本日は、OCRについて、お話します。 (http://denshika.cc/faq/faq4.phpも参照してください。) OCRの技術を簡単に説明しますと、こんな紙面の画像があるとします…

新聞電子化とJPEG 2000 その3

本日のお題画像 オリジナル画像提供:http://www.s-hoshino.com/f_photo/syoku/sy_012.html 引き続き、NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 本日、最…

新聞電子化とJPEG 2000 その2

本日のお題画像 NDNP(全米電子新聞プロジェクト*1)におけるJPEG2000の詳細を見てみます。このシリーズの概要は、http://d.hatena.ne.jp/denshikA/20091007をご覧ください。 では、さっそく行きまぁす。本日、最も重要なことは、項目5ですので、時間のない…

新聞電子化とJPEG 2000 その1

本シリーズのお題 kdu_compress -i YOURINPUT.pgm -o YOUROUTPUT.jp2 -rate 1,0.84,0.7,0.6,0.5,0.4,0.35,0.3,0.25,0.21,0.18,0.15,0.125,0.1,0.088,0.075,0.0625,0.05,0.0 4419,0.03716,0.03125,0.025,0.0221,0.01858,0.015625 Clevels=6 Stiles={1024,1024…

SSIMとは何か? その3

本日は、同じSSIMでも、少し異なる側面を見てみましょう。(過去2回と比べても、マニア度高めですので、お酒でも飲みながら、リラックスして読んでください。) 本日の課題画像: http://www.ece.uwaterloo.ca/~z70wang/publications/icassp05.pdf 4ページよ…

SSIMとは何か? その2

本日も、引き続き、画像の圧縮などの話をしましょう。(相変わらず、マニア度高めですが、気にせずに、読み進んでいただければ、おそらく大丈夫です。) 本日の課題画像: http://www.cns.nyu.edu/pub/eero/wang03-reprint.pdf 11ページより抜粋 前回は、PSN…

SSIMとは何か? その1

本日は、画像の圧縮などの話をしましょう。(マニア度高めですが、細かいところを気にせずに、読み進んでいただければ、大丈夫だと思います。) *1 上の画像が元の画像だとして、下のどちらが、元の画像に近いと感じますか?(解説は後ほど) (変換A) *2 (変…