SSIMとは何か? その1

本日は、画像の圧縮などの話をしましょう。(マニア度高めですが、細かいところを気にせずに、読み進んでいただければ、大丈夫だと思います。)
*1


上の画像が元の画像だとして、下のどちらが、元の画像に近いと感じますか?(解説は後ほど)

(変換A) *2 (変換B)*3


詳しいお話に入る前に、状況を整理しましょう。


今年に入ってから、私のところに、「SSIMって何ですか」という質問が、頻繁に届くようになりました。理由は、いろんな公共機関が大規模な電子化プロジェクトの予算をつけて、

  1. 画像のフォーマットとして、JPEG 2000にすること、なおかつ、
  2. SSIMの値を一定水準以上にすること

という指定があったからです。


これまでも、JPEG 2000を採用しているプロジェクトはありました。しかし、これまでのプロジェクトは、「PSNRの値を一定水準以上にすること」という指定でした。それが今年あたりから、PSNRではなく、SSIMを基準とするようになってきた、ということです

ちょっとマニアのために、かなり細かいお話を。マニアでない方は、飛ばしてください。


http://www.mhlw.go.jp/sinsei/chotatu/chotatu/pdf/ikenshousei-36.pdfの16ページ、連番176のところに、誰がこんな提言をしたのか知りませんが、

JPEG作成時に約3MB程度であれば、スキャニング時の電子化データの破損率は下がると考えられます。よって、成果物の電子画像データの品質を一律化するために、A4 300dpiフルカラーデータ約30MBを1/10程度(約3MB)のJPEGに変換したものをJPEG2000に変換するとした仕様にされることを提言申し上げます。
また、JPEGデータより約600KB程度の容量のJPEG2000に再圧縮した場合、本作業に於いて容量の提示のみでは、劣化した台帳に朱・グリーン・青・黒・鉛筆等で書かれた文字が多く出現し、それらの文字をただ単に圧縮するだけでは画像によっては判読が不可能なものが出てくることが想像されます。
よって、現在同様の電子画像データの作成に於いて、品質のばらつきを防ぐための画質計測方式としてStructural SIMilarity(SSIM)を採用されることを提言申し上げます。

と出てきます。この提言の影響かどうか分かりませんが、JPEG 2000とSSIMのセットが、仕様として盛り込まれているようです。


さて、先頭の画像の話に戻りましょう。


ご覧になっているPCやモニターなどによって多少の差が出るとは思うのですが、(B)よりも(A)の方が、はっきりしてませんか?特に、下写真の赤丸のあたりが、(B)において、ボケーっとしてませんか?*4


「ボケー」とか「元の画像に近いと感じますか」というのは、かなりあいまいな表現で、主観的です。なので、何らかの形で測定をして、数字を比べたいと思うのが自然です。そのような場合、伝統的には、PSNRという測定方法が使われていました。*5


さっそく、PSNRを測定してみましょう。


こちら(http://www.tiu.ac.jp/~zohzemi/download1.html#10)で、PSNRを測定するツールが入手できます。(感謝)使い方は、いたって簡単で、ダウンロードして、起動して、「左に読み込む」を押して、元の画像を選択し、「右に読み込む」を押して、(A)の画像を選択します。そして、最後に「PSNRを計算」ボタンを押して、しばらく待つ。すると、

こんな感じになり、続いて、再度、「右に読み込む」を押して、(B)の画像を選択します。そして、最後に「PSNRを計算」ボタンを押して、しばらく待つ。すると、

こんな感じになります。右下のPSNRというところの数字を比較してみましょう。


な、なんと、(B)の画像の方が、PSNRの値が大きくなりました。難しい話を省略しますと、PSNRは大きいほうが、元の画像に近い、という意味です。なので、PSNRによると、(B)の方が、元の画像に近い、ということになってしまいます。

このように、PSNRというのは、私たちの感覚とはちょっと異なる結果を出す場合があり、問題になっていました。そこで、登場したのが、SSIMというわけです。さっそく、SSIMを測定してみます。


SSIMの測定については、今度詳しくお話しますので、とりあえず、結果*6だけお知らせします。

(A) 0.9343597273674354


(B) 0.8739356057661842

このSSIMは、まったく同じ画像の場合、1になりますので、大きいほうが、元の画像に近いことを意味します。なので、(A)の方が、元の画像に近い、という結果になっています。これは、私たちの感覚と似ていますね。


というわけで、これまで私たちが「2つの画像がどんくらい似ているのか」という指標として、PSNRを使っていたのですが、いろんな場面で、私たちの感覚とは異なる結果を生み出していました。そこで、私たちの感覚により近いと評判のSSIMというものが、どんどんと勢力を伸ばして、とうとう、今年から、日本の大きな電子化プロジェクトに仕様として盛り込まれることになったのです。


今日のところは、これくらいにしておきます。

*1:http://r0k.us/graphics/kodak/kodim24.html

*2:http://artst.narod.ru/b/KODIM24X.JPG

*3:http://artst.narod.ru/b/KODIM24F.PNG

*4:分かりにくかったら、先ほどの画像をクリックして、大きな画像を確認してみてください。それでも分からなかったら、疲れ目かもしれないので、一眠りして、すっきりしてから、再度見てみてください。

*5:PSNRがどんなものか、ということは、またあらためて、お話したいと思います。

*6:ちょっとだけ、ごめんなさい。諸事情により、数字はあまり正確ではありませんが、おおよそあっています