2007-05-29

reCAPTCHAの可能性

CMUの始めたreCAPTCHAには、ユーザにちょっとしたサービスを提供してその見返りにちょっとしたボランティア的仕事をしてもらおうという、Google Image Labelerと同じような思想が入っている。

ユーザにとっては単なるキャプチャサービスで、サイト運営者は無料でその機能を利用できる。ところが、提示される2単語のうち一方は、デジタイズしたい本をスキャンして切り出した未知の単語で、ユーザは知らないうちに人力OCRさせられてしまうわけである。

なので、キャプチャとしては、もう一方の既知の単語の方だけが有効で、そちらがちゃんと入力できていれば、未知の方は適当に嘘を入れても認証が成功してしまう。ただし、どちらが既知でどちらが未知かはランダムに提示されるので、50%の確率で認証失敗してしまうリスクをおかしてわざと嘘を入れる可能性は非常に小さいと考えられ、同じ単語を何人かに入力してもらってそれが一致しているなら、その結果は高い確率で信用できると言える。

現在のreCAPTCHAで、もうちょっとだけチューニングされるといいのは、非ネイティブにも読める程度のノイズにおさえてほしいという点である。もともとスキャンしたノイズ込みの画像を波打たせ、さらにまぎらわしい位置に波線まで入ってしまっている。下のような画像を提示されても、英単語を知らないユーザにはcとeとoの区別がつかないと思う。

もっとも、日本語のOCRをしたいとして同じようなサービスを使うことにすると、日本語ネイティブにしか解けないキャプチャになるのは明らかで、ある程度はしかたないのだろうか。サイト運営者にノイズレベルや言語やなんやかやが調整できるようになっていると尚いいのかもしれない。

ところでこのような人力提供のアイデアは、何か人海戦術を使わないといけない他の種類の作業にも応用できそうだ。今は思いつかないけど。