2012/09/02

reCAPTCHA:認証の裏にある秀逸なアイデア




reCAPTCHA(リキャプチャ)というユーザー認証サービスがあります。このサービスの裏にあるアイデアが素晴らしいのでご紹介します。

■ reCAPTCHA とは

ウェブサービスへの登録時やブログにコメントする時に以下のような認証画面が表示されます。これはスパムプログラムと人間ユーザーを見分けるためのものです。

実際の認証画面は以下のイメージです。一度は使ったことがある方も多いでしょう。



アルファベットが読みにくくされています。時には読めないくらい崩れていることもあります。

機械は正しく読めないものでも、人間の視覚能力は読みにくい文字でも脳で処理できるようになっています。スパムと人間をうまく切り分ける役割を果たしています。

実はこの reCAPTHA は、ユーザー認証とは別の目的で使われています。

上の認証画面の右下には stop spam. read books. とあります。興味深いのは read books です。reCAPTCHA は書籍のデジタル化に一役買っているのです。

■ reCAPTCHA のアイデア

書籍のデジタル化はページをスキャンし、OCR(光学式文字読取装置)という技術を使ってテキスト化しています。OCR は Optical Character Recognition の略です。OCR によって、スキャン画像としての文字情報はテキスト情報に変換されます。

ここで問題なのは、OCR によるテキスト化は 100% 正確ではないということです。例えば以下のように、電子化する書籍によってはスキャンの精度が悪くなり、OCR 後は間違った単語としてテキスト化されてしまいます(赤色の下線部)。



reCAPTHA のアイデアは、読み取り失敗文字の修正に reCAPTHA でのユーザーからの入力情報が使われていることです。

仕組みはこうです。

テキスト情報化に失敗した文字を、スキャン時の文字の画像画像を reCAPTHA でユーザーに表示させます。そして、ユーザーは画像の文字をテキスト入力します。

つまり、文字修正をユーザーに代行してもらう仕組みです。例えば This の OCR 変換が niis と失敗している場合、ユーザーに This と正しく入力してもらうのです。

もう少し詳しく書くと、reCAPTHA では2つの異なる単語を表示させます。

  • OCR で誤認識の単語
  • 正しく読み取っている単語

ユーザーは2つの単語を入力することになります。以下の ycasho と MODULE を例にご説明します。



既に正しいとわかっている単語(MODULE)をユーザーが正しく入力すれば、もう1つの修正した単語(ycasho)もユーザーの修正入力は正しいと判定するロジックです。1つ目の入力でこのユーザーは信頼できるとし、ycasho も正しいとみなします。

reCAPTCHA の説明ページ を見ると、reCAPTCHA の認証は1日あたり2億回も行われているようです(2012年9月時点)。

認証に使う時間が1回あたり10秒としても20億秒という膨大な時間です。もしこれが書籍デジタル化の担当者が1つ1つを修正していれば相当なコストになります。

これをネットのユーザーにやってもらっているのです。reCAPTCHA を使い誤認識文字修正作業のアウトソースができています。

■ ユーザーへのインセンティブ設計の工夫

誤認識文字を修正する方法は、校正担当者を設けてひたすらその人に修正作業をやってもらうことです。

あるいはネットユーザーにやってもらうとしても、文字の修正作業は単純作業であり、修正してもらうのに金銭的なインセンティブを設定することになるでしょう。1回の修正で1円分のポイントを付与するなどです。

修正1回につき1円のコストでも、膨大な量の書籍をデジタル化していて、修正箇所もその分多く、校正コストがかかります。

reCAPTCHA では、サイトに新規登録しようとしているユーザーや、ブログ記事にコメントをつけようとしているユーザーに修正作業を肩代わりしてもらっています。ユーザーには直接お金を渡すことなくです。

ユーザーに何かをしてもらう際にお金ではないインセンティブ(動機付け)をうまく設計し、精度の高い情報が得られます。

reCAPTHA のユーザーのインセンティブは、そのサイトに新規登録しウェブサービスを利用することや記事にコメントを残すことです。

そのプロセスの前にある読みにくい文字の入力というハードルがあってもインセンティブがあるのでやってくれます。入力を間違えたら次に進めないので(ユーザー登録やコメントできない)、見にくい文字であっても読み取ろうとし、入力してくれます。

reCAPTHA を利用する人の大部分は、自分が書籍の電子化を手伝っているという認識はないでしょう。

認証の裏では1日2億回の文字情報のテキスト化の修正が行われているです。よく考えられている仕組みです。


※参考情報

WHAT IS reCAPTCHA|reCAPTCHA
reCAPTCHA|Wikipedia


follow us in feedly このエントリーをはてなブックマークに追加

Facebook Page

最新エントリー

バックナンバー

Related Posts Plugin for WordPress, Blogger...