CAPTHAツールで人力OCRというシステムのアイディア

この記事を読むのに必要な時間は約 4 分です。


この記事はオンラインコミュニティFREE WILLに書いた記事の転載・追記です。

→FREE WILLについてはこちら

※文中の「*****」となっている部分は、FREE WILLでは公開しています。


もしかしたらすでに世の中にあるシステムかもしれないんですが、こんなのがあったらと、明け方に目が覚めて急に思いついたのでメモ。

概要

A.よく、Googleの認証画面とかで、「車の画像を選んでください」とか「画像の中の文字を入力して下さい」ありますが、あんな感じで、人に何かを選ばせたり入力させるパターンの認証の事をCAPTCHA(キャプチャ)と言います。

B.スキャンした書類など、画像のデータから、テキストデータを機械的に自動で書き起こす事をOCRと言います。結構間違いがあるし、手書き文字からのOCRは難しい。

C.単語と単語を切り分ける事、つまり文節ごとに単語を区切ることを、形態素解析と言います。

これらを掛け合わせて、

  1. 読み込みたい文章を画像で用意
  2. テキストまずはOCRして分節で細切れに
  3. CAPTCHAとして配布。文字を選択、入力させる。

「明日は晴れです」というのが元のお題なら、「明日」「は」「晴れ」「です」という感じで細切れに。

Aさんには「明日」、Bさんには「は」、を出題すると言うイメージです。

回答する人が100人中90人が同じ答えなら、正解(90%の確率で)とする、というようなロジックにする事で、人力、それも他人の力でほぼ完全なOCRができるんじゃないかなー、と。

実は、お小遣い稼ぎアプリみたいなもので、以前そんな仕組みを見た気がするので、すでに存在してるのかも知れませんが、CAPTCHAとしては無いかな?

展開

・Wordpressのプラグインとして作って配布したら分母増やせそう。分母増やせば精度が上がる。

・AIや量子コンピュータが発展したら完全にコンピュータだけで出来るようになりそうだけど、それまでは人力ありだな。

・*****や*****と言った、名刺管理アプリも、人力でテキストデータ入力してるけど、ああいうのにも使えそう。

・データ化して欲しい、というクライアントからスキャンデータを預かって、世界の人の人力で処理すると言うモデル。

・ちなみに、形態素解析でテキストを細切れにする理由は、第三者に元が何の文章か分からなくする為。それによって、データの保護、個人情報保護になる。例えば名刺ならどこの誰の事か分からなくなる。銀行や保険とかの手書き帳票、試験の回答用紙、なんでも文字起こししてデータ化出来るはず。

・アプリ化でそれこそお小遣い稼ぎ(文字判別○文字○円とか)も出来そう。

・オープンソース化で広く使われるようにしたらどうか。

・多数決でものを正しいと決める仕組みは、今話題のブロックチェーン技術に似てる、というか、これ自体もブロックチェーン技術でやったら良いと思う。

・OCRに限らず、何か答えを求める系のものなら何でも出来そうな気もする。例えば、以前受けた相談で、「ドローンを使ってビルメンテ。ドローンが撮影した画像の中からヒビ割れ等を人力でチェックしたい。海外アウトソーシング出来ないか」みたいな相談があったんですが、それも「画像の中からキズを探して」という形にしちゃうとか。

懸念

・例えば、問いに対する答えが1〜10件と母数が少ないときに、どうやって正解を担保する?→普通のキャプチャと組み合わせるとか

・外国人とか文字読めない人は?
→スキップして次の問題に行けばいい

楽しそう。
だけどかなりコストかかるので、片手間じゃ無理。誰かやらないかな〜。


この記事はオンラインコミュニティFREE WILLに書いた記事の転載・追記です。

→FREE WILLについてはこちら

※文中の「*****」となっている部分は、FREE WILLでは公開しています。


 

著者プロフィール

ひらたよしひろ

通勤電車嫌いがキッカケで独立し、始めたノマド生活も早10年目。 普段は家族のいる東京に住んでいますが、仕事自体はネットに繋がればどこでも出来るため、月の半分は海外に行くような生活をしています。 ノマドでWEB制作・開発系の仕事をしながら、毎月海外に出て、ヒトやモノや情報を繋いだりして暮らしています。

お知らせ

オンラインコミュニティ始めました

Facebookグループで、ブログに書けない話や、今取り組んでる具体的な案件、これまでやって来た事、失敗談、やりたいけどやれていない案件、ビジネスに繋がったら良いな、的な話を非公開で書いています。

FREE WILLコミュニティ

このグループは、「家族と共に、場所にとらわれない働き方、生き方(家族ノマド)を実現するためのビジネスアイデアや有益な情報、繋がりを提供するプラットフォーム」です。

主催者は、ひらたよしひろ、守岡裕志、ショールかおりの3人。

メンバーのみなさんも自由に投稿、コメントしてください。それぞれの好きや得意が交わってビジネスが「アイデア」から「カタチ」になっていったら面白いと思っています!

ブログ読者の方との双方向の交流や、コラボレーションが出来たらいいなと思っています。

とはいえ、参加して発言する必要など面倒なことは一切ありません。
無言参加、無言退出全然OK。

海外オフ会なんかもやれたら良いですね。

参加は無料なので、お気軽に登録して下さい!

→詳しくはこちら