ラリー・ペイジが話していたネコのこと - 工場統計力学（建設中！）

で、GoogleのCEOであるラリー・ペイジが話していた「コンピュータがYouTubeを見て独力でネコを認識した」ということについて調べてみました。

クラウドからAIへアップル、グーグル、フェイスブックの次なる主戦場 (朝日新書)
- 作者: 小林雅一
- 出版社/メーカー: 朝日新聞出版
- 発売日: 2013/07/12
- メディア: 新書
- この商品を含むブログ (23件) を見る

この本には、このような手法はディープ・ラーニングと呼ばれているということが書かれていました。この本ではディープ・ラーニングのことを以下のように説明しています。

神経科学者達は大胆な仮説を立てました。それは「視覚」「聴覚」「触覚」「味覚」など、人間の様々な知覚能力に通底する基本的なメカニズムがある、というものです。これに従えば、脳は目や耳から入力された生々しい初期情報を、段階的に抽象化して、徐々に上位の概念を形成していきます。彼らは、このメカニズムを自分達なりに考えて、具体的なアルゴリズムへと転化し、これを「スパース・コーディング(Sparse Coding)」と命名しました。英語の「Sparse」は「少量の」という意味で、ここでは「大量の情報から、抽象化に必要な本質的情報だけを、少しずつ抜粋すること」を指しています。

「クラウドからAIへ」より

・・・・2012年6月には、グーグルとスタンフォード大学の共同研究チームが開発したニューラル・ネットワークが、ユーチューブ上の動画から「猫」の概念を獲得した、というニュースが報じられました。ここで使われていたテクニックが「ディープ・ラーニング」です。（中略）
　いずれにせよ動画とは、カラーや明暗を表現するピクセル（画素）の集合に過ぎません。ニューラル・ネットワークは、このピクセルという最も低いレベルの情報から、猫の輪郭や毛皮の模様などを構成するエッジ（縁）情報を獲得します。次に、このエッジ情報から猫の「目」や「耳」などパーツ情報を獲得し、それらを組み上げることによって最後に「猫の顔」という最も高いレベルの概念を、ぼんやりとしたイメージとしてディスプレイ上に表示したのです。
　このように情報の抽象度を段階的に上げていって、最終的に何らかの概念を獲得するのがディープ・ラーニングの特徴です。それは前述のスパース・コーディング、つまり人間の知覚プロセスに関する仮説を基にしています。

「クラウドからAIへ」より

ディープ・ラーニングについて、もっと知りたいと思い、Googleで検索したところ、このような説明資料を得ました。

一般向けのDeep Learning：岡野原　大輔氏

ここの中からいくつか図や文章を紹介します。

Youtubeから得られた200×200の画像1000万枚に対して教師無し学習

私の理解では、例えば、ある画像をコンピュータに見せてこれはネコであるかどうかをコンピュータに判断させる時、コンピュータが出した回答（「これはネコです」あるいは「これはネコではありません」）に対して「正しい」「間違っている」を人がその都度教え、コンピュータがそれによって自分のアルゴリズムを修正していき、最終的にほとんどのネコの画像に対して「これはネコです」と答え、それ以外の画像に対して「これはネコではありません」と答えるようになっていくのが教師あり学習であり、そのように人間による「正しい」「間違っている」の判断を入力する必要がないのが教師なし学習です。教師なし学習はコンピュータが自習して学ぶのです。さらにこの資料にはディープ・ラーニングの模式図が載っていましたが、それは以下のようなものです。