【vol.3】なぜ今AIなのかーー人工知能のおさらいと注目される理由

【vol.3】なぜ今AIなのかーー人工知能のおさらいと注目される理由

文:モリジュンヤ イラスト:小山 敬介(A.C.O.Inc.)

最近、世界各国で人工知能を活用したサービスや研究が話題になることが増えてきた。リクルートでも、人工知能研究所(Recruit Institute of Technology」を立ち上げ、グローバル規模でのAI研究を開始している。(リクルートが何を目指して人工知能の研究を行っているかは、所長の石山洸へのインタビューを参照してもらいたい)

ではそもそも、人工知能にはどんな技術が用いられており、それが普及することで、どのようなことが可能になるのだろうか。まずは簡単におさらいしてみたい。

「ニューラルネットワーク」の進歩

人工知能がここ数年で注目されるようになった背景には、AI技術のひとつである「ニューラルネットワーク」における技術革命がある。ニューラルネットワークとは、人間の脳を構成するニューロン(神経細胞)のネットワークを人工的に再現することを目指したものだ。

ニューロン(神経単位)と呼ばれる神経細胞の巨大なネットワークで構成されている「脳」。神経細胞は、種類ごとに集まって層をつくることによって、高度な情報処理を実現している。こうした人間の脳の仕組みを模倣して、複雑な情報処理を可能にし、様々な問題解決を行おうとするのがニューラルネットワークだ。

人間の脳が行っている、音声や画像から意味のある情報を選別する「パターン認識」や、大量のデータから相関関係やパターンなどを探し出す「データマイニング」といった行動は定式化することが難しく、プログラムによる処理が困難なものだった。

人間の脳をモデルとしたニューラルネットワークを適用することで、コンピュータには困難だった作業が徐々に可能になってきている。研究開発は以前から行われていたが、2000年代に入り、脳科学の研究成果がAI開発へと本格的に応用されるようになったことで大きく状況が変化したという。

自ら学習するAI「ディープラーニング」

ニューラルネットワークの進歩は、音声や画像を認識するための能力を高めることに一役買った。人間なら、猫の写真を見て「これは猫だ」と認識するのに時間はかからない。だが、コンピュータはそうはいかない。

猫の写真をコンピュータが認識するためには、撮影された画像を文字や画像、数字といった複数の要素に分解し、それぞれをCPUやGPUなどの演算性能を利用して解析していくことになる。この際、複数の要素を同時かつ瞬時に解析していく必要があるため、複数の要素を脳と同じような形で演算することができるニューラルネットワークを用いるのだ。

ニューラルネットワークは入力層、中間層、出力層の3つに分かれている。入力層から入った情報は中間層、出力層を通って出力される。ニューラルネットワークでは、この中間層の数を増やし、複数の段階で認識を繰り返していくことで、形状や色、質感など複数の特徴を抽出していくことができる。

入力層と出力層の間の層が多層になり、階層が深くなることで、抽象的なものも判別できるようになっていく。非常に深い階層で構築されていくことになるので、ディープニューラルネットワークと呼ばれる。ディープニューラルネットワークにより構築される人工知能の一種は「ディープラーニング」と呼ばれている。

2012年、 Googleとスタンフォード大学の研究において、ディープラーニングを使用した人工知能がある成果を発表した。YouTube の動画から無作為に抽出した1,000万枚の画像をひたすら読み込ませることで、1000台のコンピュータで3日間かけて学習を行った結果、猫の顔の写真に反応する人工ニューロンが生まれた。

コンピュータは、猫の画像たちを入力とした際に、敏感に反応する人工ニューロンを選び出し、その人工ニューロンの反応を観察することで、入力した画像が「猫」であるかそうでないかを、精度よく識別できるようになった。コンピュータは猫を識別する人工ニューロンが最も反応しやすい画像として、自ら猫の画像を描いた

人から「これが猫の画像だ」と教えることなく、コンピュータが膨大なデータにアクセスする中で、自ら学習し、猫の画像を認識できるようになったという点で、革新的な出来事だった。

このように「ディープラーニング」など新しいAI技術は人間の特徴のひとつである学習能力を備えており、「機械学習(マシンラーニング)」とも呼ばれる。

画像の認識やリアルタイム翻訳も可能に

「ディープラーニング」は、IT企業を中心に研究開発が盛んになっている。コンピュータが画像や音声のパターンを認識する技術や、コンピュータが人間の言葉を理解するための技術である「自然言語処理」などへの応用が期待されている。

パターン認識技術があると、たとえばFacebookのようなソーシャルネットワークに画像を投稿した際にそれが誰なのかを認識したり、料理の写真を投稿した際にそれがどんな料理なのか、どんな材料が使われているのかをコンピュータ側が自動で認識することが可能になる。

Microsoftの研究部門であるMicrosoft Researchが進めている人工知能研究「Project Adam」では、スマートフォンで犬の写真を撮影し、「この犬の犬種は何か?」と尋ねると、正しい犬種を答えるというデモを一昨年7月に開催された「Faculty Summit 2014」で披露している。

この技術の開発が進むと、リアルタイム翻訳も可能になる。リアルタイム翻訳の技術はMicrosoftが提供するインターネット電話サービスSkypeが2014年12月から始めた「Skype Translator」にも使われている。現在、英語、スペイン語、フランス語、ドイツ語、イタリア語、中国語 (北京語)に対応。音声で入力した内容をテキストに変換し、翻訳してまた音声に変換するという作業を行ってくれる。

世界中とつながり、リモートでコミュニケーションをとることが増えている今、リアルタイム翻訳の技術はニーズが高い。

ビッグデータ・IoTの時代とも相性の良いAI技術

事例で紹介したような認識処理は、処理に使うことができるデータの量が増えれば増えるほど、認識の精度は指数関数的に高まっていく。

ソーシャルネットワークの発達で人々からの情報発信が増え、IoTデバイスが登場してきたことで、様々なモノがインターネットに接続されるようになり、これまで数値が計測できなかった領域のデータも取得可能になってきている。

これまで以上にデータ量が膨大になっていくビッグデータの時代において、人工知能による認識技術の精度はますます高まっていくことになる。取得できるようになったデータを解析できる人工知能が活躍する場面は、今後ますます増えていくだろう。

人工知能は研究室で開発されるだけではなく、アルゴリズムの精度を向上させるためにも、現場との距離を縮め、実際にビジネスで利用されることが非常に重要だ。そのため、世界では実際のサービスに人工知能が組み込まれる例が増えてきている。

では、人工知能がどのようにサービスやシステムに組み込まれているのか、どんなプレイヤーがこのフロンティアに挑戦しているのか。次回はそれらについて紹介していきたい。

最新記事

この記事をシェアする

シェアする

この記事のURLとタイトルをコピーする

コピーする

(c) Recruit Co., Ltd.