リクルートテクノロジーズ、機械学習の"未来"を開拓機械がパラメーターをチューニング、自動で精度が向上する仕組みを実現

2016年2月25日

リクルートテクノロジーズ、機械学習の"未来"を開拓
機械がパラメーターをチューニング、自動で精度が向上する仕組みを実現

株式会社リクルートテクノロジーズ(本社:東京都千代田区、代表取締役社長:中尾隆一郎、以下:リクルートテクノロジーズ)は、大量の画像データを機械学習モデルにより解析する仕組みを開発し、リクルートグループのサービスに実装してきました。今回は機械学習によるビッグデータ活用の一環として、機械学習モデルの精度向上の「自動化」に取り組みました。2015年12月から2016年1月にかけて約10日間、既存の機械学習モデルにおいて数万回のチューニングを自動で行い、約3%の精度向上を実現しています。

①ますます実用化が見込めるDeepLearningを活用した機械学習モデル

これまでリクルートテクノロジーズでは、Deep Learning※1 を活用した独自の画像解析システムを構築し、リクルートグループのサービスにおいて実装してきました。例えば、リクルートライフスタイルが提供する「ホットペッパービューティー」のネイルデザインの類似画像判別や、キュレーションメディアである「ギャザリー」において不適切画像を校閲する機能などでも活用されており、今後もますますその需要の高まりが見込まれています。今回、リクルートテクノロジーズは、システム運用のさらなる効率化を目指し、画像解析における判別精度向上の「自動化」を実現しました。これまで IT エンジニアの「職人技」に頼ってきたプロセスを自動化することにより、システムの精度やスピードの向上、IT エンジニアの大幅な負荷軽減が期待できます。

※1 Deep Learning・・・「ニューラルネットワーク(人間の脳内の神経回路網とそのプロセスを模倣したもの)」という機械学習ロジックを多層にして組み合わせたもの

②機械学習モデルにおけるパラメーターチューニングを自動化
~人手をかけずに自動で精度が向上する仕組みを実現~

リクルートテクノロジーズが採用している画像認識の機械学習モデルは、以下の流れで構成されています。まず、大量の「教師画像」を用意し、そこに「正解カテゴリ」を付けます。そして、学習用の画像を用いて、画像から繰り返し特徴を抽出し、判別モデルを作成します。そこに未知の画像を投入し、カテゴリの判定を行うという仕組みです。今回、自動化が成功したパラメーターチューニングは「2判別モデルの作成」における精度向上のプロセスです。精度向上においては、十数種類のパラメーターを繰り返しチューニングする必要があります。これまでは、この繰り返しのチューニングは全て人手によって対応されてきました。今回、リクルートテクノロジーズがこのパラメーターチューニングの自動化に成功したことで、人手をかけずに自動で精度が向上する仕組みが実現しました。

<リクルートテクノロジーズが採用している機械学習モデルの全体像>

:例えば、大量の虎の画像を用意し、その一つ一つの画像に対し、「その画像は虎である」という正解カテゴリをつける
:学習用の画像を用いて画像から特徴を抽出し、予測・分類を行う
:学習用の画像とは別の新しい画像を判別モデルに投入する
:新しい画像がどのカテゴリに属するのか確率で判別する

リクルートテクノロジーズは、2の判別モデル作成において「Convolutional Neural Net(以下CNN)」という画像解析手法を採用しています。これは Deep Learning のロジックの中でも、主に画像解析を目的に使用されるものであり、画像の特徴を抽出・識別するための手法です。この手法は、「画像データ全体を小さなパーツに分類し、その特徴の集合体によって画像を識別する」という概念に基づいています。 CNNは主に下記の二つのフェーズを繰り返すことにより特徴抽出を行います。

1つ目は、画像を分析するプロセスです。左図のように画像から一定の大きさのパッチを形成し、これらをスライドさせてパッチごとに複数の特徴を抽出していく処理を行います。

2つ目は、分解したパーツをまとめるプロセスです。上記で抽出された特徴量をまとめ上げ、圧縮して計算量を削減します。

この2つのフェーズを繰り返すことで、複雑で抽象的な特徴を取り出すことができます。このように抽出した特徴量を関数により統合した判別モデルによって、未知の画像は4のように判別されます。そして、この時の「誤判定率」が小さくなればなるほど、識別力が高い判定モデルが作成されたということになります。

CNN の精度向上プロセス

CNN において、誤判定率を最小にするためには、上記の処理を実施する際に、処理を実施する順番と、各層におけるハイパーパラメーター(複数のパラメーター)の設定値が重要になります。このような各種ハイパーパラメーターの調整や学習用画像の追加などを行う作業を「チューニング」といいます。これまでは、このチューニングが IT エンジニアに多くの負荷を課してきました。 Deep Learning では調整すべきハイパーパラメーターの種類が非常に多く、代表的なものを挙げるだけでも下記のようなパラメーターが存在します。

<ハイパーパラメータの例>

パッチサイズの調整
画像認識の際のパッチサイズを調整して、特徴抽出を細分化するチューニングです。

スライドサイズの調整
パッチのスライドサイズを調整し、特徴抽出領域を設定するチューニングです。

ハイパーパラメーターのチューニングを自動化

画像判別の精度を向上させるためには、上記の他にも「学習係数」や「イテレーション数」、「モーメンタム」など多くのパラメーターを調整する必要があります。これらのパラメーターを変更後、逐次モデルを作成し精度を見るという方法を幾度か繰り返します。リクルートテクノロジーズは、これらのプロセスを DFO(Derivative Free Optimization)※2 を用いて自動化し、人手をかけずに繰り返しのチューニングが行われる仕組みを開発しました。これにより、IT エンジニアの工数を最小限に抑えることができ、より多くのサービスに対して機械学習を実装することが可能になります。

※2 DFO・・・現実世界の問題を数理計画問題として取り扱う際、目的関数の微分に関する情報を用いることができない場合に用いる求解手法を総称して DFO という

③機械学習におけるリクルートテクノロジーズの挑戦
~実際のサービスの継続的なクオリティアップを目指す~

機械学習においては、通常「斬新な機械学習モデルや、その活用方法を考案した」という時点で開発が止まってしまうケースが多々あります。これは、一度機械学習モデルを作成し、ある程度まで精度が上がってしまうと、それ以上に精度を上げるためには多大な労力や時間を要してしまうためです。これにより投資対効果が低いと判断されてしまい、開発が進まなくなるケースは珍しくありません。これに対し、リクルートテクノロジーズでは、自動で精度が向上する仕組みを実現したことにより、精度向上にかかる労力を大幅に削減することが可能になりました。

これが成し遂げられた背景には、メンバーの飽くなき探求心がありました。「より多くのユーザーに、より質の高いサービスを提供したい」というこだわりが、今回の取り組みにつながっています。

会社概要

株式会社リクルートテクノロジーズは、リクルートグループのビジネスにおける IT・ネットマーケティングテクノロジーの開発・提供を行う機能会社です。 IT・ネットマーケティング領域の専門力・イノベーション力で、リクルートグループのビジネスを進化させることがミッションであり、「次世代技術の R&D・新ソリューションの開拓」「ビジネスの実装」といったテーマに取り組んでいます。

社名：株式会社リクルートテクノロジーズ
設立：2012年10月1日
資本金：1億円
従業員数：498 名(2015年10月1日現在)
事業内容：IT・ネットマーケティングテクノロジーの開発・提供
Webサイト：/

先端技術の研究開発を行う、リクルートテクノロジーズの取組み

リクルートテクノロジーズは、これまでにない体験価値をユーザーへ提供することを目指し、先進的な技術をリクルートグループのサービスに実装する取組みを行っています。ビッグデータ活用や機械学習に関連した取組みを、以下に紹介します。

ビッグデータに関連した講演実績

◆WebDB フォーラム 2015(2015年11月25日)

『ディープラーニングを応用した『画像解析』システム』
リクルートテクノロジーズビッグデータ部では、人工知能の実現技術として注目を集める Deep Learning をビジネスに適用する取組みの一環として、画像検索システムを構築し、サービスに実装しました。Deep Learning による画像解析と Active Learning によるモデル改善を組み合わせることによって、継続的に検索精度を上げることができる仕組みを実現しています。システム導入の結果、複数のWebサービスにおいて検索精度が向上したり、ユーザーの平均閲覧数が向上する結果となりました。

◆データ活用事例セミナー(2015年9月1日)
『リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理 Web のご紹介』リクルートのビジネスを支えるビッグデータ活用基盤とメタデータ管理システム【METALOOKING(メタルキング)】について紹介。複数サービスを事業ごとに運営する中、データの定義情報が企画/開発間で分散管理されるなどしてデータを十分に活用できないという課題が顕在化。システム管理者の視点から、データ定義(=「メタデータ」)の統合管理システムを開発し、分析者目線で必要な機能を見極めて常に情報更新される運用の定常化までを一気通貫で実施。分析プロセスの効率化に成功しました。

◆人工知能学会 2015(2015年5月31日)
『ユーザーとの長期伴走を考慮したブライダル・ウェディング情報の情報推薦システムの構築』短時間で効率良くマッチングしアクションに結びつける一般的なレコメンドに対し、「一定期間(数ヶ月〜1年)、継続的にサービスを利用する」型のサービスにおける、「伴走型レコメンドアルゴリズム」を独自に開発。機械学習の手法の一つ、「転移学習」を用い、アプリの一部におけるユーザーの行動から、アプリ全体をパーソナライズ。これによって各フェーズで最適なタイミングで適切な情報をレコメンドし、ユーザー心理を初期段階から育成することで、ユーザーのタイムシェアの獲得と、CV 向上を実現した事例を発表しました。

◆Hadoop ソースコードリーディング(2015年5月21日)
『レコメンドバッチ高速化に向けた Spark/MapReduce の機械学習ライブラリ比較検証』蓄積データ量の増加に伴うバッチの長時間化を背景に、次世代のデータ分析処理基盤としての Spark の実用可能性をアプリ面から検証した際の検証方法と結果を発表。現状の基盤からレコメンド精度を損なうことなく、実行時間を大幅に短縮する結果となり、スケール性も同等であることから、次世代のレコメンド処理基盤としての Spark の有用性が確認できました。

未来のスマートホーム技術を実証実験
IoT 技術を普及させる標準規格として、PhysicalWeb※3 に注目。「家の中で Physical Web を活用したらどんな体験が可能か?」を実証する研究の一環として、 URL を発信する仮想の家電を用意。スマートフォンの Web ブラウザ上で URL を受信し、コントローラとして操作できるデモを行いました。コーディング等に馴染みがないデザイナーでも、簡単にコントローラを開発できるよう、独自のコンポーネントライブラリも開発・提案しています。

※3 グーグルが2014年10月3日に発表したグーグルが公開する、Web 技術を利用して IoT でモノと対話できる仕組みをつくることを目的としたプロジェクト。

本件に関するお問い合わせ先

https://www.recruit.jp/support/form/