2024.04.01新規事業・R&Dその他
オンライン通販サイト『ポンパレモール』サービス終了のお知らせ
(c) Recruit Co., Ltd.
新規事業・R&Dその他
株式会社リクルート
株式会社リクルート(本社:東京都千代田区、代表取締役社長:北村 吉弘、以下リクルート)は、当社のAI研究機関であるMegagon Labsより、国立国語研究所との共同研究成果として、Transformers事前学習モデルを用いることで、解析精度を大幅に向上させた日本語自然言語処理オープンソースライブラリ(以下、OSSライブラリ)「GiNZA version 5.0」を無料公開しました。
自然言語処理技術とは、私たちが日常的に使っている言語(自然言語)をコンピューターに処理させる一連の技術を指し、検索エンジンや機械翻訳、対話システム、顧客の声分析など、生活・ビジネスに おけるさまざまなシーンで利用されています。
リクルートのAI研究機関・Megagon Labsが開発・提供する「GiNZA」は、機械学習を利用した日本語の自然言語処理に関心があり解析を行いたいと考えている研究者やエンジニア、データサイエンティストに向けて開発された、無料で利用可能なライセンスの下で公開されたOSSライブラリです。ビジネスの現場で広く利用されることを想定し、ワンステップでの導入や高速・高精度な解析処理、単語依存構造レベルの国際化対応などの特長を備えています。「GiNZA」を使えば、構文構造の解析から、人名・組織名・地名・商品名・数値といった固有表現抽出まで統合的に解析でき、また、日本語文法に根ざした、日本語の文節を単位とする解析結果が容易に得られます。
2020年1月のversion 3.0公開以降、19ヵ月で10万ダウンロードを超え、Universal Dependencies(UD、※1)の日本語解析系として、学術機関だけでなく、頑健かつ柔軟な応用が可能な実用的ライブラリを望む産業界の多くの方々にご利用いただいています。Megagon Labsは今後も「GiNZA」をアップデートしていくことで、より速く、高精度な日本語の自然言語処理を可能にし、あらゆる産業において自然言語処理の活用が促進される世界を目指し、研究活動を進めてまいります。
Transformersモデルは解析精度を大幅に向上できる反面、計算量の増大により処理速度が低下するデメリットがあります。「GiNZA version 5.0」では解析精度重視、または、処理速度重視のように用途に応じてモデルを切り替えて使用することができます。提供するモデルは次の2種類です。 (Python 3.6以上と対応するpip環境が必要です。GiNZAの過去のバージョンをインストール済みの場合は事前にアンインストールしてください。)
解析精度重視モデル (ja-ginza-electra)
インストールコマンド: pip install -U ginza ja-ginza-electra
処理速度重視モデル (ja-ginza)
インストールコマンド: pip install -U ginza ja-ginza
※1 全世界の多様な言語を一貫した文法・品詞体系で解析可能にすることを目指した国際的学術プロジェクト
※2 インターネット上のテキストを収集したCommon Crawlテキストデータセットに対して、Googleが開発したフィルタを適用して構築した多言語テキストデータセット(事前学習にはmC4の日本語テキスト全体をさらに文らしさで絞り込んだ約20億文を使用)
※3 ICLR2020でStanford大学とGoogle Researchが発表した敵対的学習を模した機構で事前学習効率を大幅に向上したTransformersモデル(学習用ライブラリにはNVIDIAのDeepLearningExampleのTensorFlow2による実装を、解析フレームワークにはHugging Faceのtransformersをそれぞれ使用)
※4株式会社ワークスアプリケーションズ・エンタープライズの自然言語処理研究に特化したAI研究機関「ワークス徳島人工知能NLP研究所」が開発するHugging Face Transformers向けトークナイザライブラリ(形態素解析器としてGiNZAと同じSudachiPyを使用)
※5 Hugging Face Inc.が公開する機械学習モデル共有リポジトリHugging Face Hubから公開中(https://huggingface.co/megagonlabs/)
※6プログラミング言語の一つで、シンプルで記述力の高い言語として人気があります。データサイエンス領域だけでなく、ウェブアプリケーション開発などでも広く利用されています
※7 ExplosionAI GmbHが開発する最先端の機械学習技術を取り入れた高機能な自然言語処理フレームワーク
関連するプレスリリース