リクルートのAI研究機関、Transformers事前学習モデルを構築し解析精度を向上した日本語自然言語処理ライブラリ「GiNZA version 5.0」を公開

2021.08.26 THU

新規事業・R&Dその他

株式会社リクルート

logo_recruit

株式会社リクルート（本社：東京都千代田区、代表取締役社長：北村吉弘、以下リクルート）は、当社のAI研究機関であるMegagon Labsより、国立国語研究所との共同研究成果として、Transformers事前学習モデルを用いることで、解析精度を大幅に向上させた日本語自然言語処理オープンソースライブラリ（以下、OSSライブラリ）「GiNZA version 5.0」を無料公開しました。

1. 日本語自然言語処理OSSライブラリ「GiNZA」について

自然言語処理技術とは、私たちが日常的に使っている言語(自然言語)をコンピューターに処理させる一連の技術を指し、検索エンジンや機械翻訳、対話システム、顧客の声分析など、生活・ビジネスにおけるさまざまなシーンで利用されています。

リクルートのAI研究機関・Megagon Labsが開発・提供する「GiNZA」は、機械学習を利用した日本語の自然言語処理に関心があり解析を行いたいと考えている研究者やエンジニア、データサイエンティストに向けて開発された、無料で利用可能なライセンスの下で公開されたOSSライブラリです。ビジネスの現場で広く利用されることを想定し、ワンステップでの導入や高速・高精度な解析処理、単語依存構造レベルの国際化対応などの特長を備えています。「GiNZA」を使えば、構文構造の解析から、人名・組織名・地名・商品名・数値といった固有表現抽出まで統合的に解析でき、また、日本語文法に根ざした、日本語の文節を単位とする解析結果が容易に得られます。

2020年1月のversion 3.0公開以降、19ヵ月で10万ダウンロードを超え、Universal Dependencies(UD、※1)の日本語解析系として、学術機関だけでなく、頑健かつ柔軟な応用が可能な実用的ライブラリを望む産業界の多くの方々にご利用いただいています。Megagon Labsは今後も「GiNZA」をアップデートしていくことで、より速く、高精度な日本語の自然言語処理を可能にし、あらゆる産業において自然言語処理の活用が促進される世界を目指し、研究活動を進めてまいります。

★ 「GiNZA」公開ページ

2. 「GiNZA version 5.0」アップデートの主な特長

（1）20億文以上のWebテキストで事前学習を行ったTransformersモデルを用いて解析精度を飛躍的に向上

大規模テキストで事前学習したTransformersモデルを独自に構築
近年、多くの自然言語処理タスクで最高精度記録を更新し続けているTransformersモデルの多くは、大量のテキストデータによる単語の穴埋め問題(Masked Language Model)を事前学習タスクに用いています。Megagon Labsは、インターネット上の大量のテキストを収集したmC4データセット(※2)から抽出した日本語テキスト20億文以上を利用して、広範な分野をカバーするTransformers事前学習モデルを独自に構築しました。Transformersモデルには事前学習効率が高いELECTRA(※3)を、そのトークン化処理には日本語Universal Dependenciesと同じ国立国語研究所UniDic短単位をベースとするSudachiTra(※4)を、それぞれ採用しました。構築したTransformers事前学習モデルは「transformers-ud-japanese」(※5)として別途公開します。
処理パイプラインへのTransformersモデルの組み込み
「GiNZA」が使用するPython(※6)向け自然言語処理フレームワークspaCy(※7)では、2021年１月にリリースされたversion 3での機能拡張により、処理パイプラインへTransformersモデルを容易に組み込むことができるようになりました。「GiNZA version 5.0」ではspaCyの処理パイプラインの最前段に組み込んだ「transformers-ud-japanese」から得られる単語(サブワード)の意味ベクトル表現を用いることで、後段の依存構造解析・固有表現抽出・品詞推定の精度を大幅に向上することができました。
国立国語研究所との共同研究成果の依存構造解析モデルを提供
2014年から全世界で取り組みが始まった「Universal Dependencies」は、人類が用いる多様な言語を、一貫した構文構造・品詞体系で分析可能にすることを目的とする取り組みです。日本においても、当初から、Universal Dependenciesの日本語への適用に関する研究と、日本語版UDコーパス（データ）構築が、同時に進められてきました。Megagon Labsは、国立国語研究所と共同で、日本語版UDに基づいた高精度な依存構造解析技術の研究開発、および、日本語版UDコーパス中の固有表現への正解ラベル付与などの取り組みを行い、これらの成果を組み込んだ「GiNZA日本語UDモデル」を公開しています。
「GiNZA version 5.0」で使用する「GiNZA日本語UDモデル」は、国立国語研究所の大規模かつ高品質な「現代日本語書き言葉均衡コーパス」をUniversal Dependencies体系に変換したUD_Japanese-BCCWJ r2.8と、広範囲なインターネット上のテキストで事前学習された「transformers-ud-japanese」を組み合わせて依存構造解析モデルの学習を行うことで、幅広い分野に適応可能な解析モデルを構築しています。

（２）用途に応じて複数の解析モデルを提供

Transformersモデルは解析精度を大幅に向上できる反面、計算量の増大により処理速度が低下するデメリットがあります。「GiNZA version 5.0」では解析精度重視、または、処理速度重視のように用途に応じてモデルを切り替えて使用することができます。提供するモデルは次の2種類です。 (Python 3.6以上と対応するpip環境が必要です。GiNZAの過去のバージョンをインストール済みの場合は事前にアンインストールしてください。)

解析精度重視モデル (ja-ginza-electra)
インストールコマンド： pip install -U ginza ja-ginza-electra
処理速度重視モデル (ja-ginza)
インストールコマンド： pip install -U ginza ja-ginza

※1 全世界の多様な言語を一貫した文法・品詞体系で解析可能にすることを目指した国際的学術プロジェクト
※2 インターネット上のテキストを収集したCommon Crawlテキストデータセットに対して、Googleが開発したフィルタを適用して構築した多言語テキストデータセット(事前学習にはmC4の日本語テキスト全体をさらに文らしさで絞り込んだ約20億文を使用）
※3 ICLR2020でStanford大学とGoogle Researchが発表した敵対的学習を模した機構で事前学習効率を大幅に向上したTransformersモデル(学習用ライブラリにはNVIDIAのDeepLearningExampleのTensorFlow2による実装を、解析フレームワークにはHugging Faceのtransformersをそれぞれ使用)
※4株式会社ワークスアプリケーションズ・エンタープライズの自然言語処理研究に特化したAI研究機関「ワークス徳島人工知能NLP研究所」が開発するHugging Face Transformers向けトークナイザライブラリ（形態素解析器としてGiNZAと同じSudachiPyを使用）
※5 Hugging Face Inc.が公開する機械学習モデル共有リポジトリHugging Face Hubから公開中(https://huggingface.co/megagonlabs/)
※6プログラミング言語の一つで、シンプルで記述力の高い言語として人気があります。データサイエンス領域だけでなく、ウェブアプリケーション開発などでも広く利用されています
※7 ExplosionAI GmbHが開発する最先端の機械学習技術を取り入れた高機能な自然言語処理フレームワーク

プレスリリース一覧へ戻る

リクルートのAI研究機関、Transformers事前学習モデルを構築し解析精度を向上した日本語自然言語処理ライブラリ 「GiNZA version 5.0」を公開

1. 日本語自然言語処理OSSライブラリ「GiNZA」について

2. 「GiNZA version 5.0」アップデートの主な特長

（1）20億文以上のWebテキストで事前学習を行ったTransformersモデルを用いて解析精度を飛躍的に向上

（２）用途に応じて複数の解析モデルを提供

リクルートのAI研究機関、Transformers事前学習モデルを構築し解析精度を向上した日本語自然言語処理ライブラリ「GiNZA version 5.0」を公開