bert-base-japanese-v2オープンソースの日本語BERTモデル - ウィキペディアに基づいた訓練で日本語処理を支援

ホーム

Bert Base Japanese V2

tohoku-nlpによって開発

日本語ウィキペディアで事前学習されたBERTモデルで、Unidic辞書を使用した語彙レベルの分かち書きと全語マスキング訓練を採用

大規模言語モデル日本語#日本語全語マスキングBERT #Unidic分かち書き最適化 #ウィキペディア事前学習

ダウンロード数 12.59k

リリース時間 : 3/2/2022

モデル概要

これは日本語テキストに最適化されたBERT基本モデルで、主にテキスト分類、固有表現認識などの自然言語処理タスクに使用されます。

モデル特徴

全語マスキング訓練

全語マスキング戦略を採用し、同一語彙の全てのサブワードトークンが同時にマスクされ、モデルの理解能力を向上

Unidic辞書分かち書き

Unidic 2.1.2辞書を使用した語彙レベルの分かち書きを行い、WordPieceサブワード分割で入力テキストを処理

大規模事前学習データ

日本語ウィキペディア2020年8月31日ダンプファイルを基にし、約3000万文を含む

モデル能力

日本語テキスト理解

マスク言語モデリング

テキスト特徴抽出

使用事例

自然言語処理

テキスト分類

日本語テキストの分類タスク

固有表現認識

日本語テキスト中の人名、地名などの実体を認識

🚀 BERT base Japanese (unidic-lite with whole word masking, jawiki-20200831)

このモデルは、日本語のテキストで事前学習されたBERTモデルです。このモデルは、Unidic 2.1.2辞書（unidic-liteパッケージで利用可能）に基づく単語レベルのトークン化を行い、その後WordPieceサブワードトークン化を適用して入力テキストを処理します。また、マスク言語モデリング（MLM）の目的で、ホールワードマスキングが有効になっています。

事前学習のコードはcl-tohoku/bert-japaneseで公開されています。

🚀 クイックスタート

この日本語版BERTモデルは、日本語の自然言語処理タスクに利用できます。具体的なコードを用いた使用方法は、公式のリポジトリを参照してください。

✨ 主な機能

日本語のテキストに対する事前学習済みモデルです。
Unidic 2.1.2辞書を用いた単語レベルのトークン化とWordPieceサブワードトークン化をサポートします。
マスク言語モデリング（MLM）の目的でホールワードマスキングをサポートします。

📚 ドキュメント

モデルアーキテクチャ

モデルアーキテクチャは、元のBERT baseモデルと同じです。12層、隠れ状態の次元数は768、アテンションヘッドは12個です。

学習データ

モデルは、日本語版Wikipediaで学習されています。学習コーパスは、2020年8月31日時点のWikipedia Cirrussearchダンプファイルから生成されています。生成されたコーパスファイルの合計サイズは4.0GBで、約3000万文を含んでいます。テキストを文に分割するために、MeCab形態素解析器とmecab-ipadic-NEologd辞書を使用しました。

トークン化

テキストは、最初にUnidic 2.1.2辞書を使用したMeCabでトークン化され、その後WordPieceアルゴリズムでサブワードに分割されます。語彙サイズは32768です。トークン化には、fugashiとunidic-liteパッケージを使用しました。

学習

モデルは、元のBERTと同じ設定で学習されています。1インスタンスあたり512トークン、1バッチあたり256インスタンス、100万ステップの学習を行いました。マスク言語モデリング（MLM）の目的で、MeCabでトークン化された単語に対応するすべてのサブワードトークンを一度にマスクするホールワードマスキングを導入しました。各モデルの学習には、TensorFlow Research Cloudプログラムから提供されたCloud TPUのv3 - 8インスタンスを使用しました。学習には約5日かかりました。

ライセンス

事前学習済みモデルは、Creative Commons Attribution - ShareAlike 3.0の条件で配布されています。

謝辞

このモデルは、TensorFlow Research Cloudプログラムから提供されたCloud TPUを使用して学習されました。

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | BERT base Japanese (unidic-lite with whole word masking, jawiki-20200831) |
| 学習データ | 日本語版Wikipedia（2020年8月31日時点のWikipedia Cirrussearchダンプファイルから生成） |