BERT - 1.3Bオープンソース言語モデル - 日本語シーン向けに設計され、テキスト処理アプリケーションをサポート

ホーム

Bert 1.3b

retrieva-jpによって開発

Megatron-LMで事前学習されたTransformerエンコーダーで、日本語シーン向けに設計

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語BERT #長文処理 #SwiGLU活性化

ダウンロード数 56

リリース時間 : 6/25/2024

モデル概要

RetrievaBERTはMegatron-LMフレームワークで事前学習されたTransformerエンコーダーで、日本語アプリケーションシーン向けに、事前正規化、SwiGLU活性化関数などの先進的な特徴を備えています

モデル特徴

事前正規化(PreNorm)

学習の安定性を向上

SwiGLU活性化関数

モデルの表現力を強化

グループ化クエリ注意機構

効率的な注意計算

長文処理能力

2048トークンまでの長文処理をサポート

モデル能力

日本語テキスト理解

英語テキスト理解

マスク言語モデリング

下流タスクのファインチューニング

使用事例

テキスト理解

日本語テキスト分類

日本語の感情分析、トピック分類などのタスクに使用可能

MARC-jaタスクで0.959の精度を達成

意味的類似度計算

日本語テキストペア間の意味的類似度を計算するために使用可能

JSTSタスクでピアソン相関係数0.917

質問応答システム

日本語質問応答システム

日本語ベースの質問応答システムの構築に使用可能

JSQuADタスクでEMスコア0.875

🚀 RetrievaBERTモデル

RetrievaBERTは、Megatron - LMを使用して事前学習されたTransformerエンコーダです。このモデルは日本語での使用を想定して設計されています。

🆕 新機能

2024年11月 (v1.0.1)：モデルパラメータのバグ修正。
- up_projのバイアスがゲートのバイアスで初期化されていた問題が修正されました。

📚 モデルの詳細

モデルの説明

RetrievaBERTは、Megatron - LMを使用して事前学習されたTransformerエンコーダです。このモデルは日本語での使用を想定して設計されています。

従来のBERTモデルと比較して、このモデルにはいくつかの高度な機能があります。

PreNorm：学習中の安定性が向上します。
SwiGLU：より良い性能を得るための強化された活性化関数です。
Grouped - Query Attention (Multi - Query Attention)：効率的なアテンションメカニズムです。
最大シーケンス長：2048トークンで、より長いコンテキストを扱えます。
パラメータ数：13億個のパラメータです。
事前学習の目的：Masked Language Modeling (MLM)のみで、Next Sentence Prediction (NSP)は行われません。
トークンタイプID：このモデルでは使用されません。

モデルの情報源

開発元：Retrieva, Inc.
モデルタイプ：MegatronBERTアーキテクチャに基づいています。
言語 (NLP)：主に日本語（英語のオプションサポートあり）
ライセンス：Apache 2.0

💻 使用方法

このモデルはMasked Language Model (MLM)として使用できますが、主に下流タスクでのファインチューニングを想定しています。使用ケースに応じて、以下の該当するセクションを参照してください。

直接使用

このモデルはMasked Language Modelingを使用して事前学習されています。使用されるマスクトークンは<MASK|LLM - jp>です。RetrievaBERTはカスタムモデル実装を使用しているため、trust_remote_codeをTrueに設定する必要があります。

直接使用するためのコード例：

from transformers import AutoModelForMaskedLM, AutoTokenizer, pipeline

model_id = "retrieva-jp/bert-1.3b"
model = AutoModelForMaskedLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipe = pipeline("fill-mask", model=model, tokenizer=tokenizer)

text = "こんにちは！私の名前は<MASK|LLM-jp>です！"
print(pipe(text))

下流タスクでの使用

RetrievaBERTはHugging FaceのAutoModelsと互換性があります。特定のタスクでRetrievaBERTをファインチューニングするには、対応するAutoModelクラスを使用してください。詳細な設定については、config.jsonファイルを参照してください。

📈 学習の詳細

学習データ

RetrievaBERTモデルは、5つのデータセットを統合して事前学習されました。

Japanese CommonCrawl Dataset by LLM - jp
RefinedWeb
2024年1月20日にダンプされた中国語Wikipedia
2024年1月20日にダンプされた韓国語Wikipedia
The Stack

このモデルは、上記のデータセットを使用して1800億トークンで学習されました。

学習手順

このモデルは、4から32台のH100 GPUでバッチサイズ1,024で学習されました。Sequence Length Warmupに似たカリキュラム学習を採用し、以下のシーケンス長とステップ数で学習されました。

シーケンス長128：31,000ステップ
シーケンス長256：219,000ステップ
シーケンス長512：192,000ステップ
シーケンス長2048：12,000ステップ

学習ハイパーパラメータ

このモデルは以下のハイパーパラメータで学習されました。

学習率：1.5e - 4
学習率の減衰スタイル：線形
学習率のウォームアップ割合：0.01
最小学習率：1e - 6
浮動小数点表現：BF16

🧪 評価

以下のモデルをファインチューニングし、JGLUE開発セットで評価しました。各モデルとタスクに対して、JGLUE論文に従って学習率と学習エポック数を調整しました。

モデル	MARC - ja/acc	JSTS/pearson	JSTS/spearman	JNLI/acc	JSQuAD/EM	JSQuAD/F1	JComQA/acc
tohoku - nlp/bert - base - japanese - v3	0.957	0.914	0.876	0.906	0.878	0.946	0.849
tohoku - nlp/bert - large - japanese - v2	0.959	0.916	0.877	0.901	0.884	0.951	0.867
ku - nlp/deberta - v3 - base - japanese	0.958	0.925	0.890	0.902	0.925	0.910	0.882
retrieva - jp/bert - 1.3b	0.959	0.917	0.881	0.898	0.875	0.874	0.827