B

Bert Base Japanese V2

tohoku-nlpによって開発
日本語ウィキペディアで事前学習されたBERTモデルで、Unidic辞書を使用した語彙レベルの分かち書きと全語マスキング訓練を採用
ダウンロード数 12.59k
リリース時間 : 3/2/2022

モデル概要

これは日本語テキストに最適化されたBERT基本モデルで、主にテキスト分類、固有表現認識などの自然言語処理タスクに使用されます。

モデル特徴

全語マスキング訓練
全語マスキング戦略を採用し、同一語彙の全てのサブワードトークンが同時にマスクされ、モデルの理解能力を向上
Unidic辞書分かち書き
Unidic 2.1.2辞書を使用した語彙レベルの分かち書きを行い、WordPieceサブワード分割で入力テキストを処理
大規模事前学習データ
日本語ウィキペディア2020年8月31日ダンプファイルを基にし、約3000万文を含む

モデル能力

日本語テキスト理解
マスク言語モデリング
テキスト特徴抽出

使用事例

自然言語処理
テキスト分類
日本語テキストの分類タスク
固有表現認識
日本語テキスト中の人名、地名などの実体を認識
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase