B

Bert Base Japanese Whole Word Masking

Developed by tohoku-nlp
日本語テキストを用いて事前学習されたBERTモデルで、IPA辞書による形態素解析と全単語マスキング技術を採用しています。
Downloads 113.33k
Release Time : 3/2/2022

Model Overview

これは日本語ウィキペディアのコーパスを用いて事前学習されたBERTモデルで、主に日本語の自然言語処理タスクに使用されます。モデルはIPA辞書を用いて単語レベルの形態素解析を行い、全単語マスキングの学習メカニズムをサポートしています。

Model Features

IPA辞書による形態素解析
MeCab形態素解析器とIPA辞書を組み合わせて単語レベルの形態素解析を行い、日本語の言語特性に適しています。
全単語マスキング技術
学習時に完全な単語のすべてのサブワードトークンを同時にマスクすることで、言語モデリングの効果を向上させます。
大規模事前学習
2.6GBの日本語ウィキペディアコーパス(約1700万文)を用いて100万ステップの学習を行いました。

Model Capabilities

日本語テキスト理解
日本語言語モデリング
日本語テキストの特徴抽出

Use Cases

自然言語処理
日本語テキスト分類
ニュース分類や感情分析などのタスクに使用できます。
日本語質問応答システム
基礎モデルとして日本語質問応答アプリケーションを構築します。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase