R

Roberta Base Japanese

nlp-wasedaによって開発
日本語RoBERTaに基づく事前学習モデルで、学習データには日本語ウィキペディアとCC-100の日本語部分が含まれています。
ダウンロード数 456
リリース時間 : 3/2/2022

モデル概要

これはRoBERTaアーキテクチャに基づく日本語事前学習モデルで、主に日本語テキストのマスク言語モデリングタスクに使用されます。モデルは大規模な日本語コーパスで学習され、様々な日本語自然言語処理タスクに適しています。

モデル特徴

日本語専用事前学習
日本語に特化して事前学習され、日本語ウィキペディアとCC-100の日本語部分を学習データとして使用しています。
Juman++形態素解析サポート
入力テキストはJuman++で形態素解析する必要があり、日本語テキストの最適な処理結果を保証します。
大規模語彙表
32000個のトークンを含み、JumanDIC語彙とsentencepieceで生成されたサブワードが組み合わされています。
効率的な学習
8台のNVIDIA A100 GPUを使用して1週間で学習を完了し、様々な最適化技術を採用しています。

モデル能力

日本語テキスト理解
マスク言語予測
下流タスクの微調整

使用事例

自然言語処理
テキスト補完
文章中のマスク記号[MASK]で置き換えられた単語を予測します。
日本語テキストの欠落した単語を正確に予測できます。
テキスト分類
微調整により、感情分析、トピック分類などのタスクに使用できます。
固有表現認識
微調整により、日本語テキストの人名、地名などの固有表現を認識できます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase