R

Roberta Base Japanese With Auto Jumanpp

nlp-wasedaによって開発
RoBERTaアーキテクチャに基づく日本語事前学習モデルで、自動Juman++形態素解析をサポートし、日本語自然言語処理タスクに適しています。
ダウンロード数 536
リリース時間 : 10/15/2022

モデル概要

これは日本語RoBERTaに基づくベースモデルで、日本語ウィキペディアとCC-100の日本語部分から事前学習されており、マスク言語モデリングと下流タスクのファインチューニングをサポートします。

モデル特徴

自動Juman++形態素解析サポート
BertJapaneseTokenizerがJuman++の自動形態素解析をサポートし、日本語テキスト処理のワークフローを簡素化します。
大規模事前学習データ
モデルは日本語ウィキペディアとCC-100の日本語部分で訓練されており、広範な日本語言語特性をカバーしています。
最適化された訓練プロセス
8台のNVIDIA A100 GPUで1週間訓練し、先進的な訓練戦略とハイパーパラメータ設定を採用しています。

モデル能力

日本語テキスト理解
マスク言語モデリング
下流タスクのファインチューニング

使用事例

自然言語処理
テキスト補完
マスク言語モデリング機能を使用して日本語文章の欠落部分を補完する
テキスト分類
モデルをファインチューニングして日本語テキスト分類タスクを実現する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase