R

Roberta Base 10M 1

nyu-mllによって開発
異なる規模のデータセット(1M-1Bトークン)で事前学習されたRoBERTaシリーズモデルで、BASEとMED-SMALLの2種類の仕様を含む
ダウンロード数 13
リリース時間 : 3/2/2022

モデル概要

小規模データセットで事前学習されたRoBERTaの変種で、言語モデルの性能に及ぼすデータ規模の影響を研究するために使用

モデル特徴

マルチスケール事前学習
1Mから1Bまでの異なるデータ規模の事前学習モデルを提供し、データ規模効果の研究を容易にする
2種類のモデル仕様
標準BASEアーキテクチャ(125M)と簡素化MED-SMALLアーキテクチャ(45M)を含む
厳格な選別
各規模で複数回の実行から検証パープレキシティが最低の3つのモデルを選んで公開

モデル能力

テキスト表現学習
下流タスクのファインチューニング
言語モデル事前学習研究

使用事例

言語モデル研究
データ規模影響研究
異なる事前学習データ規模が言語モデル性能に及ぼす影響を研究
1M/10M/100M/1Bの4つのオーダーに対応する比較モデルを提供
教育応用
軽量言語モデル教育
小規模モデルを使用したNLP教育デモンストレーション
MED-SMALL仕様はわずか45Mパラメータで教育環境に適している
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase