Roberta Base 10M 1
異なる規模のデータセット(1M-1Bトークン)で事前学習されたRoBERTaシリーズモデルで、BASEとMED-SMALLの2種類の仕様を含む
ダウンロード数 13
リリース時間 : 3/2/2022
モデル概要
小規模データセットで事前学習されたRoBERTaの変種で、言語モデルの性能に及ぼすデータ規模の影響を研究するために使用
モデル特徴
マルチスケール事前学習
1Mから1Bまでの異なるデータ規模の事前学習モデルを提供し、データ規模効果の研究を容易にする
2種類のモデル仕様
標準BASEアーキテクチャ(125M)と簡素化MED-SMALLアーキテクチャ(45M)を含む
厳格な選別
各規模で複数回の実行から検証パープレキシティが最低の3つのモデルを選んで公開
モデル能力
テキスト表現学習
下流タスクのファインチューニング
言語モデル事前学習研究
使用事例
言語モデル研究
データ規模影響研究
異なる事前学習データ規模が言語モデル性能に及ぼす影響を研究
1M/10M/100M/1Bの4つのオーダーに対応する比較モデルを提供
教育応用
軽量言語モデル教育
小規模モデルを使用したNLP教育デモンストレーション
MED-SMALL仕様はわずか45Mパラメータで教育環境に適している
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98