オープンソースroberta-base-100M - 3モデル - リソース制限のあるシナリオに適した自然言語処理

Home

Roberta Base 100M 3

Developed by nyu-mll

1Mから1Bトークン規模のデータセットで事前学習されたRoBERTaバリアントで、BASEとMED-SMALLの2つの仕様があり、リソースが限られた場面での自然言語処理タスクに適しています

大規模言語モデル #小規模事前学習 #マルチバッチ最適化 #英語テキスト理解

Downloads 18

Release Time : 3/2/2022

Model Overview

異なる規模のデータセット（1M/10M/100M/1Bトークン）で事前学習されたRoBERTaモデルで、モデル仕様とトレーニングパラメータを調整することで小規模データシナリオでのパフォーマンスを最適化しています

Model Features

小規模データ最適化

1M-1Bトークンの小規模データに特化して最適化されており、元のRoBERTaよりもデータが制限されたシナリオに適しています

仕様選択可能

BASE(125M)とMED-SMALL(45M)の2つのパラメータ規模を提供し、性能と効率のバランスを取っています

厳格な検証

各データ規模で検証パープレキシティが最低の3つのモデルをリリースし、品質を保証しています

Model Capabilities

テキスト表現学習

下流タスクのファインチューニング

マスク単語予測

Use Cases

教育分野

小規模データファインチューニング

限られた注釈データを持つ教育テキスト分類タスクで事前学習ベースとして使用

研究分野

事前学習戦略研究

異なるデータ規模が事前学習モデルの性能に与える影響を研究

🚀 小規模データセットで事前学習されたRoBERTa

このプロジェクトでは、小規模なデータセット（100万、1000万、1億、10億トークン）でRoBERTaを事前学習させています。25回の実行（10億トークンの場合は10回）の中から、各事前学習データサイズに対してパープレキシティが最も低い3つのモデルを公開しています。事前学習データはBERTのものを再現しており、英語版Wikipediaとsmashwordsのテキストを用いたBookCorpusの再現データを約3:1の比率で組み合わせています。

✨ 主な機能

小規模データセットでのRoBERTaの事前学習を行い、各データサイズに対する最適なモデルを提供します。

📚 ドキュメント

ハイパーパラメータと検証パープレキシティ

各モデルに対応するハイパーパラメータと検証パープレキシティは以下の通りです。

モデル名	学習サイズ	モデルサイズ	最大ステップ数	バッチサイズ	検証パープレキシティ
roberta-base-1B-1	10億	BASE	10万	512	3.93
roberta-base-1B-2	10億	BASE	3.1万	1024	4.25
roberta-base-1B-3	10億	BASE	3.1万	4096	3.84
roberta-base-100M-1	1億	BASE	10万	512	4.99
roberta-base-100M-2	1億	BASE	3.1万	1024	4.61
roberta-base-100M-3	1億	BASE	3.1万	512	5.02
roberta-base-10M-1	1000万	BASE	1万	1024	11.31
roberta-base-10M-2	1000万	BASE	1万	512	10.78
roberta-base-10M-3	1000万	BASE	3.1万	512	11.58
roberta-med-small-1M-1	100万	MED-SMALL	10万	512	153.38
roberta-med-small-1M-2	100万	MED-SMALL	1万	512	134.18
roberta-med-small-1M-3	100万	MED-SMALL	3.1万	512	139.39