roberta-base-100M-1オープンソースモデル - 英語テキスト処理をサポートする実用的な選択肢！

Roberta Base 100M 1

Developed by nyu-mll

10億トークンスケールで事前学習されたRoBERTaベースモデル、検証パープレキシティは3.93、英語テキスト処理タスクに適しています。

大規模言語モデル #小規模事前学習 #効率的なテキスト理解 #マルチバッチ最適化

Downloads 63

Release Time : 3/2/2022

Model Overview

RoBERTaはTransformerアーキテクチャに基づく事前学習言語モデルで、BERTのトレーニングプロセスを最適化することでより良い性能を実現します。このモデルは10億トークンのデータセットで事前学習されており、様々な自然言語処理タスクに適しています。

Model Features

小規模データ事前学習

10億トークン以下のデータセット向けに最適化された事前学習で、リソースが限られたアプリケーションシナリオに適しています

マルチバッチサイズ検証

512/1024/4096など複数のバッチサイズのトレーニングバージョンを提供し、異なるハードウェア条件に対応

厳格な選別

複数回の実行から検証パープレキシティが最低のモデルを選んで公開し、品質を保証

Model Capabilities

テキスト理解

テキスト生成

意味解析

言語モデリング

Use Cases

テキスト分類

感情分析

テキストの感情傾向を分析

質問応答システム

読解

与えられたテキストに基づいて質問に答える

🚀 小規模データセットで事前学習したRoBERTa

このプロジェクトでは、小規模データセット（100万、1000万、1億、10億トークン）でRoBERTaを事前学習しています。各事前学習データサイズについて、25回（10億トークンの場合は10回）の実行の中から、パープレキシティが最も低い3つのモデルを公開しています。事前学習データはBERTのものを再現しており、英語版ウィキペディアとsmashwordsのテキストを用いたBookCorpusの再現版を約3:1の比率で組み合わせています。

✨ 主な機能

小規模データセットでRoBERTaを事前学習することで、データ量に応じた最適なモデルを提供します。
各事前学習データサイズについて、パープレキシティが最も低い3つのモデルを公開しています。

📚 ドキュメント

ハイパーパラメータと検証パープレキシティ

各モデルに対応するハイパーパラメータと検証パープレキシティは以下の通りです。

モデル名	学習データサイズ	モデルサイズ	最大ステップ数	バッチサイズ	検証パープレキシティ
roberta-base-1B-1	10億	BASE	10万	512	3.93
roberta-base-1B-2	10億	BASE	3.1万	1024	4.25
roberta-base-1B-3	10億	BASE	3.1万	4096	3.84
roberta-base-100M-1	1億	BASE	10万	512	4.99
roberta-base-100M-2	1億	BASE	3.1万	1024	4.61
roberta-base-100M-3	1億	BASE	3.1万	512	5.02
roberta-base-10M-1	1000万	BASE	1万	1024	11.31
roberta-base-10M-2	1000万	BASE	1万	512	10.78
roberta-base-10M-3	1000万	BASE	3.1万	512	11.58
roberta-med-small-1M-1	100万	MED-SMALL	10万	512	153.38
roberta-med-small-1M-2	100万	MED-SMALL	1万	512	134.18
roberta-med-small-1M-3	100万	MED-SMALL	3.1万	512	139.39