C

Cerebras GPT 111M

cerebrasによって開発
Cerebras-GPTシリーズの111Mパラメータモデルで、GPT-3スタイルのアーキテクチャを採用し、The Pileデータセットでトレーニングされ、Chinchillaスケーリング則に従って計算最適化を実現しています。
ダウンロード数 5,975
リリース時間 : 3/17/2023

モデル概要

これは111Mパラメータの因果言語モデルで、Cerebras-GPTシリーズに属し、テキスト生成タスク向けに設計されています。モデルは標準的なTransformerアーキテクチャを採用し、Andromeda AIスーパーコンピュータでトレーニングされました。

モデル特徴

計算最適トレーニング
Chinchillaスケーリング則に従い、各モデルパラメータに対して20トークンをトレーニングすることで、計算効率を最大化
ハードウェア最適化
Cerebras CS-2ウェーハスケールシステムでトレーニングされ、ウェイトストリーミング技術を活用して効率的なスケーリングを実現
オープンアーキテクチャ
標準的なTransformerアーキテクチャを採用し、研究や応用が容易

モデル能力

英語テキスト生成
因果言語モデリング
ゼロショット学習
ファイブショット学習

使用事例

テキスト生成
コンテンツ継続
与えられたテキストフラグメントから一貫性のある続きを生成
質問応答システム
コンテキストに基づいて回答を生成
教育研究
言語モデル研究
LLMのスケーリング法則やトレーニング方法の研究に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase