llmc-gpt2-774M-150Bオープンソース言語モデル - GPT-2アーキテクチャに基づき、多様なテキスト処理をサポート

ホーム

Llmc Gpt2 774M 150B

mdouglasによって開発

これはGPT-2アーキテクチャに基づく774Mパラメータの言語モデルで、FineWebデータセットの1500億トークンでトレーニングされています。

大規模言語モデル

Transformers

英語オープンソースライセンス:MIT #英文テキスト生成 #効率的なトレーニング #大規模パラメータ

ダウンロード数 18

リリース時間 : 6/12/2024

モデル概要

このモデルはGPT-2アーキテクチャの実装で、英語のテキスト生成と理解タスクに特化しています。

モデル特徴

効率的なトレーニング

8台のA100 80GB SXM GPUで約6日間でトレーニングを完了

大規模データトレーニング

FineWebデータセットの1500億トークンを使用してトレーニング

軽量実装

llm.cに基づく効率的な実装

モデル能力

英語テキスト生成

言語理解

文脈学習

使用事例

テキスト生成

コンテンツ作成

記事、ストーリー、その他のクリエイティブなテキストを生成

対話システム

チャットボットや仮想アシスタントを構築

教育

言語学習

英語学習の補助ツールとして

Property	Details
Model Type	HF/safetensors conversion of llm.c checkpoint
Training Data	HuggingFaceFW/fineweb

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Llmc Gpt2 774M 150B

モデル概要

モデル特徴

モデル能力

使用事例

🚀 llm.cチェックポイント: GPT - 2 774M

🚀 クイックスタート

📄 ライセンス