gpt2-774M-fineweb-150B開源模型 - 研究性能佳且經大量數據訓練的實用工具

首頁

Gpt2 774M Fineweb 150B

由rhysjones開發

該模型源自karpathy的llm.c項目，為研究bfloat16性能而轉換為HuggingFace格式，訓練過程消耗了1500億token。

大型語言模型

Transformers

開源協議:MIT #bfloat16優化 #輕量級LLM #高性能推理

下載量 22

發布時間 : 4/25/2025

模型概述

該模型是一個基於llm.c項目的語言模型，主要用於研究bfloat16性能優化，並在1000億FineWeb樣本數據集上進行了訓練。

模型特點

bfloat16性能研究

該模型專門用於研究bfloat16數據類型的性能優化。

大規模訓練

在1000億FineWeb樣本數據集上進行了1.5個epoch的訓練，消耗了1500億token。

活躍開發

當前仍在積極開發中，關注llm.c項目獲取最新進展。

模型能力

語言模型訓練

性能優化研究

使用案例

研究

bfloat16性能研究

研究bfloat16數據類型在語言模型訓練中的性能表現。

大規模語言模型訓練

探索在大規模數據集上的語言模型訓練方法。

屬性	詳情
訓練數據	HuggingFaceFW/fineweb

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Gpt2 774M Fineweb 150B

模型概述

模型特點

模型能力

使用案例

🚀 基於llm.c項目的模型轉換

🚀 快速開始

📦 數據集

📄 許可證

💡 使用建議