G

Gpt2 774M Fineweb 150B

由rhysjones開發
該模型源自karpathy的llm.c項目,為研究bfloat16性能而轉換為HuggingFace格式,訓練過程消耗了1500億token。
下載量 22
發布時間 : 4/25/2025

模型概述

該模型是一個基於llm.c項目的語言模型,主要用於研究bfloat16性能優化,並在1000億FineWeb樣本數據集上進行了訓練。

模型特點

bfloat16性能研究
該模型專門用於研究bfloat16數據類型的性能優化。
大規模訓練
在1000億FineWeb樣本數據集上進行了1.5個epoch的訓練,消耗了1500億token。
活躍開發
當前仍在積極開發中,關注llm.c項目獲取最新進展。

模型能力

語言模型訓練
性能優化研究

使用案例

研究
bfloat16性能研究
研究bfloat16數據類型在語言模型訓練中的性能表現。
大規模語言模型訓練
探索在大規模數據集上的語言模型訓練方法。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase