Fox-1-1.6B開源小型語言模型 - 藉助海量數據免費實現文本代碼處理

首頁

Fox 1 1.6B

由tensoropera開發

Fox-1-1.6B是由TensorOpera AI開發的16億參數小型語言模型，採用分組查詢注意力機制，訓練數據達3萬億文本和代碼。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #8K長序列處理 #分組查詢注意力 #代碼文本預訓練

下載量 1,741

發布時間 : 6/13/2024

模型概述

Fox-1-1.6B是一個基於解碼器的小型語言模型，適用於文本生成和代碼理解任務。它經過3階段數據課程訓練，支持8K序列長度。

模型特點

高效注意力機制

採用分組查詢注意力(GQA)，4個鍵值頭和16個注意力頭，提升推理速度

大規模訓練數據

使用3萬億文本和代碼數據進行3階段課程訓練

長序列支持

支持8K長度的序列處理

模型能力

文本生成

代碼理解

少樣本學習

使用案例

自然語言處理

文本生成

生成連貫的文本內容

問答系統

構建知識問答應用

編程輔助

代碼補全

輔助程序員完成代碼編寫

🚀 Fox-1-1.6B 模型

Fox-1-1.6B 是由 TensorOpera AI 開發的基於解碼器的小型語言模型（SLM），總參數為 16 億。該模型使用 3 階段數據課程在 3 萬億文本和代碼數據上進行訓練，序列長度達 8K。它採用了分組查詢注意力機制（GQA），有 4 個鍵值頭和 16 個注意力頭，以實現更快的推理。

🚀 快速開始

⚠️ 重要提示

此模型是一個基礎預訓練模型，對於大多數用例，需要進一步微調。為了獲得更具交互性的體驗，我們推薦使用 tensoropera/Fox-1-1.6B-Instruct-v0.1，這是 Fox-1 的指令調優版本。

如需瞭解該模型的完整細節，請閱讀 Fox-1 技術報告和發佈博客文章。

✨ 主要特性

參數規模：總參數 16 億，屬於小型語言模型。
訓練數據：使用 3 階段數據課程在 3 萬億文本和代碼數據上進行訓練，序列長度為 8K。
注意力機制：採用分組查詢注意力（GQA），4 個鍵值頭和 16 個注意力頭，加快推理速度。

📚 詳細文檔

基準測試

我們在 ARC Challenge（25 次少樣本）、HellaSwag（10 次少樣本）、TruthfulQA（0 次少樣本）、MMLU（5 次少樣本）、Winogrande（5 次少樣本）和 GSM8k（5 次少樣本）上對 Fox-1 進行了評估。我們遵循 Open LLM Leaderboard 的評估設置，並報告了這 6 個基準測試的平均得分。該模型在配備 8 個 H100 GPU 的機器上進行評估。

	Fox-1-1.6B	Qwen-1.5-1.8B	Gemma-2B	StableLM-2-1.6B	OpenELM-1.1B
GSM8k	36.39%	34.04%	17.06%	17.74%	2.27%
MMLU	43.05%	47.15%	41.71%	39.16%	27.28%
ARC Challenge	41.21%	37.20%	49.23%	44.11%	36.26%
HellaSwag	62.82%	61.55%	71.60%	70.46%	65.23%
TruthfulQA	38.66%	39.37%	33.05%	38.77%	36.98%
Winogrande	60.62%	65.51%	65.51%	65.27%	61.64%
Average	47.13%	46.81%	46.36%	45.92%	38.28%

Open LLM Leaderboard 評估結果

詳細結果可查看此處

指標	值
平均值	7.69
IFEval (0 次少樣本)	27.66
BBH (3 次少樣本)	7.40
MATH Lvl 5 (4 次少樣本)	1.28
GPQA (0 次少樣本)	1.79
MuSR (0 次少樣本)	3.87
MMLU-PRO (5 次少樣本)	4.13