🚀 K2:一個完全可復現的大語言模型,比Llama 2 70B少用35%的計算資源卻表現更優
LLM360藉助K2揭開了Llama 2 70B訓練秘訣的神秘面紗。K2完全透明,這意味著我們已經開源了所有相關產物,包括代碼、數據、模型檢查點、中間結果等等。
✨ 主要特性
關於K2
- 650億參數的大語言模型
- 標記數:1.4T
- 支持語言:英語
- 發佈的模型:基礎模型、對話模型
- 分兩個階段訓練
- 許可證:Apache 2.0
K2是由MBZUAI、Petuum和LLM360合作開發的。
LLM360模型性能與評估集
LLM360性能與評估集是一個強大的評估集合,由通用評估和特定領域評估組成,用於評估模型的知識和功能。評估內容包括標準的最佳實踐基準測試、醫學、數學和編碼知識等。更多關於評估的信息可以在這裡找到。
詳細分析可以在K2的Weights and Biases項目這裡查看。
開放大語言模型排行榜
評估項目 |
得分 |
原始得分 |
IFEval |
22.52 |
23 |
BBH |
28.22 |
50 |
Math Lvl 5 |
2.04 |
2 |
GPQA |
3.58 |
28 |
MUSR |
8.55 |
40 |
MMLU - PRO |
22.27 |
30 |
平均分 |
14.53 |
35.17 |
K2展示庫
K2展示庫允許用戶瀏覽K2中間檢查點對各種提示的輸出,這有助於直觀地瞭解模型隨時間的發展和改進情況。這一靈感來源於The Bloom Book。
點擊此處查看K2展示庫
數據集與數據混合
以下數據混合用於訓練K2,並使其達到與Llama 2 70B相當的效果。完整的數據序列可以在這裡找到。
數據集 |
起始標記數 |
乘數 |
總標記數 |
佔比 |
dm - math |
4.33B |
3x |
13B |
1% |
pubmed - abstracts |
4.77B |
3x |
14.3B |
1.1% |
uspto |
4.77B |
3x |
14.3B |
1.1% |
pubmed - central |
26B |
1x |
26B |
2% |
[redpajama.arxiv](https://huggingface.co/datasets/cerebras/SlimPajama - 627B) |
27.3B |
1x |
27.3B |
2.1% |
starcoder.spm |
67.6B |
0.5x |
33.8B |
2.6% |
starcoder.fim |
67.6B |
0.5x |
33.8B |
2.6% |
[redpajama.stackexchange](https://huggingface.co/datasets/cerebras/SlimPajama - 627B) |
61.1B |
1x |
61.1B |
4.7% |
starcoder |
132.6B |
0.5x |
66.3B |
5.1% |
[pile - of - law](https://huggingface.co/datasets/pile - of - law/pile - of - law) |
76.7B |
1x |
76.7B |
5.9% |
[redpajama.book](https://huggingface.co/datasets/cerebras/SlimPajama - 627B) |
80.6B |
1x |
80.6B |
6.2% |
s2orc |
107.9B |
1x |
107.9B |
8.3% |
[redpajama.wikipedia](https://huggingface.co/datasets/cerebras/SlimPajama - 627B) |
22.1B |
6x |
132.6B |
10.2% |
[refinedweb](https://huggingface.co/datasets/tiiuae/falcon - refinedweb) |
612.3B |
1x |
612.3B |
47.1% |
總計 |
- |
- |
1.3T |
100% |
LLM360研究套件
第二階段 - 最後10個檢查點
第一階段 - 最後10個檢查點
[查看所有分支:git branch -a]
LLM360預訓練套件
我們為技術愛好者、AI從業者以及學術或行業研究人員提供了詳細的預訓練技術復現教程,可在這裡查看。
LLM360開發者套件
我們為技術愛好者、AI從業者以及學術或行業研究人員提供了詳細的微調教程,可在這裡查看。
📦 安裝指南
此部分文檔未提供安裝步驟相關內容,故跳過。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("LLM360/K2")
model = AutoModelForCausalLM.from_pretrained("LLM360/K2")
prompt = 'what is the highest mountain on earth?'
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
gen_tokens = model.generate(input_ids, do_sample=True, max_new_tokens=128)
print("-"*20 + "Output for model" + 20 * '-')
print(tokenizer.batch_decode(gen_tokens)[0])
高級用法
此部分文檔未提供高級用法相關代碼示例,故跳過。
📚 詳細文檔
此部分文檔未提供詳細說明相關內容,故跳過。
🔧 技術細節
此部分文檔未提供技術實現細節相關內容,故跳過。
📄 許可證
K2採用Apache 2.0許可證。
關於LLM360
LLM360是一個開放研究實驗室,通過開源大模型的研發,推動社區擁有通用人工智能(AGI)。
LLM360通過創建標準和工具,提升大語言模型能力的前沿水平,促進知識傳播、研究和開發,從而實現社區擁有AGI的目標。
我們相信,未來的通用人工智能(AGI)將由社區為社區所創造。通過公平的計算資源、高質量的數據和流動的技術知識組成的開放生態系統,我們可以確保AGI的道德發展,並讓所有創新者都能普遍受益。
訪問我們
引用
BibTeX:
@article{K2,
title={LLM360 K2-65B: Scaling Up Fully Transparent Open-Source LLMs},
author={
Zhengzhong Liu and Bowen Tan
and Hongyi Wang and Willie Neiswanger and Tianhua Tao
and Haonan Li and Fajri Koto and Yuqi Wang and Suqi Sun
and Omkar Pangarkar and Richard Fan and Yi Gu and Victor Miller
and Liqun Ma and Liping Tang and Nikhil Ranjan and Yonghao Zhuang
and Guowei He and Renxi Wang and Mingkai Deng and Robin Algayres
and Yuanzhi Li and Zhiqiang Shen and Preslav Nakov
and Eric Xing
},
year={2024},
}