K2

由LLM360開發

K2是一個650億參數規模的大語言模型，通過完全透明化的訓練方案，以35%計算量優勢超越Llama 2 70B。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #完全透明開源 #650億參數大模型 #1.4萬億訓練token

下載量 109

發布時間 : 4/17/2024

模型概述

K2是由MBZUAI、Petuum和LLM360聯合開發的大語言模型，採用兩階段訓練流程，支持英語文本生成任務。

模型特點

完全透明化

開源所有訓練資源，包括代碼、數據、模型檢查點和中間結果

高效訓練

以35%計算量優勢超越Llama 2 70B

兩階段訓練

採用優化的兩階段訓練流程

全面評估

提供涵蓋通用領域和垂直領域的系統評估方案

模型能力

英語文本生成

醫學知識問答

數學問題求解

編程代碼生成

使用案例

知識問答

通用知識問答

回答各類常識性問題

在IFEval評估中獲得22.52標準分

專業領域

醫學知識應用

處理醫學相關問題和文獻

在醫學評估中獲得8.55標準分

法律文本處理

分析和生成法律相關文本

使用pile-of-law數據集訓練

技術應用

編程輔助

生成和補全代碼

使用starcoder數據集訓練

數學問題求解

解決複雜數學問題

在Math Lvl 5評估中獲得2.04標準分

🚀 K2：一個完全可復現的大語言模型，比Llama 2 70B少用35%的計算資源卻表現更優

LLM360藉助K2揭開了Llama 2 70B訓練秘訣的神秘面紗。K2完全透明，這意味著我們已經開源了所有相關產物，包括代碼、數據、模型檢查點、中間結果等等。

✨ 主要特性

關於K2

650億參數的大語言模型
標記數：1.4T
支持語言：英語
發佈的模型：基礎模型、對話模型
分兩個階段訓練
許可證：Apache 2.0

K2是由MBZUAI、Petuum和LLM360合作開發的。

LLM360模型性能與評估集

LLM360性能與評估集是一個強大的評估集合，由通用評估和特定領域評估組成，用於評估模型的知識和功能。評估內容包括標準的最佳實踐基準測試、醫學、數學和編碼知識等。更多關於評估的信息可以在這裡找到。

詳細分析可以在K2的Weights and Biases項目這裡查看。

開放大語言模型排行榜

評估項目	得分	原始得分
IFEval	22.52	23
BBH	28.22	50
Math Lvl 5	2.04	2
GPQA	3.58	28
MUSR	8.55	40
MMLU - PRO	22.27	30
平均分	14.53	35.17

K2展示庫

K2展示庫允許用戶瀏覽K2中間檢查點對各種提示的輸出，這有助於直觀地瞭解模型隨時間的發展和改進情況。這一靈感來源於The Bloom Book。

點擊此處查看K2展示庫

數據集與數據混合

以下數據混合用於訓練K2，並使其達到與Llama 2 70B相當的效果。完整的數據序列可以在這裡找到。

數據集	起始標記數	乘數	總標記數	佔比
dm - math	4.33B	3x	13B	1%
pubmed - abstracts	4.77B	3x	14.3B	1.1%
uspto	4.77B	3x	14.3B	1.1%
pubmed - central	26B	1x	26B	2%
[redpajama.arxiv](https://huggingface.co/datasets/cerebras/SlimPajama - 627B)	27.3B	1x	27.3B	2.1%
starcoder.spm	67.6B	0.5x	33.8B	2.6%
starcoder.fim	67.6B	0.5x	33.8B	2.6%
[redpajama.stackexchange](https://huggingface.co/datasets/cerebras/SlimPajama - 627B)	61.1B	1x	61.1B	4.7%
starcoder	132.6B	0.5x	66.3B	5.1%
[pile - of - law](https://huggingface.co/datasets/pile - of - law/pile - of - law)	76.7B	1x	76.7B	5.9%
[redpajama.book](https://huggingface.co/datasets/cerebras/SlimPajama - 627B)	80.6B	1x	80.6B	6.2%
s2orc	107.9B	1x	107.9B	8.3%
[redpajama.wikipedia](https://huggingface.co/datasets/cerebras/SlimPajama - 627B)	22.1B	6x	132.6B	10.2%
[refinedweb](https://huggingface.co/datasets/tiiuae/falcon - refinedweb)	612.3B	1x	612.3B	47.1%
總計	-	-	1.3T	100%

LLM360研究套件

第二階段 - 最後10個檢查點

檢查點
檢查點380	檢查點375
檢查點379	檢查點374
檢查點378	檢查點373
檢查點377	檢查點372
檢查點376	檢查點371

第一階段 - 最後10個檢查點

檢查點
檢查點360	檢查點355
檢查點359	檢查點354
檢查點358	檢查點353
檢查點357	檢查點352
檢查點356	檢查點351

[查看所有分支：git branch -a]

LLM360預訓練套件

我們為技術愛好者、AI從業者以及學術或行業研究人員提供了詳細的預訓練技術復現教程，可在這裡查看。

LLM360開發者套件

我們為技術愛好者、AI從業者以及學術或行業研究人員提供了詳細的微調教程，可在這裡查看。

📦 安裝指南

此部分文檔未提供安裝步驟相關內容，故跳過。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("LLM360/K2")
model = AutoModelForCausalLM.from_pretrained("LLM360/K2")

prompt = 'what is the highest mountain on earth?'

input_ids = tokenizer(prompt, return_tensors="pt").input_ids
gen_tokens = model.generate(input_ids, do_sample=True, max_new_tokens=128)

print("-"*20 + "Output for model"  + 20 * '-')
print(tokenizer.batch_decode(gen_tokens)[0])

高級用法

此部分文檔未提供高級用法相關代碼示例，故跳過。

📚 詳細文檔

此部分文檔未提供詳細說明相關內容，故跳過。

🔧 技術細節

此部分文檔未提供技術實現細節相關內容，故跳過。

📄 許可證

K2採用Apache 2.0許可證。

關於LLM360

LLM360是一個開放研究實驗室，通過開源大模型的研發，推動社區擁有通用人工智能（AGI）。

LLM360通過創建標準和工具，提升大語言模型能力的前沿水平，促進知識傳播、研究和開發，從而實現社區擁有AGI的目標。

我們相信，未來的通用人工智能（AGI）將由社區為社區所創造。通過公平的計算資源、高質量的數據和流動的技術知識組成的開放生態系統，我們可以確保AGI的道德發展，並讓所有創新者都能普遍受益。

訪問我們

引用

BibTeX:

@article{K2,
      title={LLM360 K2-65B: Scaling Up Fully Transparent Open-Source LLMs}, 
      author={
      Zhengzhong Liu and Bowen Tan
      and Hongyi Wang and Willie Neiswanger and Tianhua Tao
      and Haonan Li and Fajri Koto and Yuqi Wang and Suqi Sun
      and Omkar Pangarkar and Richard Fan and Yi Gu and Victor Miller
      and Liqun Ma and Liping Tang and Nikhil Ranjan and Yonghao Zhuang
      and Guowei He and Renxi Wang and Mingkai Deng and Robin Algayres 
      and Yuanzhi Li and Zhiqiang Shen and Preslav Nakov
      and Eric Xing      
      },
      year={2024},
}