🚀 因果語言模型 7B - 與 Meta LLaMA 2 完全兼容
因果語言模型 7B 可使用無需遠程/外部代碼的 transformers 庫加載,且模型量化與 GGUF、GPTQ、AWQ 完全兼容。該模型在多個評估指標上表現出色,優於眾多同量級模型。
🚀 快速開始
使用無需遠程/外部代碼的 transformers
庫加載模型,可通過 AutoModelForCausalLM
和 AutoTokenizer
(或者手動指定 LlamaForCausalLM
加載語言模型,GPT2Tokenizer
加載分詞器)來完成,並且模型量化與 GGUF(llama.cpp
)、GPTQ、AWQ 完全兼容。
✨ 主要特性
- 模型兼容性:與 Meta LLaMA 2 完全兼容,使用與 LLaMA2 相同的模型結構和注意力計算方法,對旋轉位置編碼(RoPE)沒有進行額外的縮放。
- 多語言支持:支持英語和中文等多種語言。
- 量化兼容性:模型量化與 GGUF(
llama.cpp
)、GPTQ、AWQ 完全兼容。
- 數據處理:手動篩選 13 億標記的 SFT 數據集,使用合成數據訓練,平衡效率與質量。
- 多模態潛力:在 LLaVA1.5 提示格式微調,可快速實現多模態能力。
📚 詳細文檔
最近更新
DPO-α 版本 在 MT-Bench 中表現超過 Zephyr-β。
llama.cpp GGUF 模型
GPT2Tokenizer
支持由 Kerfuffle 修復於 https://github.com/ggerganov/llama.cpp/pull/3743,新模型稍後上傳。
感謝 TheBloke 製作 GGUF 版本量化模型: https://huggingface.co/TheBloke/CausalLM-7B-GGUF
注意事項
⚠️ 重要提示
非官方 GPTQ 和 AWQ 模型可能存在問題,因為它們使用 Wikitext 進行校準,而該模型已經在合成的 Wikipedia 對話數據集上經過了大量的訓練。不建議使用任何形式的量化,而是使用較小尺寸的模型,因為 7B 和 14B 版本具有較高的一致性。 但是,如果您確實使用模型量化,請使用 GGUF。
訓練詳情
該模型基於 Qwen 的權重(並使用了 LLaMA2 權重用於計算一些權重初始化),您根據情況可能還需要遵守這兩個模型的商業使用限制。
我們手動篩選了一個包含 13 億個標記的 SFT 數據集進行訓練,利用了 Hugging Face 的開源數據集。對於大多數句子,我們進行了手動或合成改寫,並使用更大的語言模型生成了其他語言版本。此外,我們還使用了精心挑選的來自維基百科的條目、來自 Fandom 的精選條目以及來自萌娘百科的過濾條目進行增強文本訓練。為了在效率和質量之間取得平衡,訓練所使用的 100% 數據都是合成數據,沒有直接使用來自互聯網或公開可用數據集的原始文本進行微調。
模型使用注意
7B 版本的模型是 14B 模型的精簡版本,專門設計用於推測抽樣。因此,在直接使用模型時,需要謹慎行事,因為它可能會產生幻覺或不可靠的輸出。
⚠️ 重要提示
請注意,模型是在未經過濾的互聯網數據上進行訓練的。由於我們無法審核所有數據,可能會出現大量不良內容、色情、暴力和冒犯性語言,我們無法刪除這些內容。因此,您仍然需要對模型的安全性進行自己的檢查,並對輸出中的關鍵詞進行過濾。由於計算資源的限制,我們目前無法為模型的倫理和安全實施 RLHF,也無法對拒絕回答某些問題的 SFT 樣本進行訓練以進行限制性微調。
多模態能力
模型在 LLaVA1.5 中引入的提示格式上進行了一些微調,與圖像注意力計算無關。因此,將 ViT 投影模塊與凍結的 LM 對齊,並根據視覺指令實施可快速實現有效的多模態能力。
提示格式
chatml
⚠️ 重要提示
系統提示不能為空!
評估指標
MMLU
類別 |
準確率 |
STEM |
56.83 |
人文學科 |
58.79 |
其他 |
70.04 |
社會學 |
72.41 |
平均 |
63.82 |
該平均準確率優於/平於最好的 Mistral - 7B 聊天格式的微調,ChatGLM3 - 6B 和其餘的 33B 及以下模型。
CEval(驗證集)
類別 |
準確率 |
STEM |
61.67 |
社會科學 |
81.94 |
人文學科 |
77.19 |
其他 |
68.35 |
困難 |
48.03 |
平均 |
70.27 |
該平均準確率優於當前所有 7B 模型,包括 ChatGLM3 - 6B。
GSM8K
零樣本準確率 0.5921152388172858 ,優於 WizardMath - 7B 和 Qwen - 7B。
DPO 版本的 MT - Behch
模型 |
MT - Bench |
GPT - 4 |
8.99 |
GPT - 3.5 - Turbo |
7.94 |
Zephyr - 7b - β (過擬合) |
7.34 |
Zephyr - 7b - α |
6.88 |
[CausalLM/14B - DPO - α](https://huggingface.co/CausalLM/14B - DPO - alpha) |
7.618868 |
[CausalLM/7B - DPO - α](https://huggingface.co/CausalLM/7B - DPO - alpha) |
7.038125 |
📄 許可證
本項目採用 WTFPL 許可證。
🔍 數據集
本模型訓練使用了以下開源數據集:
- JosephusCheung/GuanacoDataset
- Open - Orca/OpenOrca
- stingning/ultrachat
- meta - math/MetaMathQA
- liuhaotian/LLaVA - Instruct - 150K
- jondurbin/airoboros - 3.1
- WizardLM/WizardLM_evol_instruct_V2_196k
- RyokoAI/ShareGPT52K
- RyokoAI/Fandom23K
- milashkaarshif/MoeGirlPedia_wikitext_raw_archive
- wikipedia
- wiki_lingua
- fnlp/moss - 003 - sft - data
- garage - bAInd/Open - Platypus
- LDJnr/Puffin
- openbmb/llava_zh
- BAAI/COIG
- TigerResearch/tigerbot - zhihu - zh - 10k
- liwu/MNBVC
- teknium/openhermes