🚀 Moxin 7B大語言模型
Moxin 7B大語言模型是一款強大的語言模型,提供了基礎模型、聊天模型等多種類型,可用於文本生成等任務,在多個常見數據集上展現出了良好的性能。
🚀 快速開始
你可以從以下鏈接下載我們的7B基礎模型鏈接 和7B聊天模型鏈接。
✨ 主要特性
- 提供多種模型類型,包括基礎模型、聊天模型、指令模型、推理模型和視覺語言模型(VLM)。
- 可使用
transformers
庫進行推理,代碼簡潔易用。
- 在多個常見數據集上進行了評估,展現出了良好的性能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考transformers
庫的官方安裝指南進行安裝。
💻 使用示例
基礎用法
你可以使用以下代碼對模型進行推理。模型保存在./model/
目錄下。可相應更改模型目錄或使用Huggingface鏈接。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
torch.backends.cuda.enable_mem_efficient_sdp(False)
torch.backends.cuda.enable_flash_sdp(False)
model_name = 'moxin-org/Moxin-7B-LLM'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
trust_remote_code=True,
)
pipe = pipeline(
"text-generation",
model=model,
tokenizer = tokenizer,
torch_dtype=torch.bfloat16,
device_map="auto"
)
prompt = "Can you explain the concept of regularization in machine learning?"
sequences = pipe(
prompt,
do_sample=True,
max_new_tokens=1000,
temperature=0.7,
top_k=50,
top_p=0.95,
num_return_sequences=1,
)
print(sequences[0]['generated_text'])
📚 詳細文檔
評估
我們使用 lm-evaluation-harness 對模型的性能進行了測試。以下是在常見數據集上的評估結果。我們在AI2推理挑戰(25-shot)、HellaSwag(10-shot)、MMLU(5-shot)和Winogrande(5-shot)上進行了測試。我們發佈了Moxin-7B微調後的模型作為基礎模型。我們進一步在Tulu v2上對基礎模型進行微調,得到了聊天模型。
模型 |
ARC-C |
Hellaswag |
MMLU |
WinoGrade |
平均 |
Mistral-7B |
57.59 |
83.25 |
62.42 |
78.77 |
70.51 |
LLaMA 3.1-8B |
54.61 |
81.95 |
65.16 |
77.35 |
69.77 |
LLaMA 3-8B |
55.46 |
82.09 |
65.29 |
77.82 |
70.17 |
LLaMA 2-7B |
49.74 |
78.94 |
45.89 |
74.27 |
62.21 |
Qwen 2-7B |
57.68 |
80.76 |
70.42 |
77.43 |
71.57 |
gemma-7b |
56.48 |
82.31 |
63.02 |
78.3 |
70.03 |
internlm2.5-7b |
54.78 |
79.7 |
68.17 |
80.9 |
70.89 |
Baichuan2-7B |
47.87 |
73.89 |
54.13 |
70.8 |
61.67 |
Yi-1.5-9B |
58.36 |
80.36 |
69.54 |
77.53 |
71.48 |
Moxin-7B-original |
53.75 |
75.46 |
59.43 |
70.32 |
64.74 |
Moxin-7B-finetuned |
59.47 |
83.08 |
60.97 |
78.69 |
70.55 |
我們還測試了模型在AI2推理挑戰(0-shot)、AI2推理簡易版(0-shot)、HellaSwag(0-shot)、PIQA(0-shot)和Winogrande(0-shot)上的零樣本性能。結果如下。
模型 |
HellaSwag |
WinoGrade |
PIQA |
ARC-E |
ARC-C |
平均 |
Mistral-7B |
80.39 |
73.4 |
82.15 |
78.28 |
52.22 |
73.29 |
LLaMA 2-7B |
75.99 |
69.06 |
79.11 |
74.54 |
46.42 |
69.02 |
LLaMA 2-13B |
79.37 |
72.22 |
80.52 |
77.4 |
49.06 |
71.71 |
LLaMA 3.1-8B |
78.92 |
74.19 |
81.12 |
81.06 |
53.67 |
73.79 |
gemma-7b |
80.45 |
73.72 |
80.9 |
79.97 |
54.1 |
73.83 |
Qwen v2-7B |
78.9 |
72.38 |
79.98 |
74.71 |
50.09 |
71.21 |
internlm2.5-7b |
79.14 |
77.9 |
80.52 |
76.16 |
51.37 |
73.02 |
Baichuan2-7B |
72.25 |
67.17 |
77.26 |
72.98 |
42.15 |
66.36 |
Yi-1.5-9B |
77.86 |
73.01 |
80.74 |
79.04 |
55.03 |
73.14 |
deepseek-7b |
76.13 |
69.77 |
79.76 |
71.04 |
44.8 |
68.3 |
Moxin-7B-original |
72.06 |
66.31 |
78.07 |
71.47 |
48.15 |
67.21 |
Moxin-7B-finetune |
80.03 |
75.17 |
82.24 |
81.12 |
58.64 |
75.44 |
引用
@article{zhao2024fully,
title={Fully Open Source Moxin-7B Technical Report},
author={Zhao, Pu and Shen, Xuan and Kong, Zhenglun and Shen, Yixin and Chang, Sung-En and Rupprecht, Timothy and Lu, Lei and Nan, Enfu and Yang, Changdi and He, Yumei and others},
journal={arXiv preprint arXiv:2412.06845},
year={2024}
}
📄 許可證
本項目採用Apache-2.0許可證。