🚀 📖書生·浦語(InternLM-20B)
書生·浦語(InternLM-20B)是由上海人工智能實驗室聯合商湯科技、香港中文大學和復旦大學推出的大語言模型。它在超 2.3T Tokens 的高質量多語言和代碼數據上預訓練,Chat 版還經 SFT 和 RLHF 訓練,能更好滿足用戶需求。
🚀 快速開始
通過 Transformers 加載
通過以下的代碼加載 InternLM 20B 模型
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("internlm/internlm-20b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("internlm/internlm-20b", torch_dtype=torch.bfloat16, trust_remote_code=True).cuda()
model = model.eval()
inputs = tokenizer(["來到美麗的大自然,我們發現"], return_tensors="pt")
for k,v in inputs.items():
inputs[k] = v.cuda()
gen_kwargs = {"max_length": 128, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.05}
output = model.generate(**inputs, **gen_kwargs)
output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True)
print(output)
✨ 主要特性
- 優異的綜合性能:在理解、推理、數學、編程等考驗語言模型技術水平的方面都得到了顯著提升。
- 很強的工具調用功能:具備強大的工具調用能力,能更好地輔助用戶完成各種任務。
- 支持 16k 語境長度(通過推理時外推):能夠處理更長的文本輸入,更好地理解上下文信息。
- 更好的價值對齊:生成的文本更符合倫理和法律要求,減少有害內容的輸出。
📊 性能評估
5 大能力維度評估
在 OpenCompass 提出的 5 個能力維度上,InternLM-20B 都取得很好的效果(粗體為 13B - 33B 這個量級範圍內,各項最佳成績)
能力維度 |
Llama - 13B |
Llama2 - 13B |
Baichuan2 - 13B |
InternLM - 20B |
Llama - 33B |
Llama - 65B |
Llama2 - 70B |
語言 |
42.5 |
47 |
47.5 |
55 |
44.6 |
47.1 |
51.6 |
知識 |
58.2 |
58.3 |
48.9 |
60.1 |
64 |
66 |
67.7 |
理解 |
45.5 |
50.9 |
58.1 |
67.3 |
50.6 |
54.2 |
60.8 |
推理 |
42.7 |
43.6 |
44.2 |
54.9 |
46.4 |
49.8 |
55 |
學科 |
37.3 |
45.2 |
51.8 |
62.5 |
47.4 |
49.7 |
57.3 |
總平均 |
43.8 |
47.3 |
49.4 |
59.2 |
48.9 |
51.9 |
57.4 |
經典數據集評測
下表展示了在多個經典數據集上 InternLM 20B 與各個主流開源模型的表現
|
評測集 |
Llama - 13B |
Llama2 - 13B |
Baichuan2 - 13B |
InternLM - 20B |
Llama - 33B |
Llama - 65B |
Llama2 - 70B |
學科 |
MMLU |
47.73 |
54.99 |
59.55 |
62.05 |
58.73 |
63.71 |
69.75 |
|
C - Eval (val) |
31.83 |
41.4 |
59.01 |
58.8 |
37.47 |
40.36 |
50.13 |
|
AGI - Eval |
22.03 |
30.93 |
37.37 |
44.58 |
33.53 |
33.92 |
40.02 |
知識 |
BoolQ |
78.75 |
82.42 |
67 |
87.46 |
84.43 |
86.61 |
87.74 |
|
TriviaQA |
52.47 |
59.36 |
46.61 |
57.26 |
66.24 |
69.79 |
70.71 |
|
NaturalQuestions |
20.17 |
24.85 |
16.32 |
25.15 |
30.89 |
33.41 |
34.16 |
理解 |
CMRC |
9.26 |
31.59 |
29.85 |
68.78 |
14.17 |
34.73 |
43.74 |
|
CSL |
55 |
58.75 |
63.12 |
65.62 |
57.5 |
59.38 |
60 |
|
RACE (middle) |
53.41 |
63.02 |
68.94 |
86.35 |
64.55 |
72.35 |
81.55 |
|
RACE (high) |
47.63 |
58.86 |
67.18 |
83.28 |
62.61 |
68.01 |
79.93 |
|
XSum |
20.37 |
23.37 |
25.23 |
35.54 |
20.55 |
19.91 |
25.38 |
推理 |
WinoGrande |
64.64 |
64.01 |
67.32 |
69.38 |
66.85 |
69.38 |
69.77 |
|
BBH |
37.93 |
45.62 |
48.98 |
52.51 |
49.98 |
58.38 |
64.91 |
|
GSM8K |
20.32 |
29.57 |
52.62 |
52.62 |
42.3 |
54.44 |
63.31 |
|
PIQA |
79.71 |
79.76 |
78.07 |
80.25 |
81.34 |
82.15 |
82.54 |
編程 |
HumanEval |
14.02 |
18.9 |
17.07 |
25.61 |
17.68 |
18.9 |
26.22 |
|
MBPP |
20.6 |
26.8 |
30.8 |
35.6 |
28.4 |
33.6 |
39.6 |
總體而言,InternLM - 20B 在綜合能力上全面領先於 13B 量級的開源模型,同時在推理評測集上能夠接近甚至超越 Llama - 65B 的性能。
📄 許可證
本倉庫的代碼依照 Apache - 2.0 協議開源。模型權重對學術研究完全開放,也可申請免費的商業使用授權(申請表)。其他問題與合作請聯繫 internlm@pjlab.org.cn。
⚠️ 重要提示
儘管在訓練過程中我們非常注重模型的安全性,盡力促使模型輸出符合倫理和法律要求的文本,但受限於模型大小以及概率生成範式,模型可能會產生各種不符合預期的輸出,例如回覆內容包含偏見、歧視等有害內容,請勿傳播這些內容。由於傳播不良信息導致的任何後果,本項目不承擔責任。