🚀 📖书生·浦语(InternLM-20B)
书生·浦语(InternLM-20B)是由上海人工智能实验室联合商汤科技、香港中文大学和复旦大学推出的大语言模型。它在超 2.3T Tokens 的高质量多语言和代码数据上预训练,Chat 版还经 SFT 和 RLHF 训练,能更好满足用户需求。
🚀 快速开始
通过 Transformers 加载
通过以下的代码加载 InternLM 20B 模型
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("internlm/internlm-20b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("internlm/internlm-20b", torch_dtype=torch.bfloat16, trust_remote_code=True).cuda()
model = model.eval()
inputs = tokenizer(["来到美丽的大自然,我们发现"], return_tensors="pt")
for k,v in inputs.items():
inputs[k] = v.cuda()
gen_kwargs = {"max_length": 128, "top_p": 0.8, "temperature": 0.8, "do_sample": True, "repetition_penalty": 1.05}
output = model.generate(**inputs, **gen_kwargs)
output = tokenizer.decode(output[0].tolist(), skip_special_tokens=True)
print(output)
✨ 主要特性
- 优异的综合性能:在理解、推理、数学、编程等考验语言模型技术水平的方面都得到了显著提升。
- 很强的工具调用功能:具备强大的工具调用能力,能更好地辅助用户完成各种任务。
- 支持 16k 语境长度(通过推理时外推):能够处理更长的文本输入,更好地理解上下文信息。
- 更好的价值对齐:生成的文本更符合伦理和法律要求,减少有害内容的输出。
📊 性能评估
5 大能力维度评估
在 OpenCompass 提出的 5 个能力维度上,InternLM-20B 都取得很好的效果(粗体为 13B - 33B 这个量级范围内,各项最佳成绩)
能力维度 |
Llama - 13B |
Llama2 - 13B |
Baichuan2 - 13B |
InternLM - 20B |
Llama - 33B |
Llama - 65B |
Llama2 - 70B |
语言 |
42.5 |
47 |
47.5 |
55 |
44.6 |
47.1 |
51.6 |
知识 |
58.2 |
58.3 |
48.9 |
60.1 |
64 |
66 |
67.7 |
理解 |
45.5 |
50.9 |
58.1 |
67.3 |
50.6 |
54.2 |
60.8 |
推理 |
42.7 |
43.6 |
44.2 |
54.9 |
46.4 |
49.8 |
55 |
学科 |
37.3 |
45.2 |
51.8 |
62.5 |
47.4 |
49.7 |
57.3 |
总平均 |
43.8 |
47.3 |
49.4 |
59.2 |
48.9 |
51.9 |
57.4 |
经典数据集评测
下表展示了在多个经典数据集上 InternLM 20B 与各个主流开源模型的表现
|
评测集 |
Llama - 13B |
Llama2 - 13B |
Baichuan2 - 13B |
InternLM - 20B |
Llama - 33B |
Llama - 65B |
Llama2 - 70B |
学科 |
MMLU |
47.73 |
54.99 |
59.55 |
62.05 |
58.73 |
63.71 |
69.75 |
|
C - Eval (val) |
31.83 |
41.4 |
59.01 |
58.8 |
37.47 |
40.36 |
50.13 |
|
AGI - Eval |
22.03 |
30.93 |
37.37 |
44.58 |
33.53 |
33.92 |
40.02 |
知识 |
BoolQ |
78.75 |
82.42 |
67 |
87.46 |
84.43 |
86.61 |
87.74 |
|
TriviaQA |
52.47 |
59.36 |
46.61 |
57.26 |
66.24 |
69.79 |
70.71 |
|
NaturalQuestions |
20.17 |
24.85 |
16.32 |
25.15 |
30.89 |
33.41 |
34.16 |
理解 |
CMRC |
9.26 |
31.59 |
29.85 |
68.78 |
14.17 |
34.73 |
43.74 |
|
CSL |
55 |
58.75 |
63.12 |
65.62 |
57.5 |
59.38 |
60 |
|
RACE (middle) |
53.41 |
63.02 |
68.94 |
86.35 |
64.55 |
72.35 |
81.55 |
|
RACE (high) |
47.63 |
58.86 |
67.18 |
83.28 |
62.61 |
68.01 |
79.93 |
|
XSum |
20.37 |
23.37 |
25.23 |
35.54 |
20.55 |
19.91 |
25.38 |
推理 |
WinoGrande |
64.64 |
64.01 |
67.32 |
69.38 |
66.85 |
69.38 |
69.77 |
|
BBH |
37.93 |
45.62 |
48.98 |
52.51 |
49.98 |
58.38 |
64.91 |
|
GSM8K |
20.32 |
29.57 |
52.62 |
52.62 |
42.3 |
54.44 |
63.31 |
|
PIQA |
79.71 |
79.76 |
78.07 |
80.25 |
81.34 |
82.15 |
82.54 |
编程 |
HumanEval |
14.02 |
18.9 |
17.07 |
25.61 |
17.68 |
18.9 |
26.22 |
|
MBPP |
20.6 |
26.8 |
30.8 |
35.6 |
28.4 |
33.6 |
39.6 |
总体而言,InternLM - 20B 在综合能力上全面领先于 13B 量级的开源模型,同时在推理评测集上能够接近甚至超越 Llama - 65B 的性能。
📄 许可证
本仓库的代码依照 Apache - 2.0 协议开源。模型权重对学术研究完全开放,也可申请免费的商业使用授权(申请表)。其他问题与合作请联系 internlm@pjlab.org.cn。
⚠️ 重要提示
尽管在训练过程中我们非常注重模型的安全性,尽力促使模型输出符合伦理和法律要求的文本,但受限于模型大小以及概率生成范式,模型可能会产生各种不符合预期的输出,例如回复内容包含偏见、歧视等有害内容,请勿传播这些内容。由于传播不良信息导致的任何后果,本项目不承担责任。