模型简介
模型特点
模型能力
使用案例
🚀 Phi-3.5-MoE 模型
Phi-3.5-MoE 是一个轻量级、先进的开源模型,它基于 Phi-3 所使用的数据集构建,包括合成数据和经过筛选的公开文档,尤其侧重于高质量、富含推理的数据。该模型支持多语言,上下文长度可达 128K(以标记为单位)。模型经过了严格的增强过程,包括监督微调、近端策略优化和直接偏好优化,以确保精确遵循指令和强大的安全措施。
Phi-3 门户
Phi-3 微软博客
Phi-3 技术报告
Phi-3 手册
试用
混合专家(MoE)参考: Phi-3.5-MoE 博客 | GRIN MoE
Phi-3.5:[mini-instruct];[MoE-instruct] ;[vision-instruct]
🚀 快速开始
Phi-3.5-MoE 模型可用于多语言的商业和研究用途。以下是使用该模型的一些基本步骤和要求。
✨ 主要特性
- 轻量级与高性能:基于高质量数据集构建,专注于推理密集型数据,在多语言任务中表现出色。
- 多语言支持:支持多种语言,包括阿拉伯语、中文、捷克语等。
- 长上下文处理:支持 128K 上下文长度,适用于长文档摘要、问答等任务。
- 严格优化:经过监督微调、近端策略优化和直接偏好优化,确保精确遵循指令和强大的安全措施。
📦 安装指南
环境要求
Phi-3.5-MoE-instruct 从 transformers
官方版本 4.46.0 开始集成。可以使用以下命令验证当前 transformers
版本:
pip list | grep transformers
所需的包示例:
flash_attn==2.5.8
torch==2.3.1
accelerate==0.31.0
transformers==4.46.0
此外,该模型也可在 Azure AI Studio 中使用。
硬件要求
默认情况下,Phi-3.5-MoE-instruct 模型使用闪存注意力机制,需要特定类型的 GPU 硬件才能运行。已在以下 GPU 类型上进行了测试:
- NVIDIA A100
- NVIDIA A6000
- NVIDIA H100
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model = AutoModelForCausalLM.from_pretrained(
"microsoft/Phi-3.5-MoE-instruct",
device_map="cuda",
torch_dtype="auto",
trust_remote_code=False,
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-MoE-instruct")
messages = [
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Can you provide ways to eat combinations of bananas and dragonfruits?"},
{"role": "assistant", "content": "Sure! Here are some ways to eat bananas and dragonfruits together: 1. Banana and dragonfruit smoothie: Blend bananas and dragonfruits together with some milk and honey. 2. Banana and dragonfruit salad: Mix sliced bananas and dragonfruits together with some lemon juice and honey."},
{"role": "user", "content": "What about solving an 2x + 3 = 7 equation?"},
]
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
)
generation_args = {
"max_new_tokens": 500,
"return_full_text": False,
"temperature": 0.0,
"do_sample": False,
}
output = pipe(messages, **generation_args)
print(output[0]['generated_text'])
输入格式
鉴于训练数据的性质,Phi-3.5-MoE-instruct 模型最适合使用以下聊天格式的提示:
<|system|>
You are a helpful assistant.<|end|>
<|user|>
How to explain Internet for a medieval knight?<|end|>
<|assistant|>
📚 详细文档
预期用途
主要用例
该模型旨在用于多种语言的商业和研究用途。适用于以下通用 AI 系统和应用:
- 内存/计算受限环境
- 低延迟场景
- 强推理任务(特别是代码、数学和逻辑)
该模型旨在加速语言和多模态模型的研究,可作为生成式 AI 功能的构建块。
使用案例考虑
我们的模型并非专门为所有下游用途设计或评估。开发者在选择使用案例时应考虑语言模型的常见局限性,并在特定下游用例中使用之前评估和缓解准确性、安全性和公平性问题,特别是在高风险场景中。开发者应了解并遵守与其用例相关的适用法律或法规(包括隐私、贸易合规法等)。
基准测试
为了了解 Phi-3.5-MoE 的能力,我们使用内部基准测试平台在各种基准测试中与一组模型进行了比较。以下是该模型在代表性基准测试中的质量概述:
类别 | 基准测试 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemma-2-9b-It | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|
流行综合基准 | Arena Hard | 37.9 | 39.4 | 25.7 | 42.0 | 55.2 | 75.0 |
BigBench Hard CoT (0-shot) | 79.1 | 60.2 | 63.4 | 63.5 | 66.7 | 80.4 | |
MMLU (5-shot) | 78.9 | 67.2 | 68.1 | 71.3 | 78.7 | 77.2 | |
MMLU-Pro (0-shot, CoT) | 54.3 | 40.7 | 44.0 | 50.1 | 57.2 | 62.8 | |
推理 | ARC Challenge (10-shot) | 91.0 | 84.8 | 83.1 | 89.8 | 92.8 | 93.5 |
BoolQ (2-shot) | 84.6 | 82.5 | 82.8 | 85.7 | 85.8 | 88.7 | |
GPQA (0-shot, CoT) | 36.8 | 28.6 | 26.3 | 29.2 | 37.5 | 41.1 | |
HellaSwag (5-shot) | 83.8 | 76.7 | 73.5 | 80.9 | 67.5 | 87.1 | |
OpenBookQA (10-shot) | 89.6 | 84.4 | 84.8 | 89.6 | 89.0 | 90.0 | |
PIQA (5-shot) | 88.6 | 83.5 | 81.2 | 83.7 | 87.5 | 88.7 | |
Social IQA (5-shot) | 78.0 | 75.3 | 71.8 | 74.7 | 77.8 | 82.9 | |
TruthfulQA (MC2) (10-shot) | 77.5 | 68.1 | 69.2 | 76.6 | 76.6 | 78.2 | |
WinoGrande (5-shot) | 81.3 | 70.4 | 64.7 | 74.0 | 74.7 | 76.9 | |
多语言 | Multilingual MMLU (5-shot) | 69.9 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
MGSM (0-shot CoT) | 58.7 | 63.3 | 56.7 | 75.1 | 75.8 | 81.7 | |
数学 | GSM8K (8-shot, CoT) | 88.7 | 84.2 | 82.4 | 84.9 | 82.4 | 91.3 |
MATH (0-shot, CoT) | 59.5 | 31.2 | 47.6 | 50.9 | 38.0 | 70.2 | |
长上下文 | Qasper | 40.0 | 30.7 | 37.2 | 13.9 | 43.5 | 39.8 |
SQuALITY | 24.1 | 25.8 | 26.2 | 0.0 | 23.5 | 23.8 | |
代码生成 | HumanEval (0-shot) | 70.7 | 63.4 | 66.5 | 61.0 | 74.4 | 86.6 |
MBPP (3-shot) | 80.8 | 68.1 | 69.4 | 69.3 | 77.5 | 84.1 | |
平均 | 69.2 | 61.3 | 61.0 | 63.3 | 68.5 | 74.9 |
多语言能力
以下表格突出了 Phi-3.5-MoE 在多语言 MMLU、MEGA 和多语言 MMLU-pro 数据集上的多语言能力。总体而言,我们观察到即使只有 6.6B 活动参数,该模型在多语言任务中与其他活动参数大得多的模型相比也具有很强的竞争力。
类别 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemma-2-9b-It | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|
Multilingual MMLU | 69.9 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
Multilingual MMLU-Pro | 45.3 | 34.0 | 21.4 | 43.0 | 57.9 | 53.2 |
MGSM | 58.7 | 63.3 | 56.7 | 75.1 | 75.8 | 81.7 |
MEGA MLQA | 65.3 | 61.2 | 45.2 | 54.4 | 61.6 | 70.0 |
MEGA TyDi QA | 67.1 | 63.7 | 54.5 | 65.6 | 63.6 | 81.8 |
MEGA UDPOS | 60.4 | 58.2 | 54.1 | 56.6 | 62.4 | 66.0 |
MEGA XCOPA | 76.6 | 10.8 | 21.1 | 31.2 | 95.0 | 90.3 |
MEGA XStoryCloze | 82.8 | 92.3 | 71.0 | 87.0 | 20.7 | 96.6 |
平均 | 65.8 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
长上下文处理
Phi-3.5-MoE 支持 128K 上下文长度,因此该模型能够处理多个长上下文任务,包括长文档/会议摘要、长文档问答、多语言上下文检索。我们发现 Phi-3.5 明显优于仅支持 8K 上下文长度的 Gemma-2 系列。Phi-3.5-MoE-instruct 与其他更大的开放权重模型(如 Llama-3.1-8B-instruct 和 Mistral-Nemo-12B-instruct-2407)相比具有很强的竞争力。
基准测试 | Phi-3.5-MoE-instruct | Mistral-Nemo-12B-instruct-2407 | Llama-3.1-8B-instruct | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|
GovReport | 26.4 | 25.6 | 25.1 | 27.8 | 24.8 |
QMSum | 19.9 | 22.1 | 21.6 | 24.0 | 21.7 |
Qasper | 40.0 | 30.7 | 37.2 | 43.5 | 39.8 |
SQuALITY | 24.1 | 25.8 | 26.2 | 23.5 | 23.8 |
SummScreenFD | 16.9 | 18.2 | 17.6 | 16.3 | 17.0 |
平均 | 25.5 | 24.5 | 25.5 | 27.0 | 25.4 |
RULER:长上下文理解的基于检索的基准测试
模型 | 4K | 8K | 16K | 32K | 64K | 128K | 平均 |
---|---|---|---|---|---|---|---|
Phi-3.5-MoE-instruct | 94.8 | 93 | 93.2 | 91.6 | 85.7 | 64.2 | 87.1 |
Llama-3.1-8B-instruct | 95.5 | 93.8 | 91.6 | 87.4 | 84.7 | 77.0 | 88.3 |
Mistral-Nemo-12B-instruct-2407 | 87.8 | 87.2 | 87.7 | 69.0 | 46.8 | 19.0 | 66.2 |
RepoQA:长上下文代码理解的基准测试
模型 | Python | C++ | Rust | Java | TypeScript | 平均 |
---|---|---|---|---|---|---|
Phi-3.5-MoE-instruct | 89 | 74 | 81 | 88 | 95 | 85 |
Llama-3.1-8B-instruct | 80 | 65 | 73 | 76 | 63 | 71 |
Mistral-7B-instruct-v0.3 | 61 | 57 | 51 | 61 | 80 | 62 |
训练信息
模型信息
属性 | 详情 |
---|---|
模型架构 | Phi-3.5-MoE 有 16x3.8B 参数,使用 2 个专家时具有 6.6B 活动参数。是一个仅解码器的混合专家 Transformer 模型,使用词汇量为 32,064 的分词器。 |
输入 | 文本,最适合使用聊天格式的提示。 |
上下文长度 | 128K 标记 |
GPU 需求 | 512 个 H100-80G |
训练时间 | 23 天 |
训练数据 | 4.9T 标记 |
输出 | 对输入的生成文本响应 |
训练日期 | 2024 年 4 月至 8 月 |
状态 | 这是一个在离线数据集上训练的静态模型,公开可用数据的截止日期为 2023 年 10 月。随着模型的改进,可能会发布调整后模型的未来版本。 |
支持语言 | 阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语 |
发布日期 | 2024 年 8 月 |
训练数据集
我们的训练数据包括多种来源,总计 4.9 万亿标记(包括 10% 的多语言数据),是以下数据的组合:
- 高质量公开文档:经过严格筛选的公开文档、精选的高质量教育数据和代码。
- 合成数据:新创建的类似“教科书”的数据,用于教授数学、编码、常识推理和世界常识(科学、日常活动、心理理论等)。
- 高质量聊天格式监督数据:涵盖各种主题,反映人类在指令遵循、真实性、诚实性和有用性等不同方面的偏好。
我们专注于可能提高模型推理能力的数据质量,并过滤公开文档以包含适当水平的知识。更多数据细节可在 Phi-3 技术报告 中找到。
负责任 AI 考虑
与其他语言模型一样,Phi 系列模型可能会表现出不公平、不可靠或冒犯性的行为。需要注意的一些限制行为包括:
- 服务质量:Phi 模型主要在英语文本和一些额外的多语言文本上进行训练。非英语语言的性能会较差,并且非英语语言之间的性能也会存在差异。训练数据中代表性较少的英语变体的性能可能比标准美式英语差。
- 多语言性能和安全差距:我们认为使语言模型在不同语言中更广泛可用很重要,但 Phi 3 模型在多语言发布中仍然存在常见的挑战。与任何大语言模型的部署一样,开发者将更有能力针对其语言和文化背景测试性能或安全差距,并通过额外的微调和平适当的保障措施对模型进行定制。
- 伤害表征和刻板印象延续:这些模型可能会过度或不足地代表某些人群,抹去某些群体的代表性,或强化贬低性或负面的刻板印象。尽管进行了安全后训练,但由于不同群体的代表性水平不同、文化背景不同或训练数据中反映现实世界模式和社会偏见的负面刻板印象示例的普遍性,这些局限性可能仍然存在。
- 不适当或冒犯性内容:这些模型可能会产生其他类型的不适当或冒犯性内容,在没有针对特定用例的额外缓解措施的情况下,可能不适合在敏感环境中部署。
- 信息可靠性:语言模型可能会生成无意义的内容或编造听起来合理但不准确或过时的内容。
- 代码范围有限:Phi-3 的大部分训练数据基于 Python 并使用常见包,如 "typing, math, random, collections, datetime, itertools"。如果模型生成使用其他包的 Python 脚本或其他语言的脚本,我们强烈建议用户手动验证所有 API 使用情况。
- 长对话问题:与其他模型一样,Phi-3 模型在英语和非英语的非常长的聊天会话中有时可能会生成重复、无用或不一致的响应。建议开发者采取适当的缓解措施,如限制对话轮数以解决可能的对话漂移问题。
开发者应应用负责任 AI 的最佳实践,包括映射、衡量和缓解与其特定用例和文化、语言背景相关的风险。Phi-3 系列模型是通用模型。当开发者计划将这些模型用于特定用例时,建议针对其用例对模型进行微调,并在适当的语言保障措施到位的情况下将模型作为更广泛 AI 系统的一部分使用。需要考虑的重要领域包括:
- 资源分配:在没有进一步评估和额外去偏技术的情况下,模型可能不适用于对法律地位、资源分配或生活机会(如住房、就业、信贷等)有重大影响的场景。
- 高风险场景:开发者应评估在高风险场景中使用模型的适用性,在这些场景中,不公平、不可靠或冒犯性的输出可能会造成极大的代价或伤害。这包括在敏感或专业领域提供建议,其中准确性和可靠性至关重要(如法律或健康建议)。应根据部署上下文在应用层面实施额外的保障措施。
- 错误信息:模型可能会产生不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户他们正在与 AI 系统交互。在应用层面,开发者可以构建反馈机制和管道,将响应基于特定用例的上下文信息,这种技术称为检索增强生成(RAG)。
- 有害内容生成:开发者应根据上下文评估输出,并使用适用于其用例的可用安全分类器或自定义解决方案。
- 滥用:可能存在其他形式的滥用,如欺诈、垃圾邮件或恶意软件生产,开发者应确保其应用不违反适用的法律法规。
安全评估和红队测试
我们利用各种评估技术,包括红队测试、对抗性对话模拟和多语言安全评估基准数据集,来评估 Phi-3.5 模型在多种语言和风险类别中产生不良输出的倾向。使用了多种方法来弥补单一方法的局限性。各种评估方法的结果表明,如 Phi-3 安全后训练论文 中详细描述的安全后训练,在多种语言和风险类别中产生了积极影响,这可以通过拒绝率(拒绝输出不良输出)和对越狱技术的鲁棒性来观察到。
需要注意的是,虽然在 Phi 模型的先前版本中对所有模型进行了全面的红队评估,但本次发布的红队测试主要集中在 Phi-3.5 MOE 在多种语言和风险类别上,因为它是三个模型中最大且能力更强的模型。先前 Phi 模型的红队评估细节可在 Phi-3 安全后训练论文 中找到。对于本次发布,红队测试的见解表明,即使不良输出请求使用另一种语言,模型也可能拒绝在英语中生成不良输出。模型在英语和非英语语言中也可能更容易受到较长的多轮越狱技术的影响。这些发现强调了行业需要在开发跨多种语言(包括低资源语言)和考虑到这些语言使用地区文化细微差别的风险领域的高质量安全评估数据集方面进行投资。
软件依赖
🔧 技术细节
Phi-3.5-MoE 是一个基于 Transformer 架构的混合专家解码器模型。在训练过程中,使用了监督微调、近端策略优化和直接偏好优化等技术,以提高模型的性能和安全性。模型的分词器支持最大 32064 个标记的词汇量,并且可以根据需要进行扩展。
📄 许可证
该模型根据 MIT 许可证 授权。
商标说明
本项目可能包含项目、产品或服务的商标或标志。对微软商标或标志的授权使用需遵循并必须遵守 微软商标和品牌指南。在本项目的修改版本中使用微软商标或标志不得造成混淆或暗示微软的赞助。任何第三方商标或标志的使用需遵循这些第三方的政策。
附录 A:韩语基准测试
提示与 CLIcK 论文 中的提示相同。以下实验结果是在 max_tokens=512(零样本)、max_tokens=1024(5 样本)、温度=0.01 的条件下给出的,未使用系统提示。
- GPT-4o:2024-05-13 版本
- GPT-4o-mini:2024-07-18 版本
- GPT-4-turbo:2024-04-09 版本
- GPT-3.5-turbo:2023-06-13 版本
总体而言,仅具有 6.6B 活动参数的 Phi-3.5 MoE 模型优于 GPT-3.5-Turbo。
基准测试 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
CLIcK | 56.44 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
HAERAE 1.0 | 61.83 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT) | 47.43 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot) | 47.92 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT) | 25.34 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot) | 25.66 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |
平均 | 45.82 | 29.99 | 29.29 | 62.54 | 50.08 | 56.74 | 39.61 |
CLIcK(韩语文化和语言智能)
按超级类别划分的准确率
超级类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
文化 | 58.44 | 29.74 | 51.15 | 81.89 | 70.95 | 73.61 | 53.38 |
语言 | 52.31 | 27.85 | 40.92 | 77.54 | 63.54 | 71.23 | 46 |
总体 | 56.44 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
按类别划分的准确率
超级类别 | 类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|---|
文化 | 经济 | 77.97 | 28.81 | 66.1 | 94.92 | 83.05 | 89.83 | 64.41 |
文化 | 地理 | 60.31 | 29.01 | 54.2 | 80.15 | 77.86 | 82.44 | 53.44 |
文化 | 历史 | 33.93 | 30 | 29.64 | 66.92 | 48.4 | 46.4 | 31.79 |
文化 | 法律 | 52.51 | 22.83 | 44.29 | 70.78 | 57.53 | 61.19 | 41.55 |
文化 | 政治 | 70.24 | 33.33 | 59.52 | 88.1 | 83.33 | 89.29 | 65.48 |
文化 | 流行文化 | 80.49 | 34.15 | 60.98 | 97.56 | 85.37 | 92.68 | 75.61 |
文化 | 社会 | 74.43 | 31.72 | 65.05 | 92.88 | 85.44 | 86.73 | 71.2 |
文化 | 传统 | 58.11 | 31.98 | 54.95 | 87.39 | 74.77 | 79.28 | 55.86 |
语言 | 功能 | 48 | 24 | 32.8 | 84.8 | 64.8 | 80 | 40 |
语言 | 语法 | 29.58 | 23.33 | 22.92 | 57.08 | 42.5 | 47.5 | 30 |
语言 | 文本 | 73.33 | 33.33 | 59.65 | 91.58 | 80.7 | 87.37 | 62.11 |
HAERAE 1.0
类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
常识 | 39.77 | 28.41 | 34.66 | 77.27 | 53.41 | 66.48 | 40.91 |
历史 | 60.64 | 22.34 | 44.15 | 92.02 | 84.57 | 78.72 | 30.32 |
外来词 | 70.41 | 35.5 | 63.31 | 79.88 | 76.33 | 78.11 | 59.17 |
生僻词 | 63.95 | 42.96 | 63.21 | 87.9 | 81.98 | 79.01 | 61.23 |
阅读理解 | 64.43 | 41.16 | 51.9 | 85.46 | 77.18 | 80.09 | 56.15 |
标准命名法 | 66.01 | 32.68 | 58.82 | 88.89 | 75.82 | 79.08 | 53.59 |
总体 | 61.83 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT)
超级类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 45.15 | 31.68 | 37.03 | 61.52 | 49.29 | 55.98 | 38.47 |
HUMSS | 49.75 | 26.47 | 37.29 | 69.45 | 56.59 | 63 | 40.9 |
其他 | 47.24 | 31.01 | 39.15 | 63.79 | 52.35 | 57.53 | 40.19 |
STEM | 49.08 | 31.9 | 40.42 | 65.16 | 54.74 | 60.84 | 42.24 |
总体 | 47.43 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot)
超级类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 45.9 | 29.98 | 19.24 | 61.47 | 48.66 | 56.85 | 40.22 |
HUMSS | 49.18 | 27.27 | 22.5 | 68.79 | 55.95 | 63.68 | 43.35 |
其他 | 48.43 | 30.76 | 20.95 | 64.21 | 51.1 | 57.85 | 41.92 |
STEM | 49.21 | 30.73 | 19.55 | 65.28 | 53.29 | 61.08 | 44.43 |
总体 | 47.92 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT)
超级类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 25.83 | 26.17 | 26.25 | 37.12 | 22.25 | 29.17 | 21.07 |
HUMSS | 21.52 | 24.38 | 20.21 | 41.97 | 23.31 | 31.51 | 19.44 |
其他 | 24.82 | 24.82 | 23.88 | 40.39 | 26.48 | 29.59 | 22.22 |
STEM | 28.18 | 26.91 | 24.64 | 39.82 | 26.36 | 32.18 | 20.91 |
总体 | 25.34 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot)
超级类别 | Phi-3.5-MoE-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
应用科学 | 21 | 29 | 12 | 31 | 21 | 25 | 20 |
HUMSS | 22.88 | 19.92 | 14 | 43.98 | 23.47 | 33.53 | 19.53 |
其他 | 25.13 | 27.27 | 12.83 | 39.84 | 28.34 | 29.68 | 23.22 |
STEM | 21.75 | 25.25 | 12.75 | 40.25 | 23.25 | 27.25 | 19.75 |
总体 | 25.66 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |



