模型概述
模型特點
模型能力
使用案例
🚀 Phi-4
Phi-4是一款先進的模型,提供了多模態指令和ONNX等不同版本,可滿足多種應用場景的需求。
版本鏈接
- [multimodal-instruct | onnx]
- [mini-instruct | onnx]
✨ 主要特性
模型概述
Phi-3.5-mini是一個輕量級、最先進的開放模型。它基於Phi-3使用的數據集構建,包括合成數據和經過篩選的公開網站數據,尤其注重高質量、富含推理的數據。該模型屬於Phi-3模型家族,支持128K的令牌上下文長度。經過嚴格的增強過程,包括監督微調、近端策略優化和直接偏好優化,確保了模型能夠精確遵循指令並具備強大的安全措施。
相關鏈接
Phi-3.5版本鏈接
📦 安裝指南
環境要求
Phi-3系列已集成到transformers
的4.43.0
版本中。可以使用以下命令驗證當前transformers
的版本:
pip list | grep transformers
依賴包示例
flash_attn==2.5.8
torch==2.3.1
accelerate==0.31.0
transformers==4.43.0
其他使用途徑
Phi-3.5-mini-instruct也可以在 Azure AI Studio 中使用。
💻 使用示例
基礎用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
torch.random.manual_seed(0)
model = AutoModelForCausalLM.from_pretrained(
"microsoft/Phi-3.5-mini-instruct",
device_map="cuda",
torch_dtype="auto",
trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-mini-instruct")
messages = [
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Can you provide ways to eat combinations of bananas and dragonfruits?"},
{"role": "assistant", "content": "Sure! Here are some ways to eat bananas and dragonfruits together: 1. Banana and dragonfruit smoothie: Blend bananas and dragonfruits together with some milk and honey. 2. Banana and dragonfruit salad: Mix sliced bananas and dragonfruits together with some lemon juice and honey."},
{"role": "user", "content": "What about solving an 2x + 3 = 7 equation?"},
]
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
)
generation_args = {
"max_new_tokens": 500,
"return_full_text": False,
"temperature": 0.0,
"do_sample": False,
}
output = pipe(messages, **generation_args)
print(output[0]['generated_text'])
注意事項
如果想使用閃存注意力機制,可以在調用AutoModelForCausalLM.from_pretrained()
時添加attn_implementation="flash_attention_2"
參數。
📚 詳細文檔
預期用途
主要用例
該模型旨在用於多語言的商業和研究場景。適用於通用人工智能系統和應用,特別是以下場景:
- 內存或計算資源受限的環境
- 對延遲有要求的場景
- 需要強大推理能力的場景(特別是代碼、數學和邏輯方面)
該模型的設計旨在加速語言和多模態模型的研究,可作為生成式人工智能功能的構建塊。
使用案例考慮
我們的模型並非專門為所有下游用途設計或評估。開發者在選擇使用案例時應考慮語言模型的常見侷限性,並在特定下游用例中使用之前評估和減輕準確性、安全性和公平性方面的問題,特別是在高風險場景中。開發者應瞭解並遵守與其使用案例相關的適用法律或法規(包括隱私、貿易合規法律等)。
發佈說明
這是基於用戶寶貴反饋對2024年6月發佈的指令微調版Phi-3 Mini的更新。該模型使用了額外的訓練後數據,在多語言、多輪對話質量和推理能力方面取得了顯著提升。我們相信大多數用例將從這次發佈中受益,但建議用戶在其特定的人工智能應用中進行測試。我們感謝大家對Phi-3模型家族的熱情采用,並繼續歡迎社區的所有反饋。
多語言能力
以下表格展示了Phi-3.5 Mini在多語言MMLU、MEGA和多語言MMLU-pro數據集上的多語言能力。總體而言,我們觀察到即使只有38億個活躍參數,該模型在多語言任務上與具有更多活躍參數的其他模型相比也具有競爭力。
基準測試 | Phi-3.5 Mini-Ins | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
多語言MMLU | 55.4 | 51.08 | 47.4 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
多語言MMLU-Pro | 30.9 | 30.21 | 15.0 | 34.0 | 21.4 | 43.0 | 57.9 | 53.2 |
MGSM | 47.9 | 41.56 | 31.8 | 63.3 | 56.7 | 75.1 | 75.8 | 81.7 |
MEGA MLQA | 61.7 | 55.5 | 43.9 | 61.2 | 45.2 | 54.4 | 61.6 | 70.0 |
MEGA TyDi QA | 62.2 | 55.9 | 54.0 | 63.7 | 54.5 | 65.6 | 63.6 | 81.8 |
MEGA UDPOS | 46.5 | 48.1 | 57.2 | 58.2 | 54.1 | 56.6 | 62.4 | 66.0 |
MEGA XCOPA | 63.1 | 62.4 | 58.8 | 10.8 | 21.1 | 31.2 | 95.0 | 90.3 |
MEGA XStoryCloze | 73.5 | 73.6 | 75.5 | 92.3 | 71.0 | 87.0 | 20.7 | 96.6 |
平均 | 55.2 | 52.3 | 47.9 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
以下表格顯示了Phi-3.5 Mini-Ins在部分支持語言的多語言MMLU得分。更多多語言基準測試和詳細信息,請參閱 附錄A。
基準測試 | Phi-3.5 Mini-Ins | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
阿拉伯語 | 44.2 | 35.4 | 33.7 | 45.3 | 49.1 | 56.3 | 73.6 | 67.1 |
中文 | 52.6 | 46.9 | 45.9 | 58.2 | 54.4 | 62.7 | 66.7 | 70.8 |
荷蘭語 | 57.7 | 48.0 | 51.3 | 60.1 | 55.9 | 66.7 | 80.6 | 74.2 |
法語 | 61.1 | 61.7 | 53.0 | 63.8 | 62.8 | 67.0 | 82.9 | 75.6 |
德語 | 62.4 | 61.3 | 50.1 | 64.5 | 59.9 | 65.7 | 79.5 | 74.3 |
意大利語 | 62.8 | 63.1 | 52.5 | 64.1 | 55.9 | 65.7 | 82.6 | 75.9 |
俄語 | 50.4 | 45.3 | 48.9 | 59.0 | 57.4 | 63.2 | 78.7 | 72.6 |
西班牙語 | 62.6 | 61.3 | 53.9 | 64.3 | 62.6 | 66.0 | 80.0 | 75.5 |
烏克蘭語 | 45.2 | 36.7 | 46.9 | 56.6 | 52.9 | 62.0 | 77.4 | 72.6 |
長上下文能力
Phi-3.5-mini支持128K的上下文長度,因此該模型能夠處理多個長上下文任務,包括長文檔/會議摘要、長文檔問答和長文檔信息檢索。我們發現Phi-3.5-mini明顯優於僅支持8K上下文長度的Gemma-2系列。Phi-3.5-mini與其他更大的開放權重模型(如Llama-3.1-8B-instruct、Mistral-7B-instruct-v0.3和Mistral-Nemo-12B-instruct-2407)具有競爭力。
基準測試 | Phi-3.5-mini-instruct | Llama-3.1-8B-instruct | Mistral-7B-instruct-v0.3 | Mistral-Nemo-12B-instruct-2407 | Gemini-1.5-Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|
GovReport | 25.9 | 25.1 | 26.0 | 25.6 | 27.8 | 24.8 |
QMSum | 21.3 | 21.6 | 21.3 | 22.1 | 24.0 | 21.7 |
Qasper | 41.9 | 37.2 | 31.4 | 30.7 | 43.5 | 39.8 |
SQuALITY | 25.3 | 26.2 | 25.9 | 25.8 | 23.5 | 23.8 |
SummScreenFD | 16.0 | 17.6 | 17.5 | 18.2 | 16.3 | 17.0 |
平均 | 26.1 | 25.5 | 24.4 | 24.5 | 27.0 | 25.4 |
RULER:長上下文理解的基於檢索的基準測試
模型 | 4K | 8K | 16K | 32K | 64K | 128K | 平均 |
---|---|---|---|---|---|---|---|
Phi-3.5-mini-instruct | 94.3 | 91.1 | 90.7 | 87.1 | 78.0 | 63.6 | 84.1 |
Llama-3.1-8B-instruct | 95.5 | 93.8 | 91.6 | 87.4 | 84.7 | 77.0 | 88.3 |
Mistral-Nemo-12B-instruct-2407 | 87.8 | 87.2 | 87.7 | 69.0 | 46.8 | 19.0 | 66.2 |
RepoQA:長上下文代碼理解的基準測試
模型 | Python | C++ | Rust | Java | TypeScript | 平均 |
---|---|---|---|---|---|---|
Phi-3.5-mini-instruct | 86 | 67 | 73 | 77 | 82 | 77 |
Llama-3.1-8B-instruct | 80 | 65 | 73 | 76 | 63 | 71 |
Mistral-7B-instruct-v0.3 | 61 | 57 | 51 | 61 | 80 | 62 |
分詞器
Phi-3.5-mini-Instruct支持最多32064
個令牌的詞彙量。分詞器文件 已經提供了可用於下游微調的佔位符令牌,但也可以擴展到模型的詞彙量大小。
輸入格式
鑑於訓練數據的性質,Phi-3.5-mini-instruct模型最適合使用以下聊天格式的提示:
<|system|>
You are a helpful assistant.<|end|>
<|user|>
How to explain Internet for a medieval knight?<|end|>
<|assistant|>
負責任的人工智能考慮
與其他語言模型一樣,Phi系列模型可能會以不公平、不可靠或冒犯性的方式表現。需要注意的一些限制行為包括:
- 服務質量:Phi模型主要在英語文本和一些額外的多語言文本上進行訓練。非英語語言的性能會較差,並且不同非英語語言之間的性能也會存在差異。訓練數據中代表性較少的英語變體的性能可能比標準美式英語差。
- 多語言性能和安全差距:我們認為使語言模型在不同語言中更廣泛可用很重要,但Phi 3模型在多語言版本中仍然存在常見的挑戰。與任何大語言模型的部署一樣,開發者將更有能力針對其語言和文化背景測試性能或安全差距,並通過額外的微調和平適當的保障措施對模型進行定製。
- 傷害的表現和刻板印象的延續:這些模型可能會過度或不足地代表某些人群,抹去某些群體的代表性,或強化貶低性或負面的刻板印象。儘管進行了安全訓練後處理,但由於不同群體的代表性水平不同、文化背景不同或訓練數據中反映現實世界模式和社會偏見的負面刻板印象示例的普遍性,這些限制可能仍然存在。
- 不適當或冒犯性內容:這些模型可能會產生其他類型的不適當或冒犯性內容,因此在沒有針對具體情況進行額外緩解措施的情況下,可能不適合在敏感環境中部署。
- 信息可靠性:語言模型可能會生成無意義的內容或編造聽起來合理但不準確或過時的內容。
- 代碼範圍有限:Phi-3的大部分訓練數據基於Python,並使用常見的包(如“typing, math, random, collections, datetime, itertools”)。如果模型生成使用其他包或其他語言的Python腳本,我們強烈建議用戶手動驗證所有API的使用。
- 長對話:與其他模型一樣,Phi-3模型在某些情況下可能會在非常長的聊天會話中生成重複、無用或不一致的響應,無論是英語還是非英語。建議開發者採取適當的緩解措施,例如限制對話輪數以應對可能的對話漂移。
開發者應應用負責任的人工智能最佳實踐,包括映射、衡量和減輕與其特定用例以及文化、語言背景相關的風險。Phi-3系列模型是通用模型。當開發者計劃將這些模型用於特定用例時,建議針對其用例對模型進行微調,並將模型作為具有特定語言保障措施的更廣泛人工智能系統的一部分使用。需要考慮的重要領域包括:
- 分配:在沒有進一步評估和額外去偏技術的情況下,模型可能不適用於可能對法律地位、資源分配或生活機會產生重大影響的場景(例如住房、就業、信貸等)。
- 高風險場景:開發者應評估在高風險場景中使用模型的適用性,在這些場景中,不公平、不可靠或冒犯性的輸出可能會造成極大的代價或導致傷害。這包括在敏感或專業領域提供建議(例如法律或健康建議),在這些領域準確性和可靠性至關重要。應根據部署環境在應用層面實施額外的保障措施。
- 錯誤信息:模型可能會生成不準確的信息。開發者應遵循透明度最佳實踐,並告知最終用戶他們正在與人工智能系統進行交互。在應用層面,開發者可以構建反饋機制和管道,以將響應基於特定用例的上下文信息,這種技術稱為檢索增強生成(RAG)。
- 有害內容生成:開發者應根據其上下文評估輸出,並使用適合其用例的可用安全分類器或自定義解決方案。
- 濫用:可能存在其他形式的濫用,如欺詐、垃圾郵件或惡意軟件生產,開發者應確保其應用不違反適用的法律法規。
訓練
模型信息
屬性 | 詳情 |
---|---|
架構 | Phi-3.5-mini有38億個參數,是一個密集的僅解碼器Transformer模型,使用與Phi-3 Mini相同的分詞器。 |
輸入 | 文本。最適合使用聊天格式的提示。 |
上下文長度 | 128K個令牌 |
GPU | 512個H100-80G |
訓練時間 | 10天 |
訓練數據 | 3.4T個令牌 |
輸出 | 對輸入的生成文本響應 |
日期 | 2024年6月至8月之間訓練 |
狀態 | 這是一個基於截止日期為2023年10月的公開可用數據的離線數據集訓練的靜態模型。隨著我們改進模型,未來可能會發布微調模型的新版本。 |
支持語言 | 阿拉伯語、中文、捷克語、丹麥語、荷蘭語、英語、芬蘭語、法語、德語、希伯來語、匈牙利語、意大利語、日語、韓語、挪威語、波蘭語、葡萄牙語、俄語、西班牙語、瑞典語、泰語、土耳其語、烏克蘭語 |
發佈日期 | 2024年8月 |
訓練數據集
我們的訓練數據包括各種來源,總計34萬億個令牌,是以下數據的組合:
- 經過嚴格質量篩選的公開可用文檔、精選的高質量教育數據和代碼。
- 為教授數學、編碼、常識推理、世界常識(科學、日常活動、心理理論等)而新創建的合成“教科書式”數據。
- 涵蓋各種主題的高質量聊天格式監督數據,以反映人類在指令遵循、真實性、誠實性和幫助性等不同方面的偏好。
我們專注於可能提高模型推理能力的數據質量,並篩選公開可用文檔以包含適當水平的知識。例如,某一天英超聯賽的比賽結果可能是前沿模型的良好訓練數據,但對於小尺寸模型,我們需要刪除此類信息,以便為推理留出更多的模型容量。有關數據的更多詳細信息,請參閱 Phi-3技術報告。
微調
此處 提供了一個使用TRL和Accelerate模塊進行多GPU監督微調(SFT)的基本示例。
基準測試
我們報告了Phi-3.5-mini在標準開源基準測試中以完成格式呈現的結果,這些基準測試衡量了模型的推理能力(包括常識推理和邏輯推理)。我們將其與Mistral-7B-Instruct-v0.3、Mistral-Nemo-12B-Ins-2407、Llama-3.1-8B-Ins、Gemma-2-9B-Ins、Gemini 1.5 Flash和GPT-4o-mini-2024-07-18 (Chat) 進行了比較。
所有報告的數字都是使用完全相同的管道生成的,以確保數字具有可比性。由於評估中的細微差異,這些數字可能與其他公佈的數字不同。
按照目前的標準,我們使用少樣本提示在溫度為0的情況下評估模型。提示和樣本數量是微軟內部評估語言模型工具的一部分,特別是我們沒有對Phi-3的管道進行優化。具體來說,我們沒有更改提示、選擇不同的少樣本示例、更改提示格式或對模型進行任何其他形式的優化。
每個基準測試的少樣本示例數量如下。以下是模型在代表性基準測試上的質量概述:
類別 | 基準測試 | Phi-3.5 Mini-Ins | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
流行綜合基準 | Arena Hard | 37 | 18.1 | 39.4 | 25.7 | 42 | 55.2 | 75 |
BigBench Hard CoT (0-shot) | 69 | 33.4 | 60.2 | 63.4 | 63.5 | 66.7 | 80.4 | |
MMLU (5-shot) | 69 | 60.3 | 67.2 | 68.1 | 71.3 | 78.7 | 77.2 | |
MMLU-Pro (0-shot, CoT) | 47.4 | 18 | 40.7 | 44 | 50.1 | 57.2 | 62.8 | |
推理 | ARC Challenge (10-shot) | 84.6 | 77.9 | 84.8 | 83.1 | 89.8 | 92.8 | 93.5 |
BoolQ (2-shot) | 78 | 80.5 | 82.5 | 82.8 | 85.7 | 85.8 | 88.7 | |
GPQA (0-shot, CoT) | 30.4 | 15.6 | 28.6 | 26.3 | 29.2 | 37.5 | 41.1 | |
HellaSwag (5-shot) | 69.4 | 71.6 | 76.7 | 73.5 | 80.9 | 67.5 | 87.1 | |
OpenBookQA (10-shot) | 79.2 | 78 | 84.4 | 84.8 | 89.6 | 89 | 90 | |
PIQA (5-shot) | 81 | 73.4 | 83.5 | 81.2 | 83.7 | 87.5 | 88.7 | |
Social IQA (5-shot) | 74.7 | 73 | 75.3 | 71.8 | 74.7 | 77.8 | 82.9 | |
TruthfulQA (MC2) (10-shot) | 64 | 64.7 | 68.1 | 69.2 | 76.6 | 76.6 | 78.2 | |
WinoGrande (5-shot) | 68.5 | 58.1 | 70.4 | 64.7 | 74 | 74.7 | 76.9 | |
多語言 | 多語言MMLU (5-shot) | 55.4 | 47.4 | 58.9 | 56.2 | 63.8 | 77.2 | 72.9 |
MGSM (0-shot CoT) | 47.9 | 31.8 | 63.3 | 56.7 | 76.4 | 75.8 | 81.7 | |
數學 | GSM8K (8-shot, CoT) | 86.2 | 54.4 | 84.2 | 82.4 | 84.9 | 82.4 | 91.3 |
MATH (0-shot, CoT) | 48.5 | 19 | 31.2 | 47.6 | 50.9 | 38 | 70.2 | |
長上下文 | Qasper | 41.9 | 31.4 | 30.7 | 37.2 | 13.9 | 43.5 | 39.8 |
SQuALITY | 24.3 | 25.9 | 25.8 | 26.2 | 0 | 23.5 | 23.8 | |
代碼生成 | HumanEval (0-shot) | 62.8 | 35.4 | 63.4 | 66.5 | 61 | 74.4 | 86.6 |
MBPP (3-shot) | 69.6 | 50.4 | 68.1 | 69.4 | 69.3 | 77.5 | 84.1 | |
平均 | 61.4 | 48.5 | 61.3 | 61.0 | 63.3 | 68.5 | 74.9 |
我們在下表中更詳細地查看了公共基準測試數據集的不同類別:
類別 | Phi-3.5 Mini-Ins | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|
流行綜合基準 | 55.6 | 32.5 | 51.9 | 50.3 | 56.7 | 64.5 | 73.9 |
推理 | 70.1 | 65.2 | 72.2 | 70.5 | 75.4 | 77.7 | 80 |
語言理解 | 62.6 | 62.8 | 67 | 62.9 | 72.8 | 66.6 | 76.8 |
魯棒性 | 59.7 | 53.4 | 65.2 | 59.8 | 64.7 | 68.9 | 77.5 |
長上下文 | 26.1 | 25.5 | 24.4 | 24.5 | 0 | 27 | 25.4 |
數學 | 67.4 | 36.7 | 57.7 | 65 | 67.9 | 60.2 | 80.8 |
代碼生成 | 62 | 43.1 | 56.9 | 65.8 | 58.3 | 66.8 | 69.9 |
多語言 | 55.2 | 47.9 | 55.3 | 47.5 | 59.6 | 64.3 | 76.6 |
總體而言,僅具有38億參數的模型在多語言理解和推理能力方面達到了與更大模型相似的水平。然而,它在某些任務上仍然受到其規模的根本限制。該模型根本沒有足夠的容量來存儲太多事實知識,因此用戶可能會遇到事實錯誤。然而,我們相信通過為Phi-3.5添加搜索引擎可以解決這一弱點,特別是在使用RAG設置下的模型時。
安全評估和紅隊測試
我們利用各種評估技術,包括紅隊測試、對抗性對話模擬和多語言安全評估基準數據集,來評估Phi-3.5模型在多種語言和風險類別中產生不良輸出的傾向。我們使用了多種方法來彌補單一方法的侷限性。各種評估方法的結果表明,如 Phi-3安全訓練後處理論文 中詳細描述的安全訓練後處理,在多種語言和風險類別中產生了積極影響,這可以從拒絕率(拒絕輸出不良輸出)和對越獄技術的魯棒性中觀察到。然而,需要注意的是,雖然在之前的Phi模型版本中對所有模型進行了全面的紅隊評估,但本次發佈的紅隊測試主要集中在多語言和風險類別中的Phi-3.5 MOE,因為它是三個模型中最大且功能最強的模型。有關之前Phi模型紅隊評估的詳細信息,請參閱 Phi-3安全訓練後處理論文。對於本次發佈,紅隊測試的結果表明,即使請求不良輸出的語言不是英語,模型也可能拒絕在英語中生成不良輸出。模型在英語和非英語語言中也可能更容易受到較長的多輪越獄技術的影響。這些發現強調了在行業範圍內投資開發涵蓋多種語言(包括資源較少的語言)和考慮語言使用地區文化細微差別的高質量安全評估數據集的必要性。
軟件依賴
硬件要求
請注意,默認情況下,Phi-3.5-mini-instruct模型使用閃存注意力機制,這需要特定類型的GPU硬件才能運行。我們已經在以下GPU類型上進行了測試:
- NVIDIA A100
- NVIDIA A6000
- NVIDIA H100
如果要在以下GPU上運行模型:
- NVIDIA V100或更早一代的GPU:在調用
AutoModelForCausalLM.from_pretrained()
時添加attn_implementation="eager"
參數。
📄 許可證
該模型根據 MIT許可證 授權。
商標說明
本項目可能包含項目、產品或服務的商標或標識。對微軟商標或標識的授權使用須遵守並必須遵循 微軟商標和品牌指南。在本項目的修改版本中使用微軟商標或標識不得造成混淆或暗示微軟的贊助。任何第三方商標或標識的使用須遵守這些第三方的政策。
附錄A
MGSM
語言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
德語 | 69.6 | 65.2 | 42.4 | 74.4 | 68.4 | 76.8 | 81.6 | 82.8 |
英語 | 85.2 | 83.2 | 60.0 | 86.0 | 81.2 | 88.8 | 90.8 | 90.8 |
西班牙語 | 79.2 | 77.6 | 46.4 | 75.6 | 66.4 | 82.4 | 84.8 | 86.8 |
法語 | 71.6 | 72.8 | 47.2 | 70.4 | 66.8 | 74.4 | 77.2 | 81.6 |
日語 | 50.0 | 35.2 | 22.8 | 62.4 | 49.2 | 67.6 | 77.6 | 80.4 |
俄語 | 67.2 | 51.6 | 43.2 | 73.6 | 67.2 | 78.4 | 84.8 | 86.4 |
泰語 | 29.6 | 6.4 | 18.4 | 53.2 | 56.0 | 76.8 | 87.6 | 81.6 |
中文 | 60.0 | 52.8 | 42.4 | 66.4 | 68.0 | 72.8 | 82.0 | 82.0 |
多語言MMLU-pro
語言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
捷克語 | 24.9 | 26.3 | 14.6 | 30.6 | 23.0 | 40.5 | 59.0 | 40.9 |
英語 | 47.7 | 46.2 | 17.7 | 39.8 | 43.1 | 49.0 | 66.1 | 62.7 |
芬蘭語 | 22.3 | 20.5 | 11.5 | 30.4 | 9.7 | 37.5 | 54.5 | 50.1 |
挪威語 | 29.9 | 27.8 | 14.4 | 33.2 | 22.2 | 44.4 | 60.7 | 59.1 |
波蘭語 | 25.7 | 26.4 | 16.3 | 33.6 | 9.2 | 41.7 | 53.9 | 42.8 |
葡萄牙語 | 38.7 | 37.6 | 15.3 | 36.0 | 29.3 | 43.5 | 54.0 | 56.9 |
瑞典語 | 30.7 | 28.1 | 15.5 | 34.3 | 16.9 | 42.6 | 57.7 | 55.5 |
MEGA
MLQA
語言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
阿拉伯語 | 54.3 | 32.7 | 23.5 | 31.4 | 31.5 | 57.4 | 63.8 | 64.0 |
中文 | 36.1 | 31.8 | 22.4 | 27.4 | 18.6 | 45.4 | 38.1 | 38.9 |
英語 | 80.3 | 78.9 | 68.2 | 75.5 | 67.2 | 82.9 | 69.5 | 82.2 |
德語 | 61.8 | 59.1 | 49.0 | 57.8 | 38.9 | 63.8 | 55.9 | 64.1 |
西班牙語 | 68.8 | 67.0 | 50.3 | 63.6 | 52.7 | 72.8 | 59.6 | 70.1 |
TyDi QA
語言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
阿拉伯語 | 69.7 | 54.4 | 52.5 | 49.8 | 33.7 | 81.1 | 78.8 | 84.9 |
英語 | 82.0 | 82.0 | 60.5 | 77.3 | 65.1 | 82.4 | 60.9 | 81.8 |
芬蘭語 | 70.3 | 64.3 | 68.6 | 57.1 | 74.4 | 85.7 | 73.5 | 84.8 |
日語 | 65.4 | 56.7 | 45.3 | 54.8 | 34.1 | 74.6 | 59.7 | 73.3 |
韓語 | 74.0 | 60.4 | 54.5 | 54.2 | 54.9 | 83.8 | 60.7 | 82.3 |
俄語 | 63.5 | 62.7 | 52.3 | 55.7 | 27.4 | 69.8 | 60.1 | 72.5 |
泰語 | 64.4 | 49.0 | 51.8 | 43.5 | 48.5 | 81.4 | 71.6 | 78.2 |
XCOPA
語言 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Mistral-7B-Instruct-v0.3 | Mistral-Nemo-12B-Ins-2407 | Llama-3.1-8B-Ins | Gemma-2-9B-Ins | Gemini 1.5 Flash | GPT-4o-mini-2024-07-18 (Chat) |
---|---|---|---|---|---|---|---|---|
英語 | 94.6 | 94.6 | 85.6 | 94.4 | 37.6 | 63.8 | 92.0 | 98.2 |
意大利語 | 86.8 | 84.8 | 76.8 | 83.2 | 16.2 | 37.2 | 85.6 | 97.6 |
土耳其語 | 58.6 | 57.2 | 61.6 | 56.6 | 38.4 | 60.2 | 91.4 | 94.6 |
附錄B:韓語基準測試
提示與 CLIcK論文 中的提示相同。以下實驗結果是在max_tokens=512
(零樣本)、max_tokens=1024
(5樣本)、temperature=0.01
的條件下給出的。未使用系統提示。
- GPT-4o:2024年5月13日版本
- GPT-4o-mini:2024年7月18日版本
- GPT-4-turbo:2024年4月9日版本
- GPT-3.5-turbo:2023年6月13日版本
總體韓語基準測試表明,僅具有38億參數的Phi-3.5-Mini-Instruct優於Llama-3.1-8B-Instruct。
基準測試 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
CLIcK | 42.99 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
HAERAE 1.0 | 44.21 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT) | 35.87 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot) | 37.35 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT) | 24 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot) | 24.76 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |
平均 | 35.62 | 29.99 | 29.29 | 62.54 | 50.08 | 56.74 | 39.61 |
CLIcK(韓國文化和語言智能)
按超級類別劃分的準確率
超級類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
文化 | 43.77 | 29.74 | 51.15 | 81.89 | 70.95 | 73.61 | 53.38 |
語言 | 41.38 | 27.85 | 40.92 | 77.54 | 63.54 | 71.23 | 46 |
總體 | 42.99 | 29.12 | 47.82 | 80.46 | 68.5 | 72.82 | 50.98 |
按類別劃分的準確率
超級類別 | 類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|---|
文化 | 經濟 | 61.02 | 28.81 | 66.1 | 94.92 | 83.05 | 89.83 | 64.41 |
文化 | 地理 | 45.8 | 29.01 | 54.2 | 80.15 | 77.86 | 82.44 | 53.44 |
文化 | 歷史 | 26.15 | 30 | 29.64 | 66.92 | 48.4 | 46.4 | 31.79 |
文化 | 法律 | 32.42 | 22.83 | 44.29 | 70.78 | 57.53 | 61.19 | 41.55 |
文化 | 政治 | 54.76 | 33.33 | 59.52 | 88.1 | 83.33 | 89.29 | 65.48 |
文化 | 流行文化 | 60.98 | 34.15 | 60.98 | 97.56 | 85.37 | 92.68 | 75.61 |
文化 | 社會 | 54.37 | 31.72 | 65.05 | 92.88 | 85.44 | 86.73 | 71.2 |
文化 | 傳統 | 47.75 | 31.98 | 54.95 | 87.39 | 74.77 | 79.28 | 55.86 |
語言 | 功能 | 37.6 | 24 | 32.8 | 84.8 | 64.8 | 80 | 40 |
語言 | 語法 | 27.5 | 23.33 | 22.92 | 57.08 | 42.5 | 47.5 | 30 |
語言 | 文本 | 54.74 | 33.33 | 59.65 | 91.58 | 80.7 | 87.37 | 62.11 |
HAERAE
類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
常識 | 31.25 | 28.41 | 34.66 | 77.27 | 53.41 | 66.48 | 40.91 |
歷史 | 32.45 | 22.34 | 44.15 | 92.02 | 84.57 | 78.72 | 30.32 |
外來詞 | 47.93 | 35.5 | 63.31 | 79.88 | 76.33 | 78.11 | 59.17 |
生僻詞 | 55.06 | 42.96 | 63.21 | 87.9 | 81.98 | 79.01 | 61.23 |
閱讀理解 | 42.95 | 41.16 | 51.9 | 85.46 | 77.18 | 80.09 | 56.15 |
標準命名法 | 44.44 | 32.68 | 58.82 | 88.89 | 75.82 | 79.08 | 53.59 |
總體 | 44.21 | 36.41 | 53.9 | 85.7 | 76.4 | 77.76 | 52.67 |
KMMLU (0-shot, CoT)
超級類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
應用科學 | 35.8 | 31.68 | 37.03 | 61.52 | 49.29 | 55.98 | 38.47 |
人文社科 | 31.56 | 26.47 | 37.29 | 69.45 | 56.59 | 63 | 40.9 |
其他 | 35.45 | 31.01 | 39.15 | 63.79 | 52.35 | 57.53 | 40.19 |
科學技術 | 38.54 | 31.9 | 40.42 | 65.16 | 54.74 | 60.84 | 42.24 |
總體 | 35.87 | 30.82 | 38.54 | 64.26 | 52.63 | 58.75 | 40.3 |
KMMLU (5-shot)
超級類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
應用科學 | 37.42 | 29.98 | 19.24 | 61.47 | 48.66 | 56.85 | 40.22 |
人文社科 | 34.72 | 27.27 | 22.5 | 68.79 | 55.95 | 63.68 | 43.35 |
其他 | 37.04 | 30.76 | 20.95 | 64.21 | 51.1 | 57.85 | 41.92 |
科學技術 | 38.9 | 30.73 | 19.55 | 65.28 | 53.29 | 61.08 | 44.43 |
總體 | 37.35 | 29.98 | 20.21 | 64.28 | 51.62 | 59.29 | 42.28 |
KMMLU-HARD (0-shot, CoT)
超級類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
應用科學 | 27.08 | 26.17 | 26.25 | 37.12 | 22.25 | 29.17 | 21.07 |
人文社科 | 20.21 | 24.38 | 20.21 | 41.97 | 23.31 | 31.51 | 19.44 |
其他 | 23.05 | 24.82 | 23.88 | 40.39 | 26.48 | 29.59 | 22.22 |
科學技術 | 24.36 | 26.91 | 24.64 | 39.82 | 26.36 | 32.18 | 20.91 |
總體 | 24 | 25.68 | 24.03 | 39.62 | 24.56 | 30.56 | 20.97 |
KMMLU-HARD (5-shot)
超級類別 | Phi-3.5-Mini-Instruct | Phi-3.0-Mini-128k-Instruct (June2024) | Llama-3.1-8B-Instruct | GPT-4o | GPT-4o-mini | GPT-4-turbo | GPT-3.5-turbo |
---|---|---|---|---|---|---|---|
應用科學 | 25 | 29 | 12 | 31 | 21 | 25 | 20 |
人文社科 | 21.89 | 19.92 | 14 | 43.98 | 23.47 | 33.53 | 19.53 |
其他 | 23.26 | 27.27 | 12.83 | 39.84 | 28.34 | 29.68 | 23.22 |
科學技術 | 20.5 | 25.25 | 12.75 | 40.25 | 23.25 | 27.25 | 19.75 |
總體 | 24.76 | 25.73 | 15.81 | 40.94 | 24.63 | 31.12 | 21.19 |



