🚀 Phi 3 Mini 4K Instruct GGUF
本項目提供了微軟 Phi 3 Mini 4K Instruct 模型的 GGUF 格式文件。Phi-3-Mini-4K-Instruct 是一個參數為 38 億的輕量級、最先進的開源模型,它基於 Phi-3 數據集進行訓練,該數據集包含合成數據和經過篩選的公開網站數據,注重高質量和強推理能力。
你可以在微軟的模型頁面瞭解更多信息。
🚀 快速開始
本倉庫包含了微軟 Phi 3 Mini 4K Instruct 的 GGUF 格式模型文件。
模型信息
什麼是 GGUF?
GGUF 是一種用於表示 AI 模型的文件格式。它是該格式的第三個版本,由 llama.cpp 團隊於 2023 年 8 月 21 日推出。它取代了 GGML,而 llama.cpp 不再支持 GGML。本模型使用 llama.cpp 構建 3432(修訂版本 45f2c19),通過 autogguf 進行轉換。
提示模板
<|system|>
{{system_prompt}}<|end|>
<|user|>
{{prompt}}<|end|>
<|assistant|>
📦 安裝指南
可在 iPhone、iPad 和 Mac 上使用 cnvrs 下載並運行該模型!

cnvrs 是在你的設備上運行私有、本地 AI 的最佳應用程序:
📚 詳細文檔
原始模型評估
7 月更新與 4 月原始版本對比
基準測試 |
原始版本 |
2024 年 6 月更新版本 |
Instruction Extra Hard |
5.7 |
6.0 |
Instruction Hard |
4.9 |
5.1 |
Instructions Challenge |
24.6 |
42.3 |
JSON Structure Output |
11.5 |
52.3 |
XML Structure Output |
14.4 |
49.8 |
GPQA |
23.7 |
30.6 |
MMLU |
68.8 |
70.9 |
平均 |
21.9 |
36.7 |
4 月原始版本
按照慣例,我們在溫度為 0 的情況下使用少樣本提示來評估模型。提示和樣本數量是微軟內部評估語言模型工具的一部分,特別是我們沒有針對 Phi-3 對評估流程進行優化。更具體地說,我們沒有更改提示、選擇不同的少樣本示例、更改提示格式或對模型進行任何其他形式的優化。每個基準測試的 k 樣本示例數量會列出。
|
Phi-3-Mini-4K-In 38 億參數 |
Phi-2 27 億參數 |
Mistral 70 億參數 |
Gemma 70 億參數 |
Llama-3-In 80 億參數 |
Mixtral 8x70 億參數 |
GPT-3.5 版本 1106 |
MMLU 5 樣本 |
68.8 |
56.3 |
61.7 |
63.6 |
66.5 |
68.4 |
71.4 |
HellaSwag 5 樣本 |
76.7 |
53.6 |
58.5 |
49.8 |
71.1 |
70.4 |
78.8 |
ANLI 7 樣本 |
52.8 |
42.5 |
47.1 |
48.7 |
57.3 |
55.2 |
58.1 |
GSM-8K 0 樣本; CoT |
82.5 |
61.1 |
46.4 |
59.8 |
77.4 |
64.7 |
78.1 |
MedQA 2 樣本 |
53.8 |
40.9 |
49.6 |
50.0 |
60.5 |
62.2 |
63.4 |
AGIEval 0 樣本 |
37.5 |
29.8 |
35.1 |
42.1 |
42.0 |
45.2 |
48.4 |
TriviaQA 5 樣本 |
64.0 |
45.2 |
72.3 |
75.2 |
67.7 |
82.2 |
85.8 |
Arc-C 10 樣本 |
84.9 |
75.9 |
78.6 |
78.3 |
82.8 |
87.3 |
87.4 |
Arc-E 10 樣本 |
94.6 |
88.5 |
90.6 |
91.4 |
93.4 |
95.6 |
96.3 |
PIQA 5 樣本 |
84.2 |
60.2 |
77.7 |
78.1 |
75.7 |
86.0 |
86.6 |
SociQA 5 樣本 |
76.6 |
68.3 |
74.6 |
65.5 |
73.9 |
75.9 |
68.3 |
BigBench-Hard 0 樣本 |
71.7 |
59.4 |
57.3 |
59.6 |
51.5 |
69.7 |
68.32 |
WinoGrande 5 樣本 |
70.8 |
54.7 |
54.2 |
55.6 |
65 |
62.0 |
68.8 |
OpenBookQA 10 樣本 |
83.2 |
73.6 |
79.8 |
78.6 |
82.6 |
85.8 |
86.0 |
BoolQ 0 樣本 |
77.6 |
-- |
72.2 |
66.0 |
80.9 |
77.6 |
79.1 |
CommonSenseQA 10 樣本 |
80.2 |
69.3 |
72.6 |
76.2 |
79 |
78.1 |
79.6 |
TruthfulQA 10 樣本 |
65.0 |
-- |
52.1 |
53.0 |
63.2 |
60.1 |
85.8 |
HumanEval 0 樣本 |
59.1 |
47.0 |
28.0 |
34.1 |
60.4 |
37.8 |
62.2 |
MBPP 3 樣本 |
53.8 |
60.6 |
50.8 |
51.5 |
67.7 |
60.2 |
77.8 |
注意事項
本項目已根據 2024 年 7 月 21 日微軟的最新模型更改進行了更新。
原始模型:Phi-3-mini-4k-instruct
模型創建者:Microsoft