🚀 Phi 3 Mini 4K Instruct GGUF
このリポジトリには、MicrosoftのPhi 3 Mini 4K InstructのGGUF形式のモデルファイルが含まれています。Phi-3-Mini-4K-Instructは、38億パラメータの軽量で最先端のオープンモデルで、Phi-3データセットを使用してトレーニングされています。このデータセットには合成データと公開されているウェブサイトのフィルタリングされたデータが含まれ、高品質で推論に重点が置かれています。
更新情報: 2024年7月21日現在、Microsoftの最新のモデル変更を反映しています。
オリジナルモデル: Phi-3-mini-4k-instruct
モデル作成者: Microsoft
詳細については、Microsoftのモデルページを参照してください。
📦 モデル情報
📚 詳細説明
なぜGGUF?
GGUFはAIモデルを表すためのファイル形式です。2023年8月21日にllama.cppチームによって導入された第3版の形式です。GGMLの代替となるもので、現在はllama.cppではGGMLがサポートされていません。このモデルはllama.cppビルド3432(リビジョン 45f2c19)を使用し、autoggufで変換されています。
プロンプトテンプレート
<|system|>
{{system_prompt}}<|end|>
<|user|>
{{prompt}}<|end|>
<|assistant|>
📥 ダウンロードと実行
iPhone、iPad、Macでcnvrsを使ってダウンロードし、実行できます!

cnvrsは、デバイス上でプライベートなローカルAIを使用するための最適なアプリです。
📊 オリジナルモデルの評価
7月のアップデートと4月のリリース版の比較:
ベンチマーク |
オリジナル |
2024年6月アップデート |
Instruction Extra Hard |
5.7 |
6.0 |
Instruction Hard |
4.9 |
5.1 |
Instructions Challenge |
24.6 |
42.3 |
JSON Structure Output |
11.5 |
52.3 |
XML Structure Output |
14.4 |
49.8 |
GPQA |
23.7 |
30.6 |
MMLU |
68.8 |
70.9 |
平均 |
21.9 |
36.7 |
4月のリリース版
標準的な方法として、温度0でのfew-shotプロンプトを使用してモデルを評価しています。プロンプトとショット数は、Microsoftの内部ツールの一部であり、特にPhi-3のパイプラインに対する最適化は行っていません。具体的には、プロンプトの変更、異なるfew-shot例の選択、プロンプト形式の変更、またはモデルに対する他の形式の最適化は行っていません。各ベンチマークごとのk-shot例の数が記載されています。
|
Phi-3-Mini-4K-In 3.8b |
Phi-2 2.7b |
Mistral 7b |
Gemma 7b |
Llama-3-In 8b |
Mixtral 8x7b |
GPT-3.5 version 1106 |
MMLU 5-Shot |
68.8 |
56.3 |
61.7 |
63.6 |
66.5 |
68.4 |
71.4 |
HellaSwag 5-Shot |
76.7 |
53.6 |
58.5 |
49.8 |
71.1 |
70.4 |
78.8 |
ANLI 7-Shot |
52.8 |
42.5 |
47.1 |
48.7 |
57.3 |
55.2 |
58.1 |
GSM-8K 0-Shot; CoT |
82.5 |
61.1 |
46.4 |
59.8 |
77.4 |
64.7 |
78.1 |
MedQA 2-Shot |
53.8 |
40.9 |
49.6 |
50.0 |
60.5 |
62.2 |
63.4 |
AGIEval 0-Shot |
37.5 |
29.8 |
35.1 |
42.1 |
42.0 |
45.2 |
48.4 |
TriviaQA 5-Shot |
64.0 |
45.2 |
72.3 |
75.2 |
67.7 |
82.2 |
85.8 |
Arc-C 10-Shot |
84.9 |
75.9 |
78.6 |
78.3 |
82.8 |
87.3 |
87.4 |
Arc-E 10-Shot |
94.6 |
88.5 |
90.6 |
91.4 |
93.4 |
95.6 |
96.3 |
PIQA 5-Shot |
84.2 |
60.2 |
77.7 |
78.1 |
75.7 |
86.0 |
86.6 |
SociQA 5-Shot |
76.6 |
68.3 |
74.6 |
65.5 |
73.9 |
75.9 |
68.3 |
BigBench-Hard 0-Shot |
71.7 |
59.4 |
57.3 |
59.6 |
51.5 |
69.7 |
68.32 |
WinoGrande 5-Shot |
70.8 |
54.7 |
54.2 |
55.6 |
65 |
62.0 |
68.8 |
OpenBookQA 10-Shot |
83.2 |
73.6 |
79.8 |
78.6 |
82.6 |
85.8 |
86.0 |
BoolQ 0-Shot |
77.6 |
-- |
72.2 |
66.0 |
80.9 |
77.6 |
79.1 |
CommonSenseQA 10-Shot |
80.2 |
69.3 |
72.6 |
76.2 |
79 |
78.1 |
79.6 |
TruthfulQA 10-Shot |
65.0 |
-- |
52.1 |
53.0 |
63.2 |
60.1 |
85.8 |
HumanEval 0-Shot |
59.1 |
47.0 |
28.0 |
34.1 |
60.4 |
37.8 |
62.2 |
MBPP 3-Shot |
53.8 |
60.6 |
50.8 |
51.5 |
67.7 |
60.2 |
77.8 |