Phi-mini-MoE-instruct-GGUFオープンソースモデル - 軽量級で英語のビジネス研究をサポートし、低リソースで低遅延で利用可能

ホーム

Phi Mini MoE Instruct GGUF

gabriellarsonによって開発

Phi-mini-MoEは、英語のビジネスや研究シーンに適した軽量級のエキスパートミックス（MoE）モデルで、リソースが制限された環境や低遅延シーンで優れた性能を発揮します。

大規模言語モデル英語オープンソースライセンス:MIT #軽量級MoE #低遅延推論 #英語ビジネスアシスタント

ダウンロード数 2,458

リリース時間 : 6/24/2025

モデル概要

Phi-mini-MoEは軽量級のエキスパートミックスモデルで、SlimMoE手法を用いてPhi-3.5-MoEとGRIN-MoEの基礎モデルから圧縮・蒸留され、汎用AIシステムやリソース制限のある環境に適しています。

モデル特徴

軽量級設計

総パラメータ76億、活性化パラメータ24億で、リソース制限のある環境に適しています。

効率的な圧縮と蒸留

SlimMoE手法を用いてPhi-3.5-MoEとGRIN-MoEの基礎モデルから圧縮・蒸留されています。

多シーン対応

汎用AIシステムやメモリ、計算リソースに制約があり、低遅延が要求されるシーンに適しています。

高品質の学習データ

学習データには4000億個のトークンが含まれ、高品質の公開文書、合成教育データ、チャット形式の監督データが含まれています。

モデル能力

テキスト生成

命令遵守

数学的推論

コード生成

常識的推論

使用事例

ビジネスアプリケーション

カスタマーサービスアシスタント

顧客の問い合わせを処理し、サポートを提供するために使用されます。

低遅延環境で迅速な応答を提供します。

研究

学術研究支援

研究者が研究内容を生成し、整理するのを支援します。

高品質のテキスト生成と推論サポートを提供します。

🚀 Phi-mini-MoEモデル

Phi-mini-MoEは、軽量なエキスパート混合（MoE）モデルで、英語の商用および研究シーンに使用でき、メモリや計算資源が制限された環境や低遅延が要求されるシーンで優れた性能を発揮します。

🚀 クイックスタート

推奨サンプラーパラメータ

--repeat-penalty 1.05 --temp 0.0 --top-p 1.0 --top-k 1

ローカルでのモデル読み込み

Phi-mini-MoEモデルのチェックポイントを取得した後、以下のサンプルコードを使用して推論を行うことができます。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline 
torch.random.manual_seed(0) 
model = AutoModelForCausalLM.from_pretrained( 
    "microsoft/Phi-mini-MoE-instruct",  
    device_map="cuda",  
    torch_dtype="auto",  
    trust_remote_code=True,  
) 
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-mini-MoE-instruct") 
messages = [ 
    {"role": "system", "content": "You are a helpful AI assistant."}, 
    {"role": "user", "content": "Can you provide ways to eat combinations of bananas and dragonfruits?"}, 
    {"role": "assistant", "content": "Sure! Here are some ways to eat bananas and dragonfruits together: 1. Banana and dragonfruit smoothie: Blend bananas and dragonfruits together with some milk and honey. 2. Banana and dragonfruit salad: Mix sliced bananas and dragonfruits together with some lemon juice and honey."}, 
    {"role": "user", "content": "What about solving an 2x + 3 = 7 equation?"}, 
] 
pipe = pipeline( 
    "text-generation", 
    model=model, 
    tokenizer=tokenizer, 
) 
generation_args = { 
    "max_new_tokens": 500, 
    "return_full_text": False, 
    "temperature": 0.0, 
    "do_sample": False, 
} 
output = pipe(messages, **generation_args) 
print(output[0]['generated_text'])

✨ 主な機能

軽量設計：総パラメータ数が76億、アクティブなパラメータ数が24億で、リソースが制限された環境に適しています。
効率的な圧縮と蒸留：SlimMoE手法を用いて、Phi-3.5-MoEとGRIN-MoEのベースモデルから圧縮・蒸留されています。
多様なシーンへの適用性：汎用AIシステムや、メモリ・計算資源が制限されたシーン、低遅延が要求されるシーンに適しています。

📚 ドキュメント

モデルの概要

Phi-mini-MoEは軽量なエキスパート混合（MoE）モデルで、総パラメータ数が76億、アクティブなパラメータ数が24億です。SlimMoE手法を用いて、Phi-3.5-MoEとGRIN-MoEのベースモデルから圧縮・蒸留され、その後、教師付き微調整（SFT）と直接的な嗜好最適化（DPO）による事後学習が行われ、命令に従う能力と安全性が実現されています。このモデルは、Phi-3合成データと選別された公開ドキュメントを用いて学習され、特に高品質で推論に富んだ内容に焦点を当てています。また、SlimMoEシリーズの一部であり、同シリーズには総パラメータ数38億、アクティブなパラメータ数11億のより小さなバリエーションPhi-tiny-MoEも含まれています。

想定される用途

主な使用例

このモデルは、英語の商用および研究用途を想定しています。汎用AIシステムや、メモリ・計算資源が制限されたシーン、低遅延が要求されるシーンに適しています。

使用例の考慮事項

当社のモデルは、すべての下流の用途に対して設計または評価されているわけではありません。開発者は、言語モデルの一般的な制限を考慮し、特定の下流の使用例で使用する前に、精度、安全性、公平性の問題を評価し、緩和策を講じる必要があります。特に、高リスクのシーンでは、開発者は、使用例に関連する適用可能な法律および規制（プライバシー、貿易規制など）を理解し、遵守する必要があります。

入力形式

学習データの性質上、Phi-mini-MoEモデルは以下のチャット形式のプロンプトを使用するのが最適です。

<|system|>
You are a helpful assistant.<|end|>
<|user|>
How to explain Internet for a medieval knight?<|end|>
<|assistant|>

ベンチマークテスト

モデルの能力を把握するため、lm-evaluation-harnessを使用して、様々なベンチマークテストでPhi-mini-MoEを一連のモデルと比較しました。詳細な評価設定は、SlimMoE論文に記載されています。

モデル	総パラメータ	アクティブパラメータ	MMLU	MMLU pro	BBH	Arc-C (chat)	Human-eval	GSM8K	MT-bench
MoEモデル
Phi-3.5-MoE	42B	6.6B	78.36	59.38	63.93	91.38	81.70	87.87	8.34
Qwen 1.5 MoE	14B	2.7B	60.73	26.49	42.65	67.24	46.30	53.07	6.55
DeepSeek V2 Lite	16B	2.4B	56.69	17.89	36.30	61.09	54.40	63.23	6.82
OL-MoE	7B	1.3B	54.27	20.87	38.00	55.63	37.80	71.49	6.60
Granite 3.0 MoE	3.4B	0.8B	50.06	4.82	39.65	56.06	51.80	60.12	6.91
密集モデル
LLaMA 3.1 8B	8B	8B	68.71	45.28	50.86	82.42	69.50	84.84	8.03
Qwen 2.5 7B	7.6B	7.6B	73.47	56.24	53.74	88.82	81.70	84.84	8.34
Phi 3 small	7.4B	7.4B	75.35	52.06	62.07	84.30	70.10	84.84	8.03
Gemma 3 4B	4B	4B	59.49	40.13	49.45	75.85	67.10	78.92	8.28
Phi 3 mini	3.8B	3.8B	69.94	45.65	54.94	85.58	72.60	84.61	7.46
LLaMA 3.2 3B	3.2B	3.2B	61.73	36.70	45.46	75.77	52.40	77.41	7.46
Qwen 2.5 3B	3B	3B	65.06	41.00	46.61	80.20	73.80	76.57	7.60
Gemma 3 1B	1B	1B	40.80	14.70	34.80	37.46	41.50	41.77	6.67
LLaMA 3.2 1B	1B	1B	46.30	18.67	35.18	49.91	35.40	44.96	5.23
SlimMoEモデル
Phi-mini-MoE	7.6B	2.4B	70.68	49.68	55.27	84.91	73.80	84.89	7.59
Phi-tiny-MoE	3.8B	1.1B	60.83	36.34	45.58	76.37	58.50	78.47	7.05

学習

モデル

属性	詳細
アーキテクチャ	Phi-mini-MoEは総パラメータ数76億、アクティブなパラメータ数24億の、デコーダーのみのエキスパート混合Transformerモデルで、語彙数32064のトークナイザーを使用しています。
入力	テキスト。チャット形式のプロンプトを使用するのが最適です。
コンテキスト長	4kトークン
GPU	64台のA100 - 80G
学習時間	11日
学習データ	4000億トークン
出力	入力に対して生成されたテキスト
日付	2024年9月から2025年3月の間に学習されました。
状態	これは、2023年10月までの公開データを用いたオフラインデータセットで学習された静的モデルです。

学習データセット

当社の学習データは、Phi-3データセットのサブセットで、4000億トークンを含み、複数のソースから構成され、以下の内容の組み合わせです。

厳格な品質選別が行われた公開ドキュメント、選りすぐりの高品質教育データ、およびコード。
数学、コーディング、一般常識推論、世界常識（科学、日常活動、マインド理論など）を教えるために新たに作成された合成「教科書的」データ。
様々なトピックをカバーする高品質のチャット形式の教師付きデータで、人間の命令遵守、真実性、誠実性、有用性などの様々な側面の嗜好を反映しています。

詳細なデータ情報は、Phi-3技術レポートで確認できます。

責任あるAIに関する考慮事項

他の言語モデルと同様に、Phi-mini-MoEは不公平、信頼できない、または不快な行動を示す可能性があります。注意すべき制限的な動作には、以下のようなものがあります。

サービス品質：このモデルは主に英語テキストと一部の多言語テキストで学習されています。非英語の性能は低下し、非英語間でも性能に差があります。学習データでの代表度が低い英語のバリエーションは、標準的なアメリカ英語よりも性能が低くなる可能性があります。
不公平な表現とステレオタイプの拡大：これらのモデルは、特定のグループを過大または過小に表現し、一部のグループの表現を抹消し、または貶めるもしくは否定的なステレオタイプを強化する可能性があります。安全面での事後学習が行われていますが、異なるグループの代表度の違い、文化的背景の違い、または学習データに反映される現実世界のパターンや社会的偏見の否定的なステレオタイプの例が多いため、これらの制限は依然として存在する可能性があります。
不適切または不快な内容：これらのモデルは、他の種類の不適切または不快な内容を生成する可能性があり、特定の使用例に対する追加の緩和策がない場合、敏感な環境での展開には適さない可能性があります。
情報の信頼性：言語モデルは無意味な内容を生成したり、合理的に聞こえるが不正確または古い内容を作り出したりする可能性があります。
コードの範囲が限られている：Phi-3の学習データの大部分はPythonに基づいており、「typing, math, random, collections, datetime, itertools」などの一般的なパッケージが使用されています。モデルが他のパッケージを使用するPythonスクリプトや他の言語のスクリプトを生成する場合、ユーザーはすべてのAPIの使用を手動で検証することを強くお勧めします。
高いECI：モデルは選挙に関する重要なクエリに対する応答で欠陥率が高く、これにより不正確または信頼できない選挙関連情報が表示される可能性があります。ユーザーは、選挙関連の情報については、所在地区の選挙機関に確認する必要があります。
長い会話：他のモデルと同様に、Phi-3モデルは、非常に長い英語および非英語のチャットセッションで、繰り返し、無駄、または矛盾した応答を生成する可能性があります。開発者は、適切な緩和策を講じることを推奨します。例えば、会話のドリフトを考慮して会話のターン数を制限するなどです。

開発者は、責任あるAIのベストプラクティスを適用し、特定の使用例や文化、言語的背景に関連するリスクを特定、測定、緩和する必要があります。考慮すべき重要な分野には、以下のようなものがあります。

配分：さらなる評価や追加のバイアス除去技術がない場合、このモデルは、法的地位、資源配分、または生活の機会（住宅、雇用、信用など）に重大な影響を与えるシーンには適さない可能性があります。
高リスクシーン：開発者は、高リスクシーンでのモデルの使用適性を評価する必要があります。このようなシーンでは、不公平、信頼できない、または不快な出力が非常に高いコストや損害をもたらす可能性があります。これには、正確性と信頼性が重要な敏感なまたは専門的な分野でのアドバイスの提供（法律や健康に関するアドバイスなど）が含まれます。展開環境に応じて、アプリケーションレベルで追加の保障措置を実施する必要があります。
誤情報：モデルは不正確な情報を生成する可能性があります。開発者は、透明性のベストプラクティスに従い、最終ユーザーにAIシステムとやり取りしていることを通知する必要があります。アプリケーションレベルでは、開発者は、特定の使用例のコンテキスト情報に基づいて応答を検証するフィードバックメカニズムとパイプラインを構築することができます。この技術は、検索強化生成（RAG）と呼ばれます。
有害な内容の生成：開発者は、コンテキストに基づいて出力を評価し、使用例に適した利用可能なセキュリティ分類器またはカスタムソリューションを使用する必要があります。
乱用：詐欺、スパム、またはマルウェアの生成など、他の形態の乱用が存在する可能性があります。開発者は、アプリケーションが適用される法律および規制に違反しないようにする必要があります。

ソフトウェア

ハードウェア

デフォルトでは、Phi-mini-MoEモデルはFlash Attentionを使用しており、これは特定のタイプのGPUハードウェアが必要です。以下のGPUタイプでテストされています。

NVIDIA A100
NVIDIA A6000
NVIDIA H100

📄 ライセンス

このモデルはMITライセンスに基づいています。

商標

このプロジェクトには、プロジェクト、製品、またはサービスの商標またはロゴが含まれる場合があります。マイクロソフトの商標またはロゴの使用許諾は、マイクロソフトの商標とブランドガイドラインに従う必要があります。このプロジェクトの修正版でマイクロソフトの商標またはロゴを使用する場合は、混乱を招いたり、マイクロソフトの後援を暗示したりしてはなりません。第三者の商標またはロゴの使用は、これらの第三者のポリシーに従う必要があります。