Phi-4-multimodal-instruct-onnx多模態模型 - 開源免費支持文圖音輸入，加速推理

首頁

Phi 4 Multimodal Instruct Onnx

由microsoft開發

Phi-4多模態模型的ONNX版本，已量化為int4精度，通過ONNX Runtime加速推理，支持文本、圖像和音頻輸入。

多模態融合其他開源協議:MIT #多模態指令理解 #ONNX量化加速 #跨模態交互

下載量 159

發布時間 : 2/25/2025

模型概述

這是一個輕量級開源多模態基礎模型，結合了Phi-3.5和4.0模型的語言、視覺和語音研究，支持128K token的上下文長度。

模型特點

多模態支持

支持處理文本、圖像和音頻輸入，生成文本輸出。

高效推理

已量化為int4精度，通過ONNX Runtime加速推理。

長上下文支持

支持128K token的上下文長度。

輕量級

輕量級開源多模態基礎模型，適合多種應用場景。

模型能力

文本生成

圖像分析

語音識別

語音摘要

語音翻譯

視覺問答

使用案例

語音處理

自動語音識別

將語音轉換為文本。

語音摘要

生成語音內容的摘要。

語音翻譯

將語音內容翻譯為其他語言。

視覺處理

視覺問答

根據圖像內容回答問題。

🚀 Phi-4 多模態指令 ONNX 模型

這是一個 Phi-4 多模態模型的 ONNX 版本，該模型被量化為 int4 精度，以加速使用 ONNX Runtime 進行推理。

🚀 快速開始

模型運行

CPU 運行

請持續關注，或按照本教程為 CPU 生成你自己的 ONNX 模型！

CUDA 運行

# 使用 Hugging Face CLI 直接下載模型
huggingface-cli download microsoft/Phi-4-multimodal-instruct-onnx --include gpu/* --local-dir .

# 安裝 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda

# 請相應地調整模型目錄 (-m) 
curl https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi4-mm.py -o phi4-mm.py
python phi4-mm.py -m gpu/gpu-int4-rtn-block-32 -e cuda

DirectML 運行

# 使用 Hugging Face CLI 直接下載模型
huggingface-cli download microsoft/Phi-4-multimodal-instruct-onnx --include gpu/* --local-dir .

# 安裝 ONNX Runtime GenAI 的 DML 包
pip install --pre onnxruntime-genai-directml

# 請相應地調整模型目錄 (-m) 
curl https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi4-mm.py -o phi4-mm.py
python phi4-mm.py -m gpu/gpu-int4-rtn-block-32 -e dml

運行時，系統會提示你提供任何圖像、音頻和一個提示信息。

文本組件的性能與 Phi-4 迷你 ONNX 模型類似。

📚 詳細文檔

模型描述

屬性	詳情
模型類型	ONNX
開發者	微軟
許可證	MIT
模型說明	這是一個為 ONNX Runtime 推理而轉換的 Phi4 多模態模型。

免責聲明：該模型僅是對基礎模型的優化，與模型相關的任何風險由模型使用者承擔。請針對你的場景進行驗證和測試。應用優化後，輸出結果可能與基礎模型略有差異。

基礎模型

Phi-4-multimodal-instruct 是一個輕量級的開放多模態基礎模型，它利用了用於 Phi-3.5 和 4.0 模型的語言、視覺和語音研究及數據集。該模型可以處理文本、圖像和音頻輸入，生成文本輸出，並具有 128K 標記的上下文長度。該模型經過了增強處理，結合了監督微調（supervised fine-tuning）和直接偏好優化（direct preference optimization），以支持精確的指令遵循和安全措施。

詳情請見此處。