P

Phi 4 Multimodal Instruct

由Robeeeeeeeeeee開發
Phi-4-multimodal-instruct是一款輕量級開源多模態基礎模型,融合了Phi-3.5和4.0模型的語言、視覺及語音研究與數據集。支持文本、圖像和音頻輸入,生成文本輸出,並具備128K標記的上下文長度。
下載量 21
發布時間 : 2/28/2025

模型概述

該模型通過監督微調、直接偏好優化及人類反饋強化學習(RLHF)的增強流程,在指令遵循精確性和安全措施方面表現優異。適用於廣泛的商業與研究用途,支持多語言和多模態任務。

模型特點

多模態支持
同時支持文本、圖像和音頻輸入,生成文本輸出,實現跨模態理解和交互。
長上下文處理
具備128K標記的上下文長度,能夠處理長文檔和複雜對話。
多語言能力
支持23種語言的文本處理,8種語言的音頻處理,具備強大的跨語言能力。
輕量級設計
優化後的架構適合內存/計算受限環境和低延遲場景。
強化學習優化
通過監督微調、直接偏好優化及人類反饋強化學習(RLHF)增強模型性能。

模型能力

文本生成
圖像理解
語音識別
語音翻譯
語音摘要
視覺問答
光學字符識別
圖表與表格理解
多圖像對比
視頻片段摘要
音頻理解
函數與工具調用
數學與邏輯推理

使用案例

語音處理
語音識別
將語音轉換為文本,支持多種語言。
詞錯誤率低至6.14%,在Huggingface OpenASR排行榜位列第一。
語音翻譯
即時將一種語言的語音翻譯為另一種語言的文本。
性能超越WhisperV3和SeamlessM4T-v2-Large。
語音摘要
從語音內容中提取關鍵信息生成摘要。
性能接近GPT4o。
視覺理解
視覺問答
根據圖像內容回答相關問題。
在AI2D基準測試中得分68.9,接近Gemini-2.0-Flash。
數學問題求解
通過視覺輸入解決複雜數學問題。
展示強大的圖像處理與方程求解能力。
智能助手
旅行規劃
通過語音分析幫助規劃旅行路線。
展示高級音頻處理與推薦能力。
內容創作
根據多模態輸入生成故事或內容。
在故事活現演示中展示創意生成能力。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase