P

Phi 4 Multimodal Instruct

由mjtechguy開發
Phi-4-multimodal-instruct是一個輕量級開源多模態基礎模型,支持文本、圖像和音頻輸入,生成文本輸出,具備128K標記的上下文長度。
下載量 18
發布時間 : 2/28/2025

模型概述

該模型融合了Phi-3.5和4.0模型的語言、視覺及語音研究數據,通過監督微調、直接偏好優化及人類反饋強化學習(RLHF)的增強流程,在指令遵循精確性和安全措施方面表現優異。

模型特點

多模態支持
支持文本、圖像和音頻輸入,生成文本輸出,具備128K標記的上下文長度。
多語言支持
支持多種語言的文本、視覺和音頻處理,覆蓋全球主要語言。
高性能
在自動語音識別和語音翻譯任務中超越WhisperV3和SeamlessM4T-v2-Large,Huggingface OpenASR排行榜第一。
輕量級
適用於內存/計算資源受限環境和延遲敏感場景。

模型能力

文本生成
圖像理解
語音識別
語音翻譯
語音摘要
視覺問答
光學字符識別
圖表與表格理解
多圖像對比
多圖像或視頻片段摘要
音頻理解

使用案例

商業應用
智能客服
通過多模態輸入提供精準的客戶服務響應。
語音翻譯
即時將語音翻譯成多種語言,支持跨語言溝通。
教育
視覺數學解題
通過圖像輸入解決複雜數學問題。
多語言學習
支持多語言文本和語音的學習輔助。
研究
多模態研究
用於多模態模型的研究和開發。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase