P

Phi 4 Multimodal Instruct

由microsoft開發
Phi-4-multimodal-instruct是一款輕量級開源多模態基礎模型,融合了Phi-3.5和4.0模型的語言、視覺及語音研究數據。支持文本、圖像和音頻輸入,生成文本輸出,並具備128K token的上下文長度。
下載量 584.02k
發布時間 : 2/24/2025

模型概述

該模型支持多語言和多模態輸入,適用於文本、視覺和音頻處理任務,特別適合內存/計算受限環境和低延遲場景。

模型特點

多模態支持
支持文本、圖像和音頻輸入,生成文本輸出,統一處理多模態信息。
多語言能力
支持多種語言的文本處理和語音識別/翻譯。
輕量級設計
適合內存/計算受限環境和低延遲場景。
強推理能力
在數學與邏輯推理方面表現優異。
函數與工具調用
支持函數調用和工具集成。

模型能力

文本生成
圖像理解
語音識別
語音翻譯
語音摘要
音頻理解
視覺問答
光學字符識別
圖表與表格理解
多圖像對比
多圖像或視頻片段摘要

使用案例

語音處理
語音轉錄
將音頻轉錄為文本
詞錯誤率低至6.14%
語音翻譯
將語音翻譯為其他語言
支持多種語言互譯
語音摘要
生成語音內容的摘要
性能接近GPT4o
視覺處理
視覺問答
回答關於圖像內容的問題
在多項基準中表現優異
數學問題求解
通過圖像輸入解決數學問題
展示圖像方程處理與求解能力
智能代理
任務執行
在複雜場景中展示推理與任務執行能力
作為智能代理處理多模態輸入
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase