P

Phi 3.5 Vision Instruct

由FriendliAI開發
Phi-3.5-vision是一款輕量級、先進的開源多模態模型,支持128K上下文長度,專注於高質量、富含推理的文本和視覺數據處理。
下載量 370
發布時間 : 3/4/2025

模型概述

基於Phi-3模型家族的多模態版本,經過嚴格增強過程,結合監督微調與直接偏好優化,確保精確遵循指令和強大的安全措施。

模型特點

多模態支持
同時處理文本和圖像輸入,支持多幀圖像理解和推理
長上下文處理
支持128K token的上下文長度,適合處理長文檔和多圖像輸入
輕量高效
針對內存/計算受限環境和低延遲場景優化
安全對齊
經過嚴格的安全後訓練,減少有害內容生成風險

模型能力

通用圖像理解
光學字符識別
圖表和表格理解
多圖像比較
多圖像或視頻剪輯摘要
文本生成
視覺推理

使用案例

辦公自動化
幻燈片摘要
自動分析並總結演示文稿內容
能夠準確提取關鍵信息並生成簡潔摘要
文檔理解
解析PDF、PPT等文檔中的文字和圖表
在TextVQA基準測試中達到72.0分
教育
科學問題解答
回答基於圖像的科學問題
在ScienceQA測試集上達到91.3%準確率
數學推理
解決視覺數學問題
在MathVista測試集上達到43.9分
內容分析
視頻摘要
生成短視頻內容的摘要
在Video-MME基準測試中短視頻處理得分60.8
圖像比較
分析多張圖像的相似與差異
在多視圖推理任務中得分54.1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase