P

Phi 3.5 Vision Instruct

由microsoft開發
Phi-3.5-vision 是一款輕量級、前沿的開放多模態模型,支持128K上下文長度,專注於高質量、富含推理的文本和視覺數據。
下載量 397.38k
發布時間 : 8/16/2024

模型概述

該模型屬於Phi-3模型家族,支持多模態輸入,適用於圖像理解、OCR、圖表和表格理解等任務,經過監督微調和直接偏好優化以確保精確的指令遵循和安全措施。

模型特點

多模態支持
支持圖像和文本的聯合處理,能夠理解視覺內容並生成相關文本響應。
長上下文支持
支持128K的上下文長度(以token計),適合處理長文檔或多圖像輸入。
輕量級設計
針對內存和計算受限的環境優化,適合延遲敏感的場景。
多幀圖像理解
支持多圖像比較、摘要和視頻片段理解,適用於複雜的視覺任務。

模型能力

通用圖像理解
光學字符識別(OCR)
圖表和表格理解
多圖像比較
多圖像或視頻片段摘要
文本生成

使用案例

辦公場景
幻燈片摘要
自動分析並總結PPT幻燈片內容。
可處理多達20幀的連續幻燈片輸入。
文檔理解
解析包含文本和圖像的複雜文檔。
在TextVQA基準測試中達到72.0的準確率。
視覺推理
圖像比較
比較多張圖像的相似性和差異性。
在BLINK基準測試的視覺相似性任務中達到83.0分。
視頻摘要
從視頻片段中提取關鍵信息並生成摘要。
在Video-MME基準測試中短視頻處理達到60.8分。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase