P

Phi 3 Vision 128k Instruct

由microsoft開發
Phi-3-Vision-128K-Instruct是一個輕量級、前沿的開放多模態模型,支持128K令牌的上下文長度,專注於文本和視覺領域的高質量推理。
下載量 25.19k
發布時間 : 5/19/2024

模型概述

該模型屬於Phi-3系列,支持多模態輸入(文本和圖像),適用於英語環境下的商業和研究用途,特別適合內存/計算受限的環境和延遲敏感的場景。

模型特點

多模態支持
支持文本和圖像輸入,能夠理解圖像內容並生成相關文本描述。
長上下文支持
支持128K令牌的上下文長度,適合處理長文本和複雜任務。
輕量級設計
模型參數規模適中,適合內存/計算受限的環境和延遲敏感的場景。
高質量訓練數據
訓練數據涵蓋合成數據和經過篩選的公開網站內容,聚焦於高質量、高推理密度的數據。

模型能力

文本生成
圖像理解
光學字符識別(OCR)
圖表和表格理解

使用案例

通用圖像理解
圖像描述生成
根據輸入的圖像生成詳細的文本描述。
生成準確且詳細的圖像描述,適用於無障礙應用和內容管理。
文檔處理
圖表理解
解析圖表中的信息並生成總結或分析。
能夠準確識別圖表中的數據和趨勢,生成有用的分析報告。
表格理解
從表格中提取信息並生成結構化數據或總結。
高效提取表格數據,適用於數據分析和報告生成。
商業應用
會議準備分析
分析會議準備情況的圖表數據,生成總結和建議。
提供深刻的討論問題和建議,幫助改進會議效率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase