O

Ovis2 1B Dev

由Isotr0py開發
Ovis2-1B是多模態大語言模型(MLLM)Ovis系列的最新成員,專注於視覺與文本嵌入的結構對齊,具有小模型高性能、強化推理能力、視頻與多圖處理以及多語言OCR增強等特性。
下載量 79
發布時間 : 4/9/2025

模型概述

Ovis2-1B是AIDC-AI發佈的多模態大語言模型,旨在實現視覺與文本嵌入的結構對齊。作為Ovis1.6的迭代升級,Ovis2在數據構建和訓練方法上均有顯著提升,特別適合處理複雜的視覺信息和多語言OCR任務。

模型特點

小模型高性能
通過優化訓練策略,使小規模模型實現更高能力密度,展現跨層級領先優勢。
強化推理能力
結合指令微調與偏好學習,顯著增強思維鏈(CoT)推理能力。
視頻與多圖處理
將視頻和多圖數據納入訓練,提升跨幀/跨圖像的複雜視覺信息處理能力。
多語言OCR增強
在英漢雙語基礎上優化多語言OCR能力,提升從表格/圖表等複雜視覺元素中提取結構化數據的效果。

模型能力

圖像理解
文本生成
視頻理解
多圖分析
多語言OCR
複雜推理

使用案例

視覺問答
圖像內容描述
對輸入圖像進行詳細描述
在MMBench-V1.1測試集上達到68.4分
視覺推理
基於圖像內容進行邏輯推理
在MathVista測試精簡集上達到59.4分
文檔理解
表格數據提取
從複雜表格中提取結構化數據
在OCRBench上達到89.0分
視頻理解
視頻內容分析
理解視頻中的動作和場景
在VideoMME(帶字幕)上達到49.5分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase