O

Ovis2 1B Dev

Isotr0pyによって開発
Ovis2-1Bはマルチモーダル大規模言語モデル(MLLM)Ovisシリーズの最新メンバーで、視覚とテキストの埋め込み構造のアライメントに焦点を当て、小型モデルながら高性能、強化された推論能力、動画と複数画像処理、多言語OCR強化などの特徴を備えています。
ダウンロード数 79
リリース時間 : 4/9/2025

モデル概要

Ovis2-1BはAIDC-AIがリリースしたマルチモーダル大規模言語モデルで、視覚とテキストの埋め込み構造のアライメントを実現することを目的としています。Ovis1.6のイテレーションアップグレードとして、Ovis2はデータ構築とトレーニング方法の両方で大幅な改善が見られ、複雑な視覚情報と多言語OCRタスクの処理に特に適しています。

モデル特徴

小型モデル高性能
トレーニング戦略を最適化することで、小規模モデルがより高い能力密度を実現し、クロスレベルでのリーディングアドバンテージを示します。
強化された推論能力
命令微調整と選好学習を組み合わせることで、思考連鎖(CoT)推論能力を大幅に強化します。
動画と複数画像処理
動画と複数画像データをトレーニングに組み込むことで、フレーム間/画像間の複雑な視覚情報処理能力を向上させます。
多言語OCR強化
英語と中国語のバイリンガルベースで多言語OCR能力を最適化し、表/グラフなどの複雑な視覚要素から構造化データを抽出する効果を向上させます。

モデル能力

画像理解
テキスト生成
動画理解
複数画像分析
多言語OCR
複雑な推論

使用事例

視覚的質問応答
画像内容の説明
入力画像を詳細に説明する
MMBench-V1.1テストセットで68.4点を達成
視覚的推論
画像内容に基づいて論理的に推論する
MathVistaテスト簡易セットで59.4点を達成
ドキュメント理解
表データ抽出
複雑な表から構造化データを抽出する
OCRBenchで89.0点を達成
動画理解
動画内容分析
動画内のアクションとシーンを理解する
VideoMME(字幕付き)で49.5点を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase