C

Chat UniVi 7B V1.5

Chat-UniViによって開発
Chat-UniViは統一視覚表現を持つ大規模言語モデルで、画像と動画の内容を同時に理解できます。
ダウンロード数 649
リリース時間 : 4/12/2024

モデル概要

Chat-UniViは動的視覚トークンセットによって画像と動画を統一表現し、大規模言語モデルが2つの視覚メディアを同時に処理できるようにします。画像と動画の理解タスクの両方で優れた性能を発揮します。

モデル特徴

統一視覚表現
動的視覚トークンセットを採用し画像と動画を統一表現することで、モデルが2つの視覚メディアを同時に処理可能
共同トレーニング戦略
画像と動画を含む混合データセットでトレーニングされ、2つのメディアのタスクに直接適用可能
補完的学習
画像と動画の共同トレーニングにより、単一メディア専用モデルよりも両タスクで優れた性能

モデル能力

動画内容記述
画像内容記述
視覚的質問応答
クロスモーダル理解

使用事例

内容理解
動画内容要約
動画内容のテキスト記述を自動生成
動画のキーコンテンツと時間的関係を正確に捕捉
画像記述生成
画像の詳細なテキスト記述を生成
画像中のオブジェクト、シーン、空間的関係を認識可能
インテリジェントインタラクション
視覚的質問応答
画像や動画内容に関する質問に回答
視覚内容を理解し正確な回答を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase