C

Chat UniVi

Chat-UniViによって開発
Chat-UniViは統一視覚表現の大規模言語モデルで、画像と動画の内容を同時に理解できます。
ダウンロード数 12.10k
リリース時間 : 9/28/2023

モデル概要

Chat-UniViは動的視覚マーキングセットによって画像と動画を統一表現し、大規模言語モデルが両方の視覚メディアの理解タスクを同時に処理できるようにします。

モデル特徴

統一視覚表現
動的視覚マーキングセットを採用し、画像と動画を統一表現することで、空間的詳細と時間的関係を同時に捕捉
共同トレーニング戦略
画像と動画を含む混合データセットでトレーニングを行い、両メディアのタスクに直接適用可能
補完的学習効果
画像と動画の共同トレーニングにより補完的学習効果が得られ、単一メディア専用モデルよりも優れた性能

モデル能力

動画内容理解
画像内容理解
マルチモーダル対話
視覚的質問応答
動画説明生成
画像説明生成

使用事例

内容理解
動画内容要約
動画内容のテキスト説明と要約を自動生成
動画中のキーイベントと時間的関係を正確に捕捉可能
画像内容分析
画像中のオブジェクト、シーン、関係を理解
画像内容と空間的関係を詳細に記述可能
インテリジェントインタラクション
マルチモーダル対話システム
視覚内容に基づく自然言語対話
ユーザーの質問を理解し、視覚内容に基づいて適切な回答を提供可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase