C

Chat UniVi 13B

Chat-UniViによって開発
Chat-UniViは統一された視覚表現を持つ大規模言語モデルで、画像と動画の内容を同時に理解できます。
ダウンロード数 57
リリース時間 : 11/21/2023

モデル概要

Chat-UniViは動的視覚トークンを用いて画像と動画を統一表現し、大規模言語モデルが2つの視覚メディアを効率的に処理できるようにします。画像と動画の理解タスクで優れた性能を発揮します。

モデル特徴

統一視覚表現
動的視覚トークンを使用して画像と動画を統一表現し、限られた視覚トークンで空間的詳細と時間的関係を効率的に捕捉
共同トレーニング戦略
画像と動画を含む混合データセットでトレーニングされ、2つのメディアタスクに直接適用可能
高性能補完学習
統一モデルとして、画像または動画専用に設計された専用手法よりも優れた性能

モデル能力

画像理解
動画理解
視覚的質問応答
動画説明生成
画像説明生成

使用事例

コンテンツ理解
動画コンテンツ説明
動画コンテンツのテキスト説明を自動生成
動画コンテンツを正確に説明するテキストを生成
画像コンテンツ分析
画像コンテンツを分析し関連質問に回答
正確な画像内容理解と回答を提供
メディア処理
動画要約
長い動画からキーコンテンツを抽出して要約を生成
簡潔で正確な動画要約を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase