Vica2 Stage2 Onevision Ft
ViCA2は70億パラメータ規模のマルチモーダル視覚言語モデルで、動画理解と視覚空間認知タスクに特化しています。
Downloads 63
Release Time : 4/21/2025
Model Overview
ViCA2はLLaVAやSigLIPなどの先進的なアーキテクチャを基に構築されたマルチモーダルモデルで、動画テキストからテキストへのタスク処理に優れ、強力な視覚空間推論能力を備えています。
Model Features
マルチモーダル理解
視覚と言語情報を統合し、クロスモーダルな理解と分析を実現
動画理解
動画コンテンツに特化した処理能力
空間推論
視覚空間認知と推論能力を備えている
先進的アーキテクチャ
SigLIP、Hiera、SAM2など様々な先進技術を融合
Model Capabilities
動画コンテンツ理解
視覚空間推論
クロスモーダル情報処理
動画テキスト生成
Use Cases
動画分析
動画コンテンツ記述生成
動画内容に基づいて自動的にテキスト記述を生成
動画質問応答システム
動画内容に関する複雑な質問に回答
空間認知
空間関係推論
動画中の物体の空間関係を分析
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98