# 動画理解
Test With Sdfvd
MCG-NJU/videomae-baseをファインチューニングした動画理解モデルで、評価セットでのパフォーマンスは平均的(精度50%)
動画処理
Transformers

T
cocovani
16
0
Internvl3 8B Hf
Other
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。
画像生成テキスト
Transformers Other

I
OpenGVLab
454
1
Internvl3 1B Hf
Other
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。
画像生成テキスト
Transformers Other

I
OpenGVLab
1,844
2
Datatrain Videomae Base Finetuned Lr1e 07 Poly3
MCG-NJU/videomae-baseをベースにファインチューニングした動画理解モデル、未知のデータセットで訓練、精度は11.1%
動画処理
Transformers

D
EloiseInacio
13
0
Videomae Base Finetuned 1e 08 Bs4 Ep2
MCG-NJU/videomae-baseをベースにファインチューニングした動画理解モデルで、未知のデータセットでトレーニングされました
動画処理
Transformers

V
EloiseInacio
14
0
Qwen2.5 Omni 7B GPTQ 4bit
MIT
Qwen2.5-Omni-7Bモデルをベースとした4ビットGPTQ量子化バージョンで、多言語およびマルチモーダルタスクをサポートします。
マルチモーダル融合
Safetensors Supports Multiple Languages
Q
FunAGI
3,957
51
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame96 S1t6
革新的なスローファストアーキテクチャを採用し、動画理解における時間解像度と空間的詳細のバランスを取り、従来の大規模言語モデルのシーケンス長制限を克服しました。
ビデオ生成テキスト
Transformers

S
shi-labs
81
0
Videollama2.1 7B AV CoT
Apache-2.0
VideoLLaMA2.1-7B-AVはマルチモーダル大規模言語モデルで、視聴覚質問応答タスクに特化しており、動画と音声の入力を同時に処理し、高品質な質問応答と記述生成が可能です。
ビデオ生成テキスト
Transformers English

V
lym0302
34
0
Videomind 2B
Bsd-3-clause
VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセス(タスク分解、時間的定位と検証、回答合成など)を模倣することで動画推論能力を強化します。
ビデオ生成テキスト
V
yeliudev
207
1
Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4
スローファストアーキテクチャを採用した動画マルチモーダル大規模言語モデルで、時間解像度と空間詳細のバランスを取り、64フレームの動画理解をサポート
ビデオ生成テキスト
Transformers

S
shi-labs
184
0
Tinyllava Video Qwen2.5 3B Group 16 512
Apache-2.0
TinyLLaVA-VideoはQwen2.5-3Bとsiglip-so400m-patch14-384を基に構築された動画理解モデルで、グループリサンプラーを使用して動画フレームを処理します
ビデオ生成テキスト
T
Zhang199
76
0
Internvl 2 5 HiCo R16
Apache-2.0
InternVideo2.5は、長く豊富な文脈(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデル(MLLM)で、InternVL2.5上に構築されています。
テキスト生成ビデオ
Transformers English

I
FriendliAI
129
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf は動画ベースのマルチモーダルモデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。
ビデオ生成テキスト
Safetensors English
L
FriendliAI
30
0
Videomae Base Finetuned Signlanguage Last 3
MCG - NJU/videomae - baseをベースに微調整された動画理解モデルで、手話認識タスクに特化しています。
動画処理
Transformers

V
ihsanahakiim
21
1
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ は autoawq を使用して InternVL2_5-4B を AWQ 量子化したバージョンで、多言語およびマルチモーダルタスクをサポートします。
画像生成テキスト
Transformers Other

I
rootonchair
29
2
Magma 8B
MIT
MagmaはマルチモーダルAIエージェントの基盤モデルで、画像とテキスト入力を処理しテキスト出力を生成可能。仮想と現実環境における複雑なインタラクション能力を備えています。
画像生成テキスト
Transformers

M
microsoft
4,526
363
Smolvlm2 500M Video Instruct
Apache-2.0
軽量マルチモーダルモデルで、動画コンテンツ分析のために設計されており、動画、画像、テキスト入力を処理してテキスト出力を生成できます。
画像生成テキスト
Transformers English

S
HuggingFaceTB
17.89k
56
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2Bは、動画コンテンツ分析のために設計された軽量マルチモーダルモデルで、動画、画像、テキスト入力を処理しテキスト出力を生成できます。
画像生成テキスト
Transformers English

S
HuggingFaceTB
62.56k
164
Fluxi AI Small Vision
Apache-2.0
Fluxi AIはQwen2-VL-7B-InstructをベースにしたマルチモーダルAIアシスタントで、テキスト、画像、動画処理能力を備え、特にポルトガル語サポートを最適化しています。
画像生成テキスト
Transformers Other

F
JJhooww
25
2
Eagle2 2B
Eagle2はNVIDIAが開発した高性能視覚言語モデルファミリーで、データ戦略とトレーニング手法を通じてオープンソースの視覚言語モデルの性能を向上させることに焦点を当てています。Eagle2-2Bはこのシリーズの軽量モデルで、強力な性能を維持しながら優れた効率性と速度を実現しています。
テキスト生成画像
Transformers Other

E
nvidia
667
21
Eagle2 9B
Eagle2-9BはNVIDIAが発表した最新の視覚言語モデル(VLM)で、性能と推論速度の完璧なバランスを実現しています。Qwen2.5-7B-Instruct言語モデルとSiglip+ConvNext視覚モデルを基盤として構築され、多言語・マルチモーダルタスクをサポートします。
画像生成テキスト
Transformers Other

E
nvidia
944
52
Llava Mini Llama 3.1 8b
Gpl-3.0
LLaVA-Miniは効率的なマルチモーダル大規模モデルで、1つの視覚トークンだけで画像を表現することで、画像や動画理解の効率を大幅に向上させています。
画像生成テキスト
L
ICTNLP
12.45k
51
Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames
xGen-MM-Vid (BLIP-3-Video) は、動画コンテンツの理解のために設計された明示的な時間エンコーダを備えた効率的なコンパクト視覚言語モデルです。
ビデオ生成テキスト
Safetensors English
X
Salesforce
398
11
Mplug Owl3 7B 240728
Apache-2.0
mPLUG-Owl3は、長い画像シーケンス理解の課題を解決するために設計された最先端のマルチモーダル大規模言語モデルで、単一画像、複数画像、および動画タスクの処理をサポートします。
テキスト生成画像 English
M
mPLUG
4,823
39
Minicpm V 2 6 Int4
MiniCPM-V 2.6はマルチモーダルな視覚言語モデルで、画像テキストからテキストへの変換をサポートし、多言語処理能力を備えています。
画像生成テキスト
Transformers Other

M
openbmb
122.58k
79
Llava NeXT Video 7B
LLaVA-Next-Videoはオープンソースのマルチモーダル対話ロボットで、大規模言語モデルのファインチューニングにより訓練され、動画とテキストのマルチモーダルインタラクションをサポートします。
テキスト生成ビデオ
Transformers

L
lmms-lab
1,146
46
Model Timesformer Subset 02
TimeSformerアーキテクチャに基づく動画理解モデルで、未知のデータセットで微調整され、精度は88.52%
動画処理
Transformers

M
namnh2002
15
0
Videomae Base Finetuned Subset
MCG-NJU/videomae-baseモデルを未知のデータセットで微調整した動画理解モデル、精度67.13%達成
動画処理
Transformers

V
Joy28
2
0
MMICL Instructblip T5 Xxl
MIT
MMICLはblip2/instructblipを組み合わせたマルチモーダル視覚言語モデルで、複数の画像を分析・理解し、指示に従うことができます。
画像生成テキスト
Transformers English

M
BleachNick
156
11
Videomae Base Ipm All Videos
VideoMAEベースモデルを未知の動画データセットでファインチューニングした視覚モデルで、主に動画理解タスクに使用され、評価セットで85.59%の精度を達成しました。
動画処理
Transformers

V
rickysk
30
0
Videomae Base Finetuned
MCG-NJU/videomae-baseを未知のデータセットでファインチューニングした動画理解モデルで、F1スコアは0.7147を達成
動画処理
Transformers

V
sheraz179
15
0
Videomae Base Finetuned
VideoMAEベースモデルを未知のデータセットで微調整した動画理解モデルで、評価セットで86.41%の精度を達成
動画処理
Transformers

V
LouisDT
15
0
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98