すべてのカテゴリ

ビデオ生成テキスト

2025年最高の 68 個のビデオ生成テキストツール

Llava Video 7B Qwen2

LLaVA-ビデオモデルはQwen2言語モデルをベースとした7Bパラメータのマルチモーダルモデルで、ビデオ理解タスクに特化しており、64フレームのビデオ入力をサポートします。

ビデオ生成テキスト

Transformers 英語

Llava NeXT Video 7B DPO Hf

LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより最適化され、優れた動画理解能力を備えています。

ビデオ生成テキスト

Transformers 英語

Internvideo2 5 Chat 8B

InternVideo2.5は、長く豊富なコンテキスト(LRC)モデリングを強化したビデオマルチモーダル大規模言語モデルで、InternVL2.5を基盤として構築されており、細粒度の詳細を感知し、長時間の時系列構造を捉える能力を向上させることで、既存のMLLMモデルを大幅に改善しています。

ビデオ生成テキスト

Transformers 英語

Cogvlm2 Llama3 Caption

CogVLM2-Captionは、CogVideoXモデルのトレーニングデータを生成するためのビデオ記述生成モデルです。

ビデオ生成テキスト

Transformers 英語

時空間GPTは、空間的および時間的推論が可能なビデオ記述生成モデルで、ビデオフレームを分析し、ビデオイベントを記述する文を生成できます。

ビデオ生成テキスト

Transformers 英語

Video-R1-7BはQwen2.5-VL-7B-Instructを最適化したマルチモーダル大規模言語モデルで、ビデオ推論タスクに特化しており、ビデオコンテンツを理解し関連する質問に答えることができます。

ビデオ生成テキスト

Transformers 英語

Internvl 2 5 HiCo R16

InternVideo2.5は、InternVL2.5を基盤としたビデオマルチモーダル大規模言語モデル（MLLM）で、長く豊富なコンテキスト（LRC）モデリングによって強化され、細粒度の詳細を感知し、長時間の時系列構造を捉えることができます。

ビデオ生成テキスト

Transformers 英語

Videollm Online 8b V1plus

VideoLLM-onlineはLlama-3-8B-Instructをベースとしたマルチモーダル大規模言語モデルで、オンライン動画理解と動画-テキスト生成タスクに特化しています。

ビデオ生成テキスト英語

Videochat R1 7B

VideoChat-R1_7B は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダル動画理解モデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。

ビデオ生成テキスト

Transformers 英語

Qwen2.5 Vl 7b Cam Motion Preview

Qwen2.5-VL-7B-Instructをファインチューニングしたカメラ運動分析モデルで、ビデオ内のカメラ運動分類とビデオ-テキスト検索タスクに特化

ビデオ生成テキスト

Mambavision B 1K

PAVEはビデオ大規模言語モデルの修復と適応に特化したモデルで、ビデオとテキスト間の変換能力を向上させることを目的としています。

ビデオ生成テキスト

Longvu Llama3 2 3B

LongVUは長動画の言語理解に向けた時空間適応圧縮技術で、長動画コンテンツを効率的に処理することを目的としています。

ビデオ生成テキスト

Videochat Flash Qwen2 5 2B Res448

VideoChat-Flash-2BはUMT-L（300M）とQwen2.5-1.5Bを基に構築されたマルチモーダルモデルで、動画テキストからテキストへの変換タスクをサポートし、1フレームあたり16トークンのみを使用し、コンテキストウィンドウを128kに拡張します。

ビデオ生成テキスト

Transformers 英語

Vamba Qwen2 VL 7B

Vambaは混合Mamba-Transformerアーキテクチャで、クロスアテンション層とMamba-2モジュールにより効率的な長尺動画理解を実現します。

ビデオ生成テキスト

Videochat R1 Thinking 7B

VideoChat-R1-thinking_7B は Qwen2.5-VL-7B-Instruct をベースにしたマルチモーダルモデルで、動画テキストからテキストへの変換タスクに特化しています。

ビデオ生成テキスト

Transformers 英語

Videochat Flash Qwen2 7B Res448

VideoChat-Flash-7BはUMT-L (300M)とQwen2-7Bを基に構築されたマルチモーダルモデルで、1フレームあたりわずか16トークンを使用し、約10,000フレームまでの長い入力シーケンスをサポートします。

ビデオ生成テキスト

Transformers 英語

Tarsier-7b は Tarsier シリーズのオープンソース大規模動画言語モデルで、高品質な動画説明の生成と優れた汎用動画理解能力に特化しています。

ビデオ生成テキスト

Internvideo2 Stage2 6B

InternVideo2は6Bパラメータ規模のマルチモーダル動画理解モデルで、動画コンテンツの分析と理解タスクに特化しています。

ビデオ生成テキスト

Internvideo2 Chat 8B

InternVideo2-Chat-8Bは大規模言語モデル(LLM)と動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、動画の意味理解と人間とのインタラクションが可能です。

ビデオ生成テキスト

Transformers 英語

Llava Video 7B Qwen2 TPO

LLaVA-Video-7B-Qwen2-TPOはLLaVA-Video-7B-Qwen2を基に時間選好最適化を施した動画理解モデルで、複数のベンチマークテストで優れた性能を発揮します。

ビデオ生成テキスト

Longvu Llama3 2 1B

LongVUは長尺動画コンテンツを効率的に処理し、言語理解能力を向上させるための時空間適応圧縮技術です。

ビデオ生成テキスト

Video Blip Opt 2.7b Ego4d

VideoBLIPはBLIP-2の強化版で、動画データを処理可能、言語モデルのバックボーンとしてOPT-2.7bを採用しています。

ビデオ生成テキスト

Transformers 英語

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

xGen-MM-Vid (BLIP-3-Video) は、動画コンテンツの理解のために設計された明示的な時間エンコーダを備えた効率的なコンパクト視覚言語モデルです。

ビデオ生成テキスト

Safetensors 英語

Videochat2 HD Stage4 Mistral 7B Hf

VideoChat2-HD-hfは、Mistral-7Bに基づくマルチモーダルビデオ理解モデルで、ビデオテキスト変換タスクに特化しています。

ビデオ生成テキスト

Skycaptioner V1

SkyCaptioner-V1は、ビデオデータ向けに高品質な構造化記述を生成するために特別に設計されたモデルです。専門家サブモデル、マルチモーダル大規模言語モデル、および手動アノテーションを統合することで、一般的な記述モデルが専門的な映像詳細を捉える際の限界を克服しています。

ビデオ生成テキスト

Sharecaptioner Video

GPT4Vアノテーションデータでファインチューニングされたオープンソースのビデオ記述ジェネレーターで、異なる長さ、アスペクト比、解像度のビデオをサポート

ビデオ生成テキスト

Internvl 2 5 HiCo R64

長く豊富なコンテキスト（LRC）モデリングを強化した動画マルチモーダル大規模言語モデル。細かいディテールの知覚と長時間の時間的構造の捕捉能力を向上させ、既存のMLLMを改善

ビデオ生成テキスト

Transformers 英語

Longvu Qwen2 7B

LongVUはQwen2-7Bをベースとしたマルチモーダルモデルで、長編動画の言語理解タスクに特化し、時空間適応圧縮技術を採用しています。

ビデオ生成テキスト

LongVA-7B-TPOはLongVA-7Bを基に時系列選好最適化を施した動画-テキストモデルで、長動画理解タスクで優れた性能を発揮します。

ビデオ生成テキスト

Llavaction 0.5B

LLaVActionは動作認識のためのマルチモーダル大規模言語モデルで、Qwen2言語モデルを基に、EPIC-KITCHENS-100-MQAデータセットでトレーニングされています。

ビデオ生成テキスト

Transformers 英語

MLAdaptiveIntelligence

Llava NeXT Video 34B DPO

Llama 2 は Meta が開発した一連のオープンソース大規模言語モデルで、様々な自然言語処理タスクをサポートしています。

ビデオ生成テキスト

VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセス（タスク分解、時間的定位と検証、回答合成など）を模倣することで動画推論能力を強化します。

ビデオ生成テキスト

Internvideo2 Chat 8B HD

InternVideo2-Chat-8B-HDは、大規模言語モデルと動画BLIPを統合した動画理解モデルで、段階的学習スキームにより構築され、高精細動画入力を処理できます。

ビデオ生成テキスト

Slowfast Video Mllm Qwen2 7b Convnext 576 Frame64 S1t4

スローファストアーキテクチャを採用した動画マルチモーダル大規模言語モデルで、時間解像度と空間詳細のバランスを取り、64フレームの動画理解をサポート

ビデオ生成テキスト

Timezero Charades 7B

TimeZeroは推論誘導型の大規模視覚言語モデル（LVLM）で、時間的ビデオ位置特定（TVG）タスク向けに設計されており、強化学習手法を用いてビデオ内の自然言語クエリに対応する時間的セグメントを識別します。

ビデオ生成テキスト

Videollama2.1 7B 16F Base

VideoLLaMA2.1はVideoLLaMA2のアップグレード版で、ビデオ大規模言語モデルにおける時空間モデリングと音声理解能力の向上に焦点を当てています。

ビデオ生成テキスト

Transformers 英語

カンガルーは長編動画理解のために設計された強力なマルチモーダル大規模言語モデルで、中国語と英語のバイリンガル対話と長編動画入力に対応しています。

ビデオ生成テキスト

Transformers 複数言語対応

LLaVActionは動作認識向けのマルチモーダル大規模言語モデル評価・トレーニングフレームワークで、Qwen2言語モデルアーキテクチャを基盤とし、一人称視点の動画理解をサポートします。

ビデオ生成テキスト

Transformers 英語

MLAdaptiveIntelligence

Timezero ActivityNet 7B

TimeZeroは推論誘導型の大規模視覚言語モデル（LVLM）で、時間的ビデオ位置特定（TVG）タスク向けに設計されており、強化学習手法を通じて動的なビデオ-言語関係分析を実現します。

ビデオ生成テキスト

Tinyllava Video R1

TinyLLaVA-Video-R1はトレーサビリティのある訓練モデルTinyLLaVA-Videoを基にした小規模動画推論モデルで、強化学習により推論力と思考力を大幅に向上させ、'ひらめきの瞬間'の創発特性を示します。

ビデオ生成テキスト

Tarsier-34bは、高品質なビデオ説明の生成に特化したオープンソースの大規模ビデオ言語モデルで、複数の公開ベンチマークでリーディングスコアを達成しています。

ビデオ生成テキスト

TEMPURA Qwen2.5 VL 3B S2

TEMPURAは因果関係のあるイベントを推論し、未編集ビデオの細粒度タイムスタンプ記述を生成できる視覚言語モデルです。

ビデオ生成テキスト

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase