V

Videomind 2B

yeliudevによって開発
VideoMindはマルチモーダルエージェントフレームワークで、人間の思考プロセス(タスク分解、時間的定位と検証、回答合成など)を模倣することで動画推論能力を強化します。
ダウンロード数 207
リリース時間 : 3/21/2025

モデル概要

VideoMindはマルチモーダル大規模言語モデルで、動画テキストからテキストへのタスクに特化し、人間の思考プロセスを模倣することで動画推論能力を強化します。

モデル特徴

マルチモーダルエージェントフレームワーク
人間の思考プロセス(タスク分解、時間的定位と検証、回答合成など)を模倣することで動画推論能力を強化します。
役割分担
モデルにはプランナー、ロケーター、バリデーター、レスポンダーの4つの役割があり、それぞれ異なる推論タスクを担当します。
効率的な推論
LoRAアダプタ技術により、異なる役割間の迅速な切り替えと効率的な推論を実現します。

モデル能力

動画理解
動画時間的定位
動画質問応答
マルチモーダル推論

使用事例

動画分析
動画質問応答
動画内容について質問し、正確な回答を得ます。
動画中の重要な瞬間を正確に定位し、関連する回答を生成できます。
動画時間的定位
長い動画の中で特定のイベントが発生した時刻を定位します。
イベント発生の時間帯を正確に識別して返すことができます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase