L

Llama Vid 7b Full 224 Video Fps 1

YanweiLiによって開発
LLaMA-VIDはLLaMA/Vicunaをファインチューニングしたオープンソースのマルチモーダルチャットボットで、拡張されたコンテキストトークンにより数時間に及ぶ動画処理をサポートします。
ダウンロード数 86
リリース時間 : 11/29/2023

モデル概要

LLaMA-VIDは視覚言語モデルで、追加のコンテキストトークンにより既存フレームワークを強化し、超長動画処理を可能にするとともに性能限界を突破します。LLaVAアーキテクチャを基盤としており、大規模マルチモーダルモデルやチャットボットの学術研究に主に使用されます。

モデル特徴

超長動画処理
拡張されたコンテキストトークンにより数時間に及ぶ動画コンテンツの処理をサポート
マルチモーダル理解
動画とテキスト情報を同時処理し、クロスモーダル理解を実現
オープンソースアーキテクチャ
オープンソースのLLaMA/VicunaとLLaVAアーキテクチャを基盤に構築

モデル能力

動画コンテンツ理解
マルチモーダル対話
長尺動画分析
視覚的質問応答

使用事例

学術研究
動画理解研究
コンピュータビジョンと自然言語処理のクロス領域研究に使用
マルチモーダルモデル開発
より先進的なマルチモーダルモデル開発の基盤として
教育
教育動画分析
長尺教育動画の内容を自動分析し関連質問に回答
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase