A

Apollo LMMs Apollo 1 5B T32

GoodiesHereによって開発
Apolloは動画理解に特化した一連の大型マルチモーダルモデルで、長尺動画の内容理解、時系列推論、複雑な動画質問応答などのタスクに優れています。
ダウンロード数 37
リリース時間 : 12/18/2024

モデル概要

Apolloモデルは戦略的な設計により速度と精度のバランスを取り、最大1時間の動画コンテンツを処理可能で、小規模パラメータながら大規模モデルと競合する性能を実現します。

モデル特徴

拡張可能な一貫性
小規模モデルとデータセットで検証された設計が大規模へ効果的に転移可能で、計算と実験コストを削減
効率的な動画サンプリング
fpsサンプリングと先進的なトークン再サンプリング戦略(Perceiverなど)により強力な時系列認識を実現
エンコーダ連携
SigLIP-SO400M(画像)とInternVideo2(動画)の組み合わせが頑健な表現を形成し、時系列タスクで単一エンコーダを超越
ApolloBench
簡素化された評価基準(41倍高速化)、実際の動画理解能力評価に特化

モデル能力

長尺動画内容理解
時系列推論
複雑な動画質問応答
動画コンテンツに基づく多輪対話

使用事例

動画分析
動画内容記述
1時間に及ぶ動画内容の詳細な記述
動画内のキーコンテンツと時系列関係を正確に捕捉可能
動画質問応答
動画内容に関する複雑な質問に回答
複雑な動画質問応答タスクで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase