A

Auroracap 7B VID Xtuner

wchaiによって開発
AuroraCapは画像と動画の字幕生成に特化したマルチモーダル大規模言語モデルで、効率的で詳細な動画字幕生成に焦点を当てています。
ダウンロード数 31
リリース時間 : 9/24/2024

モデル概要

AuroraCapはVicuna-7Bをベースにしたマルチモーダル大規模言語モデルで、詳細な動画字幕生成に特化しています。複数の動画字幕タスクや動画質問応答タスクをサポートし、多くのベンチマークで優れた性能を発揮します。

モデル特徴

効率的な動画字幕生成
AuroraCapはトークン統合技術により効率的なトレーニングと推論を実現し、高性能を維持しながら処理速度を向上させます。
マルチタスクサポート
動画詳細字幕、動画字幕、動画質問応答など複数のタスクをサポートし、様々なアプリケーションシーンに対応します。
マルチフォーマット重みサポート
公式LLaVAフォーマットとXtunerフォーマットの重みを提供し、継続的なトレーニングと迅速なデプロイを容易にします。

モデル能力

動画詳細字幕生成
動画字幕生成
動画質問応答
マルチモーダル処理

使用事例

動画コンテンツ分析
動画字幕生成
動画に詳細な字幕を生成し、動画コンテンツのアクセシビリティと理解度を向上させます。
VDCベンチマークで38.21のVDCスコアを達成。
動画質問応答
動画コンテンツに関する複雑な質問に回答し、教育やエンターテインメントなどの分野に適用可能です。
ActivityNetデータセットで61.8%の精度を達成。
マルチモーダルアプリケーション
画像・動画字幕
画像や動画に対して詳細な記述字幕を生成し、コンテンツ管理や検索に適用します。
MSR-VTTデータセットでCIDErスコア33.1を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase