タルシアー-7bオープンソース動画言語モデル - 無料で高品質な動画説明を生成し、汎用的な理解能力を備えています

ホーム

Tarsier 7b

omni-researchによって開発

Tarsier-7b は Tarsier シリーズのオープンソース大規模動画言語モデルで、高品質な動画説明の生成と優れた汎用動画理解能力に特化しています。

ビデオ生成テキスト

Transformers

#動画説明生成 #マルチモーダル理解 #オープンソース大規模モデル

ダウンロード数 635

リリース時間 : 7/4/2024

モデル概要

Tarsier-7b はオープンソースの大規模動画言語モデルで、高品質な動画説明の生成を目的としており、同時に優れた汎用動画理解能力を備えています。Tarsier シリーズの一員であり、liuhaotian/llava-v1.6-vicuna-7b モデルを基に構築されています。

モデル特徴

高品質な動画説明生成

高品質な動画説明を生成でき、様々な動画コンテンツに適用可能です。

汎用動画理解能力

優れた汎用動画理解能力を備えており、複数のベンチマークテストで優れた性能を発揮します。

2段階トレーニング戦略

マルチタスク事前学習とマルチグレイン命令微調整の2段階トレーニング戦略を採用し、モデル性能を向上させています。

モデル能力

動画説明生成

動画質問応答

マルチグレイン動画理解

オープンエンド動画質問応答

動画字幕生成

使用事例

動画コンテンツ分析

動画説明生成

動画に対して詳細なテキスト説明を生成し、動画コンテンツの索引付けや検索に適用可能です。

高品質な動画説明

動画質問応答

動画コンテンツに関する複雑な質問に回答し、教育、エンターテインメントなどの分野に適用可能です。

正確な動画質問応答結果

動画字幕生成

自動字幕生成

動画に自動的に字幕を生成し、動画のアクセシビリティを向上させます。

高品質な字幕コンテンツ

🚀 タルシアモデルカード

タルシアモデルは、高品質な動画説明の生成や一般的な動画理解能力を備えたオープンソースの大規模動画言語モデルです。研究用途に最適で、特に動画記述の研究に役立ちます。

🚀 クイックスタート

モデルの使用方法については、こちらを参照してください。

✨ 主な機能

高品質な動画説明の生成
一般的な動画理解能力
Tarsier-34bは6つのオープンベンチマークでSOTA結果を達成

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

READMEに具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデル詳細

プロパティ	詳細
モデルタイプ	Tarsier-7bはタルシアファミリーの一つで、オープンソースの大規模動画言語モデルです。高品質な動画説明を生成するように設計されており、一般的な動画理解能力も備えています（Tarsier-34bは6つのオープンベンチマークでSOTA結果を達成）。ベースLLM: liuhaotian/llava-v1.6-vicuna-7b
モデル日付	Tarsier-7bは2024年6月に学習されました。
詳細情報の論文またはリソース	- GitHubリポジトリ: https://github.com/bytedance/tarsier - 論文リンク: https://arxiv.org/abs/2407.00634