VideoChat - TPOオープンソースマルチモーダル大規模言語モデル - 視覚タスクアラインメントによる多面的なアプリケーションの実現

ホーム

Videochat TPO

OpenGVLabによって開発

論文『タスク選好最適化：視覚タスクアライメントによるマルチモーダル大規模言語モデルの改善』に基づいて開発されたマルチモーダル大規模言語モデル

テキスト生成ビデオ

Transformers

オープンソースライセンス:MIT #動画テキスト理解 #マルチモーダルアライメント最適化 #タスク選好学習

ダウンロード数 18

リリース時間 : 12/18/2024

モデル概要

VideoChat2-TPOは、動画とテキストのインタラクションタスクに特化したマルチモーダル大規模言語モデルで、タスク選好最適化技術により視覚タスクアライメント能力を向上させています。

モデル特徴

タスク選好最適化

視覚タスクアライメント技術によりマルチモーダル大規模言語モデルの性能を改善

マルチモーダルインタラクション

動画とテキストの双方向理解と生成をサポート

Mistralアーキテクチャベース

強力なMistral-7B-Instructモデルを基に最適化

モデル能力

動画内容理解

動画テキスト生成

マルチモーダル対話

視覚タスクアライメント

使用事例

動画内容分析

動画要約生成

動画内容に基づいて自動的にテキスト要約を生成

動画質問応答システム

動画内容に関する自然言語質問に回答

マルチモーダルインタラクション

動画対話システム

動画内容に基づいた自然言語対話

属性	詳細
モデルタイプ	ビデオ - テキスト変換モデル
トレーニングデータ	論文に記載の通り
ベースモデル	mistralai/Mistral-7B-Instruct-v0.2
ライブラリ名	transformers
ライセンス	MIT

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Videochat TPO

モデル概要

モデル特徴

モデル能力

使用事例

🚀 VideoChat2-TPO

🚀 クイックスタート

✨ 主な機能

📦 インストール

💻 使用例

基本的な使用法

📄 ライセンス

📋 情報テーブル