pllava-7bオープンソースビデオ言語チャットボット - マルチモーダルおよびチャット研究に無料で使用可能

Pllava 7b

ermu2001によって開発

PLLaVAはオープンソースのビデオ言語チャットボットで、ビデオ指令追従データで画像大規模言語モデルを微調整することで得られ、マルチモーダル大規模モデルとチャットボットの研究に使用できます。

ダウンロード数 109

リリース時間 : 4/24/2024

モデル概要

PLLaVAはTransformerアーキテクチャに基づく自己回帰型言語モデルで、ビデオ指令追従データで画像大規模言語モデルを訓練することで得られ、主に大型マルチモーダルモデルとチャットボットの研究に使用されます。

ビデオ言語理解

ビデオ内容に関連する言語指令を理解して処理できます。

マルチモーダル能力

視覚と言語のモーダルを組み合わせて理解と生成を行います。

オープンソース研究ツール

マルチモーダル大規模モデルの研究にオープンソースの基礎を提供します。

ビデオ内容理解

マルチモーダル対話

指令追従

視覚質問応答

学術研究

マルチモーダルモデル研究

ビデオと言語を組み合わせたマルチモーダルモデルアーキテクチャの探索に使用します。

チャットボット開発

ビデオ対話ボットの基礎モデルとして使用します。

アプリケーション開発

ビデオ内容分析

ビデオ内容を自動分析して説明を生成します。

属性	详情
モデルタイプ	PLLaVA-7Bは、ビデオ命令追従データでImage-LLMをファインチューニングすることで学習されたオープンソースのビデオ言語チャットボットです。Transformerアーキテクチャに基づく自己回帰型言語モデルです。ベースLLM: llava-hf/llava-v1.6-vicuna-7b-hf
モデル作成日	PLLaVA-7Bは2024年4月に学習されました。
詳細情報の論文またはリソース	- GitHubリポジトリ: https://github.com/magic-research/PLLaVA - プロジェクトページ: https://pllava.github.io/ - 論文リンク: https://arxiv.org/abs/2404.16994