MGM - 7Bオープンソースマルチモーダルチャットボット - 高解像度画像の理解、推論、生成を無料でサポート

ホーム

MGM 7B

YanweiLiによって開発

MGM-7BはVicuna-7B-v1.5をベースに訓練されたオープンソースのマルチモーダルチャットボットで、高精細画像の理解、推論、生成をサポートします。

テキスト生成画像

Transformers

#高精細画像理解 #マルチモーダル生成 #混合専門家アーキテクチャ

ダウンロード数 975

リリース時間 : 3/26/2024

モデル概要

MGM-7Bは視覚言語モデルで、マルチモーダル命令データでLLaMA/Vicunaを微調整することで実現され、高精細画像の理解と生成タスクを同時に処理できます。

モデル特徴

高精細画像処理

高精細画像の理解、推論、生成を同時に実現可能

マルチモーダル能力

視覚と言語理解能力を組み合わせ、画像とテキストのインタラクションを実現

パラメータ規模選択可能

20億から340億パラメータまでの異なる規模のモデルを提供

モデル能力

画像理解

マルチモーダル推論

画像生成

自然言語対話

使用事例

研究応用

マルチモーダルモデル研究

コンピュータビジョンと自然言語処理のクロス研究に使用

チャットボット開発

画像理解能力を備えたインテリジェント対話システムの開発

クリエイティブ応用

画像説明生成

入力画像に基づいて詳細な文章説明を生成

🚀 MGM-7Bモデルカード

このフレームワークは、HD画像の理解、推論、生成を同時にサポートする、2Bから34Bまでの一連の密なMoE大規模言語モデル（LLM）をサポートしています。

🚀 クイックスタート

MGM-7Bモデルは、大規模なマルチモーダルモデルとチャットボットの研究に利用できます。

✨ 主な機能

フレームワークは、2Bから34Bまでの一連の密なMoE大規模言語モデル（LLM）をサポートし、HD画像の理解、推論、生成を同時に行うことができます。
MGMは、GPTで生成されたマルチモーダル命令追従データ上でLLaMA/Vicunaを微調整することで学習されたオープンソースのチャットボットです。

📚 ドキュメント

モデルの詳細

解像度設定

通常解像度設定: MGM-2B, MGM-13B, MGM-8x7B, MGM-34B
高解像度設定: MGM-7B-HD, MGM-13B-HD, MGM-8x7B-HD, MGM-34B-HD

モデルの種類

MGMは、GPTで生成されたマルチモーダル命令追従データ上でLLaMA/Vicunaを微調整することで学習されたオープンソースのチャットボットです。これにより、既存のフレームワークがHD画像の理解、推論、生成を同時にサポートすることが可能になります。

モデルのバージョン

MGM with LLM Vicuna-7B-v1.5

モデルの日付

MGM-7Bは2024年3月に学習されました。

ライセンス

モデルに関する質問やコメントを送る場所: https://github.com/dvlab-research/MGM/issues

意図された使用方法

主な意図された用途

主な用途は、大規模マルチモーダルモデルとチャットボットの研究です。

主な意図されたユーザー

このモデルの主な意図されたユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者と愛好家です。

学習データ

このモデルは、MGM-Instructionデータセットに基づいて学習されています。詳細については、Githubを参照してください。

謝辞

このプロジェクトはGoogle LLCとは関係ありません。

属性	详情
モデルの種類	MGMは、GPTで生成されたマルチモーダル命令追従データ上でLLaMA/Vicunaを微調整することで学習されたオープンソースのチャットボットです。
学習データ	このモデルは、MGM-Instructionデータセットに基づいて学習されています。