MoAI-7Bオープンソースモデル - 画像とテキスト入力を無料でデプロイして処理し、テキスト出力を生成する

ホーム

Moai 7B

BK-Leeによって開発

MoAIは大規模な言語と視覚の混合モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #マルチモーダル理解 #画像テキスト生成 #高精度OCR

ダウンロード数 183

リリース時間 : 3/12/2024

モデル概要

MoAIはマルチモーダルモデルで、視覚と言語処理能力を組み合わせ、画像内容を理解し関連するテキスト記述や質問回答を生成できます。

モデル特徴

マルチモーダル理解

画像とテキスト入力を同時に処理し、両者の関係を理解できる

混合アーキテクチャ

大規模言語モデルと視覚モデルの利点を組み合わせている

効率的な推論

4-bit量子化をサポートし、ハードウェア要件を低減

モデル能力

画像理解

テキスト生成

視覚的質問応答

画像記述生成

使用事例

コンテンツ理解と生成

画像記述生成

入力画像に対して詳細な記述を生成

自然言語で画像内容を記述

視覚的質問応答

画像内容に関する自然言語質問に回答

画像関連の質問に正確に回答

🚀 MoAIモデル

このリポジトリには、MoAI: Mixture of All Intelligence for Large Language and Vision Modelsで発表されたモデルの重みが含まれています。

🚀 クイックスタート

シンプルな実行コードはMoAI-Githubに基づいています。

以下の7つの手順だけです。

[0] MoAIのGitHubコードをダウンロードし、必要なライブラリをインストールし、必要な環境変数を設定します（README.mdに詳細が記載されています！心配しないでください）。

git clone https://github.com/ByungKwanLee/MoAI
bash install

[1] 画像の読み込み

from PIL import Image
from torchvision.transforms import Resize
from torchvision.transforms.functional import pil_to_tensor
image_path = "figures/moai_mystery.png"
image = Resize(size=(490, 490), antialias=False)(pil_to_tensor(Image.open(image_path)))

[2] 指示プロンプト

prompt = "Describe this image in detail."

[3] MoAIの読み込み

from moai.load_moai import prepare_moai
moai_model, moai_processor, seg_model, seg_processor, od_model, od_processor, sgg_model, ocr_model \
    = prepare_moai(moai_path='BK-Lee/MoAI-7B', bits=4, grad_ckpt=False, lora=False, dtype='fp16')

[4] MoAIの前処理

moai_inputs = moai_model.demo_process(image=image, 
                                    prompt=prompt, 
                                    processor=moai_processor,
                                    seg_model=seg_model,
                                    seg_processor=seg_processor,
                                    od_model=od_model,
                                    od_processor=od_processor,
                                    sgg_model=sgg_model,
                                    ocr_model=ocr_model,
                                    device='cuda:0')

[5] 生成

import torch
with torch.inference_mode():
    generate_ids = moai_model.generate(**moai_inputs, do_sample=True, temperature=0.9, top_p=0.95, max_new_tokens=256, use_cache=True)

[6] デコード

answer = moai_processor.batch_decode(generate_ids, skip_special_tokens=True)[0].split('[U')[0]
print(answer)

📄 ライセンス

このプロジェクトはMITライセンスの下でライセンスされています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご