nanoLLaVA-1.5オープンソースのビジュアル言語モデル - 小型かつ強力でエッジデバイスに最適で無料でデプロイ可能

ホーム

Nanollava 1.5

qnguyen3によって開発

nanoLLaVA-1.5は10億パラメータ以下の視覚言語モデルで、エッジデバイス向けに設計されており、小型ながら強力な機能を備えています。

画像生成テキスト

Transformers

英語オープンソースライセンス:Apache-2.0 #エッジデバイス向け視覚言語 #軽量マルチモーダル #効率的な視覚質問応答

ダウンロード数 442

リリース時間 : 6/29/2024

モデル概要

nanoLLaVA-1.5はv1.0バージョンのアップグレード版で、画像テキストからテキストへのタスクに適した効率的な視覚言語モデルです。

モデル特徴

小型ながら強力

エッジデバイス向けに設計され、10億パラメータ以下ながら強力な機能を備えています。

マルチモーダルサポート

視覚と言語のマルチモーダルタスク処理をサポートします。

効率的な推論

最適化されたモデルにより、エッジデバイス上でも効率的に動作します。

モデル能力

画像キャプション生成

視覚質問応答

マルチモーダル推論

使用事例

視覚質問応答

画像内容の説明

画像に基づいて詳細な文章説明を生成します。

教育

科学問題の解答

画像に基づく科学問題の解答。

🚀 nanoLLaVA-1.5 - 10億パラメータ未満の改良型ビジョン言語モデル

nanoLLaVA-1.5は、エッジデバイスで効率的に動作するように設計された「小さいながらも強力な」10億パラメータのビジョン言語モデルです。これは、v1.0バージョン qnguyen3/nanoLLaVA のアップデート版です。

Logo

📚 ドキュメント

概要

ベースの大規模言語モデル（LLM）: Quyen-SE-v0.1 (Qwen1.5-0.5B)
ビジョンエンコーダ: google/siglip-so400m-patch14-384

モデル	VQA v2	TextVQA	ScienceQA	POPE	MMMU (テスト)	MMMU (評価)	GQA	MM-VET
nanoLLavA-1.0	70.84	46.71	58.97	84.1	28.6	30.4	54.79	23.9
nanoLLavA-1.5	TBD	TBD	TBD	TBD	TBD	TBD	TBD	TBD

学習データ

学習データは、現在論文を執筆中であるため、後ほど公開されます。最終版は現在のものよりもはるかに強力になることが期待されます。

微調整コード

近日公開予定！！！

📦 インストール

transformers を使用する場合は、以下のスクリプトを実行してください。

pip install -U transformers accelerate flash_attn

💻 使用例

基本的な使用法

import torch
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image
import warnings

# disable some warnings
transformers.logging.set_verbosity_error()
transformers.logging.disable_progress_bar()
warnings.filterwarnings('ignore')

# set device
torch.set_default_device('cuda')  # or 'cpu'

model_name = 'qnguyen3/nanoLLaVA-1.5'

# create model
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map='auto',
    trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    trust_remote_code=True)

# text prompt
prompt = 'Describe this image in detail'

messages = [
    {"role": "user", "content": f'<image>\n{prompt}'}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

print(text)

text_chunks = [tokenizer(chunk).input_ids for chunk in text.split('<image>')]
input_ids = torch.tensor(text_chunks[0] + [-200] + text_chunks[1], dtype=torch.long).unsqueeze(0)

# image, sample images can be found in images folder
image = Image.open('/path/to/image.png')
image_tensor = model.process_images([image], model.config).to(dtype=model.dtype)

# generate
output_ids = model.generate(
    input_ids,
    images=image_tensor,
    max_new_tokens=2048,
    use_cache=True)[0]

print(tokenizer.decode(output_ids[input_ids.shape[1]:], skip_special_tokens=True).strip())

プロンプト形式

このモデルはChatML標準に従っていますが、<|im_end|> の末尾に \n はありません。

<|im_start|>system
Answer the question<|im_end|><|im_start|>user
<image>
What is the picture about?<|im_end|><|im_start|>assistant

モデルは Bunny の修正版を使用して学習されています。

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご