GLM - 4VQオープンソース多モーダルモデル、多言語理解をサポート、低メモリ占有で主流モデルを上回る

ホーム

Glm 4vq

nikravanによって開発

GLM-4V-9Bの4ビット量子化バージョン、マルチモーダル多言語理解をサポート、メモリ使用量9G未満、複数の主流モデルを性能で凌駕

画像生成テキスト

Transformers

複数言語対応#マルチモーダル文書QA #低メモリ視覚推論 #12言語対応

ダウンロード数 440

リリース時間 : 6/10/2024

モデル概要

GLM-4V-9Bをベースにした量子化バージョン、文書・画像・チャートのQAタスクに特化、12言語のインタラクションをサポート、複数のベンチマークテストで優れた性能を発揮

モデル特徴

効率的な量子化

4ビット量子化バージョンでメモリ使用量9GB未満、Google Colab無料版で動作可能

多言語サポート

12言語のインタラクションをサポート、最適な性能は英語と中国語

卓越した性能

文書・画像QAタスクにおいてGPT-4-turbo、Gemini 1.0 Proなどの主流モデルを凌駕

長文脈サポート

8Kトークンの文脈長をサポート

モデル能力

文書理解

画像分析

チャート解析

多言語テキスト生成

視覚QA

マルチモーダル推論

使用事例

教育

教材内容解析

教材中の図文内容を解析し関連質問に回答

教材中のチャートとテキスト内容を正確に理解

ビジネス

ビジネスレポート分析

ビジネスレポートの主要データとチャートを自動抽出・分析

レポート要約と主要指標を迅速に生成

🚀 マルチモーダルマルチリンガル (3ML)

このモデルは、glm-4v-9b モデルの4bit量子化バージョンです（9GB未満）。文書、画像、チャートの質問応答に優れており、GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max、Claude 3 Opusを上回る性能を発揮します。元のモデルの一部が変更されており、Google Colabの無料版で実行できます。

試してみる

![Github Source]

⚠️ 重要提示

文書と画像の理解に最適な性能を得るには、英語または中国語を使用してください。モデルはサポートされている任意の言語でのチャットも処理できます。

GLM-4V-9Bについて

GLM-4V-9Bは、視覚理解能力を備えたマルチモーダル言語モデルです。関連する古典的なタスクの評価結果は以下の通りです。

	MMBench-EN-Test	MMBench-CN-Test	SEEDBench_IMG	MMStar	MMMU	MME	HallusionBench	AI2D	OCRBench
	英文総合	中文総合	総合能力	総合能力	学科総合	感知推論	幻覚性	チャート理解	文字認識
GPT-4o, 20240513	83.4	82.1	77.1	63.9	69.2	2310.3	55	84.6	736
GPT-4v, 20240409	81	80.2	73	56	61.7	2070.2	43.9	78.6	656
GPT-4v, 20231106	77	74.4	72.3	49.7	53.8	1771.5	46.5	75.9	516
InternVL-Chat-V1.5	82.3	80.7	75.2	57.1	46.8	2189.6	47.4	80.6	720
LlaVA-Next-Yi-34B	81.1	79	75.7	51.6	48.8	2050.2	34.8	78.9	574
Step-1V	80.7	79.9	70.3	50	49.9	2206.4	48.4	79.2	625
MiniCPM-Llama3-V2.5	77.6	73.8	72.3	51.8	45.8	2024.6	42.4	78.4	725
Qwen-VL-Max	77.6	75.7	72.7	49.5	52	2281.7	41.2	75.7	684
GeminiProVision	73.6	74.3	70.7	38.6	49	2148.9	45.7	72.9	680
Claude-3V Opus	63.3	59.2	64	45.7	54.9	1586.8	37.8	70.6	694
GLM-4v-9B	81.1	79.4	76.8	58.7	47.2	2163.8	46.6	81.1	786

このリポジトリは、GLM-4V-9Bモデルの4bit量子化バージョンのモデルリポジトリで、8K のコンテキスト長をサポートしています。

🚀 クイックスタート

Colabモデルまたは以下のPythonスクリプトを使用してください。

基本的な使用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from PIL import Image

device = "cuda"

modelPath="nikravan/glm-4vq"
tokenizer = AutoTokenizer.from_pretrained(modelPath, trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    modelPath,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True,
    device_map="auto"
)

query ='explain all the details in this picture'
image = Image.open("a3.png").convert('RGB')
#image=""
inputs = tokenizer.apply_chat_template([{"role": "user", "image": image, "content": query}],
                                       add_generation_prompt=True, tokenize=True, return_tensors="pt",
                                       return_dict=True)  # chat with image mode

inputs = inputs.to(device)

gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1}
with torch.no_grad():
    outputs = model.generate(**inputs, **gen_kwargs)
    outputs = outputs[:, inputs['input_ids'].shape[1]:]
    print(tokenizer.decode(outputs[0]))

```markdown
| プロパティ | 詳細 |
|----------|---------|
| サポート言語 | en, de, fr, fa, ar, tr, es, it, zh, ko, ja, hi |
| 評価指標 | accuracy |
| パイプラインタグ | document-question-answering |
| タグ | text-generation-inference |