GLM-Edge-V-2Bオープンソース画像テキスト変換モデル - 無料でデプロイ可能、中国語処理に対応

ホーム

Glm Edge V 2b

THUDMによって開発

GLM-Edge-V-2BはPytorchフレームワークに基づく画像テキストからテキストへのモデルで、中国語処理をサポートしています。

画像生成テキスト

Safetensors

オープンソースライセンス:その他 #画像テキスト理解 #マルチモーダル対話 #中国語視覚的質問応答

ダウンロード数 23.43k

リリース時間 : 11/24/2024

モデル概要

このモデルは主に画像とテキストを組み合わせた入力を処理し、対応するテキスト出力を生成するために使用され、マルチモーダルタスクに適しています。

モデル特徴

マルチモーダル処理

画像とテキスト入力を同時に処理し、対応するテキスト出力を生成できます。

中国語サポート

中国語テキストと画像コンテンツに特化して最適化されています。

GLMアーキテクチャに基づく

GLMアーキテクチャを採用し、効率的な推論性能を有します。

モデル能力

画像キャプション生成

マルチモーダルテキスト生成

中国語テキスト処理

使用事例

画像理解

画像キャプション生成

入力された画像に基づいて対応する文章説明を生成します。

画像内容を正確に記述するテキストを生成

マルチモーダルインタラクション

画像質問応答

画像とテキスト質問を組み合わせて回答を生成します。

画像内容に関連する正確な回答を提供

🚀 GLM-Edge-V-2B

GLM-Edge-V-2Bは、画像とテキストを入力として受け取り、テキストを出力するモデルです。このモデルは、GLMという技術をベースにしており、エッジ環境での使用に最適化されています。

🚀 クイックスタート

✨ 主な機能

画像とテキストを入力として受け取り、テキストを出力する。
GLM技術をベースにしており、エッジ環境での使用に最適化されている。

📦 インストール

Transformersライブラリをソースコードからインストールします。

pip install git+https://github.com/huggingface/transformers.git

💻 使用例

基本的な使用法

import torch
from PIL import Image
from transformers import (
    AutoTokenizer,
    AutoImageProcessor,
    AutoModelForCausalLM,
)

url = "img.png"
messages = [{"role": "user", "content": [{"type": "image"}, {"type": "text", "text": "describe this image"}]}]
image = Image.open(url)

model_dir = "THUDM/glm-edge-v-5b"

processor = AutoImageProcessor.from_pretrained(model_dir, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_dir,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
)

inputs = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, return_dict=True, tokenize=True, return_tensors="pt"
).to(next(model.parameters()).device)

generate_kwargs = {
    **inputs,
    "pixel_values": torch.tensor(processor(image).pixel_values).to(next(model.parameters()).device),
}
output = model.generate(**generate_kwargs, max_new_tokens=100)
print(tokenizer.decode(output[0][len(inputs["input_ids"][0]):], skip_special_tokens=True))

📄 ライセンス

このモデルのウェイトの使用は、LICENSEに記載されている条件に従う必要があります。

属性	详情
フレームワーク	Pytorch
ライセンス	other
ライセンス名	glm-4
ライセンスリンク	LICENSE
パイプラインタグ	image-text-to-text
タグ	glm, edge
推論	false