MiniCPM - V 2.6オープンソース多モーダルビジュアル言語モデル - 画像・テキストからのテキスト変換と多言語処理をサポート

ホーム

Minicpm V 2 6 Int4

openbmbによって開発

MiniCPM-V 2.6はマルチモーダルな視覚言語モデルで、画像テキストからテキストへの変換をサポートし、多言語処理能力を備えています。

画像生成テキスト

Transformers

その他#マルチモーダルライブ配信 #リアルタイム音声対話 #多言語サポート

ダウンロード数 122.58k

リリース時間 : 8/4/2024

モデル概要

MiniCPM-V 2.6はMiniCPM-Vアーキテクチャに基づくマルチモーダルモデルで、視覚言語タスクに特化しており、画像、テキスト、動画などの多様な入力を処理し、対応するテキスト出力を生成できます。

モデル特徴

マルチモーダルサポート

画像、テキスト、動画などの多様な入力モダリティをサポートし、複雑なマルチモーダルタスクを処理できます。

多言語処理

複数の言語をサポートし、言語横断的な処理能力を備えています。

高性能

前世代モデルと比べて性能が大幅に向上し、リアルタイム処理をサポートしています。

モデル能力

画像テキスト変換

多言語テキスト生成

動画コンテンツ分析

光学文字認識

複数画像処理

使用事例

コンテンツ生成

画像説明文生成

入力された画像に基づいて詳細なテキスト説明を生成します。

正確で詳細な画像説明文を生成します。

動画コンテンツ要約

動画コンテンツを分析し、簡潔なテキスト要約を生成します。

動画コンテンツのテキスト要約を生成し、迅速な理解を可能にします。

ドキュメント処理

光学文字認識

画像や動画から文字情報を抽出します。

高精度な文字認識と抽出を行います。

🚀 MiniCPM-V 2.6 int4

MiniCPM-V 2.6 int4は、MiniCPM-V 2.6 のint4量子化バージョンです。int4バージョンを使用すると、GPUメモリの使用量を低く抑えることができ（約7GB）、効率的に動作します。

🚀 クイックスタート

このモデルは、NVIDIA GPU上でHuggingface transformersを使用して推論を行うことができます。以下はPython 3.10でテストされた要件です。

必要なライブラリのインストール

Pillow==10.1.0
torch==2.1.2
torchvision==0.16.2
transformers==4.40.0
sentencepiece==0.1.99
accelerate==0.30.1
bitsandbytes==0.43.1

コードの実行例

# test.py
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('openbmb/MiniCPM-V-2_6-int4', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('openbmb/MiniCPM-V-2_6-int4', trust_remote_code=True)
model.eval()

image = Image.open('xx.jpg').convert('RGB')
question = 'What is in the image?'
msgs = [{'role': 'user', 'content': [image, question]}]

res = model.chat(
    image=None,
    msgs=msgs,
    tokenizer=tokenizer
)
print(res)

## if you want to use streaming, please make sure sampling=True and stream=True
## the model.chat will return a generator
res = model.chat(
    image=None,
    msgs=msgs,
    tokenizer=tokenizer,
    sampling=True,
    temperature=0.7,
    stream=True
)

generated_text = ""
for new_text in res:
    generated_text += new_text
    print(new_text, flush=True, end='')

✨ 主な機能

パイプラインタグ：画像とテキストを入力としてテキストを出力する image-text-to-text をサポートします。
データセット：openbmb/RLAIF-V-Dataset を使用して訓練されています。
ライブラリ：transformers ライブラリを使用しています。
言語：複数言語（multilingual）をサポートします。
タグ：minicpm-v、vision、ocr、multi-image、video、custom_code などのタグが付けられています。
ベースモデル：openbmb/MiniCPM-V-2_6 をベースにしています。

📚 ドキュメント

お知らせ

[2025.01.14] 🔥🔥 MiniCPM-o 2.6 をオープンソース化しました。MiniCPM-V 2.6 よりも大幅な性能向上が見られ、リアルタイムの音声対話とマルチモーダルライブストリーミングをサポートしています。ぜひ試してみてください。

モデル情報

属性	详情
パイプラインタイプ	image-text-to-text
データセット	openbmb/RLAIF-V-Dataset
ライブラリ名	transformers
言語	複数言語
タグ	minicpm-v、vision、ocr、multi-image、video、custom_code
ベースモデル	openbmb/MiniCPM-V-2_6