MiniCPM-o-2_6-int4オープンソースモデル - ビデオメモリ使用量を削減し、マルチモーダル処理をサポート。超実用的！

ホーム

Minicpm O 2 6 Int4

openbmbによって開発

MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。

テキスト生成オーディオ

Transformers

その他#モバイル端末マルチモーダル #リアルタイム音声インタラクション #低VRAM最適化

ダウンロード数 4,249

リリース時間 : 1/13/2025

モデル概要

これは視覚、音声、ライブストリームをサポートするマルチモーダル大規模言語モデルで、特にモバイル端末での実行能力を最適化し、GPT-4oレベルのマルチモーダル処理能力を備えています。

モデル特徴

モバイル端末実行最適化

特にモバイル端末で実行可能なGPT-4oレベルのマルチモーダルモデルに最適化

マルチモーダルサポート

視覚、音声、ライブストリームなど様々なモーダルの入出力をサポート

低VRAM使用量

int4量子化バージョンによりGPUのVRAM要求を約9GBに大幅削減

リアルタイム処理能力

ライブ配信やリアルタイム音声対話処理をサポート

モデル能力

視覚処理

光学文字認識

複数画像処理

動画分析

カスタムコード実行

音声処理

音声クローン

ライブストリーム処理

リアルタイム音声対話

自動音声認識

テキスト読み上げ

使用事例

マルチメディア処理

リアルタイムライブ分析

ライブ動画ストリームに対してリアルタイムで内容分析とインタラクションを行う

低遅延でのライブ内容理解と応答を実現

クロスモーダルコンテンツ生成

画像に基づいて説明文を生成したり、テキストに基づいて音声を生成する

異なるモーダル間のコンテンツ変換と生成を実現

モバイルアプリケーション

モバイル端末インテリジェントアシスタント

モバイルデバイス上で動作するマルチモーダルインテリジェントアシスタント

視覚、音声などの総合的なインタラクション能力を提供

🚀 MiniCPM-o 2.6 int4

このプロジェクトは、携帯電話上でのビジョン、音声、マルチモーダルライブストリーミングに対応したGPT - 4oレベルのMLLM（マルチモーダル大規模言語モデル）です。MiniCPM - o 2.6のint4量子化バージョンを提供し、これを使用することでGPUメモリの使用量を約9GBに抑えることができます。

属性	详情
パイプラインタグ	任意から任意へ
データセット	openbmb/RLAIF - V - Dataset
ライブラリ名	transformers
言語	多言語
タグ	minicpm - o、omni、vision、ocr、multi - image、video、custom_code、audio、speech、voice cloning、live Streaming、realtime speech conversation、asr、tts
ベースモデル	openbmb/MiniCPM - o - 2_6

🚀 クイックスタート

コードの準備とAutoGPTQのインストール

私たちはminicpm - o 2.6の推論を公式にサポートするためのPRを提出中です。以下のコマンドを実行してコードを準備し、AutoGPTQをインストールします。

git clone https://github.com/OpenBMB/AutoGPTQ.git && cd AutoGPTQ
git checkout minicpmo

# install AutoGPTQ
pip install -vvv --no-build-isolation -e .

MiniCPM - o - 2_6 - int4の使用方法

モデルの初期化部分をAutoGPTQForCausalLM.from_quantizedに変更します。

import torch
from transformers import AutoModel, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM

model = AutoGPTQForCausalLM.from_quantized(
    'openbmb/MiniCPM-o-2_6-int4',
    torch_dtype=torch.bfloat16,
    device="cuda:0",
    trust_remote_code=True,
    disable_exllama=True,
    disable_exllamav2=True
)
tokenizer = AutoTokenizer.from_pretrained(
    'openbmb/MiniCPM-o-2_6-int4',
    trust_remote_code=True
)

model.init_tts()

使用方法の詳細は[MiniCPM - o - 2_6#usage](https://huggingface.co/openbmb/MiniCPM - o - 2_6#usage)を参照してください。

💻 使用例

基本的な使用法

import torch
from transformers import AutoModel, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM

model = AutoGPTQForCausalLM.from_quantized(
    'openbmb/MiniCPM-o-2_6-int4',
    torch_dtype=torch.bfloat16,
    device="cuda:0",
    trust_remote_code=True,
    disable_exllama=True,
    disable_exllamav2=True
)
tokenizer = AutoTokenizer.from_pretrained(
    'openbmb/MiniCPM-o-2_6-int4',
    trust_remote_code=True
)

model.init_tts()