Internvl3 9B AWQ

Developed by OpenGVLab

InternVL3-9BはInternVL3シリーズのマルチモーダル大規模言語モデルで、優れたマルチモーダル知覚と推論能力を備え、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など多様な応用シーンをサポートします。

テキスト生成画像

Transformers

OtherOpen Source License:MIT #マルチモーダル推論 #ネイティブマルチモーダル事前学習 #長文脈理解

Downloads 214

Release Time : 4/17/2025

Model Overview

InternVL3-9Bは'ViT-MLP-LLM'アーキテクチャを採用し、InternViTビジョンエンコーダーとInternLM3言語モデルを統合、ネイティブマルチモーダル事前学習手法により強力なマルチモーダル理解と生成能力を実現しています。

Model Features

ネイティブマルチモーダル事前学習

統一されたトレーニングスキームで言語とマルチモーダル表現を同時に学習、個別のキャリブレーションやブリッジモジュールが不要

可変視覚位置エンコーディング(V2PE)

より優れた長文脈理解能力をサポート

混合嗜好最適化(MPO)

正負サンプルの監視により推論性能を向上

マルチモーダル拡張能力

ツール使用、GUI操作、3D視覚知覚など多様な応用をサポート

Model Capabilities

マルチモーダル推論

数学計算

OCR認識

チャート理解

ドキュメント分析

複数画像理解

動画理解

GUI位置特定

空間推論

多言語理解

Use Cases

産業応用

産業画像分析

産業シーンにおける欠陥検出と品質管理に使用

インタラクティブ応用

GUIエージェント

GUI操作とインターフェース理解の自動化

3D応用

3Dシーン理解

3Dシーン情報の理解と分析

license: mit pipeline_tag: image-text-to-text library_name: transformers base_model:

OpenGVLab/InternVL3-9B base_model_relation: quantized datasets:
OpenGVLab/MMPR-v1.2 language:
multilingual tags:
internvl
custom_code

InternVL3-9B

[📂 GitHub] [📜 InternVL 1.0] [📜 InternVL 1.5] [📜 InternVL 2.5] [📜 InternVL2.5-MPO] [📜 InternVL3]

[🆕 Blog] [🗨️ Chat Demo] [🤗 HF Demo] [🚀 Quick Start] [📖 Documents]

イントロダクション

私たちは、優れた総合性能を発揮する先進的なマルチモーダル大規模言語モデル（MLLM）シリーズであるInternVL3を紹介します。 InternVL 2.5と比較して、InternVL3は優れたマルチモーダル知覚および推論能力を示し、さらにツール使用、GUIエージェント、産業画像分析、3D視覚知覚などを含むマルチモーダル能力を拡張しています。さらに、InternVL3をQwen2.5 Chatモデルと比較します。これらの対応する事前学習済みベースモデルは、InternVL3の言語コンポーネントの初期化として使用されます。ネイティブマルチモーダル事前学習の恩恵により、InternVL3シリーズはQwen2.5シリーズよりもさらに優れた総合的なテキスト性能を達成しています。

image/png

InternVL3ファミリー

以下の表に、InternVL3シリーズの概要を示します。

モデル名	ビジュアル部分	言語部分	HFリンク
InternVL3-1B	InternViT-300M-448px-V2_5	Qwen2.5-0.5B	🤗 リンク
InternVL3-2B	InternViT-300M-448px-V2_5	Qwen2.5-1.5B	🤗 リンク
InternVL3-8B	InternViT-300M-448px-V2_5	Qwen2.5-7B	🤗 リンク
InternVL3-9B	InternViT-300M-448px-V2_5	internlm3-8b-instruct	🤗 リンク
InternVL3-14B	InternViT-300M-448px-V2_5	Qwen2.5-14B	🤗 リンク
InternVL3-38B	InternViT-6B-448px-V2_5	Qwen2.5-32B	🤗 リンク
InternVL3-78B	InternViT-6B-448px-V2_5	Qwen2.5-72B	🤗 リンク

image/png

モデルアーキテクチャ

以下の図に示すように、InternVL3は、InternVL 2.5およびその前身であるInternVL 1.5および2.0と同じモデルアーキテクチャを保持し、「ViT-MLP-LLM」パラダイムに従っています。この新しいバージョンでは、新たに増分的に事前学習されたInternViTを、InternLM 3やQwen 2.5などのさまざまな事前学習済みLLMと、ランダムに初期化されたMLPプロジェクタを使用して統合しています。

image/png

前バージョンと同様に、ピクセルアンシャッフル操作を適用し、ビジュアルトークンの数を元の4分の1に削減しました。さらに、InternVL 1.5と同様の動的解像度戦略を採用し、画像を448×448ピクセルのタイルに分割しました。InternVL 2.0から始まる主な違いは、マルチイメージおよびビデオデータのサポートを追加したことです。

特筆すべきは、InternVL3では、Variable Visual Position Encoding (V2PE)を統合していることです。これは、ビジュアルトークンに対してより小さく柔軟な位置増分を使用します。V2PEの恩恵により、InternVL3は前身モデルと比較してより優れた長文脈理解能力を示しています。

トレーニング戦略

ネイティブマルチモーダル事前学習

私たちは、言語と視覚の学習を単一の事前学習段階に統合するネイティブマルチモーダル事前学習アプローチを提案します。言語のみのモデルを最初にトレーニングし、その後追加のモダリティを処理するように適応させる標準的なパラダイムとは対照的に、私たちの方法はマルチモーダルデータ（例：画像-テキスト、ビデオ-テキスト、または画像-テキスト交互シーケンス）を大規模なテキストコーパスと交互に配置します。この統一されたトレーニングスキームにより、モデルは言語的およびマルチモーダル表現を同時に学習し、最終的に視覚言語タスクを処理する能力を向上させ、個別のアライメントまたはブリッジモジュールを必要としません。詳細については、私たちの論文を参照してください。

教師付きファインチューニング

このフェーズでは、InternVL2.5で提案されたランダムJPEG圧縮、正方形損失再重み付け、およびマルチモーダルデータパッキングの技術もInternVL3シリーズで採用されています。 InternVL3のSFTフェーズの主な進歩は、InternVL2.5と比較して、より高品質で多様なトレーニングデータを使用していることです。具体的には、ツール使用、3Dシーン理解、GUI操作、長文脈タスク、ビデオ理解、科学図表、創造的執筆、マルチモーダル推論のためのトレーニングサンプルをさらに拡張しました。

混合選好最適化

事前学習およびSFT中、モデルは前のグラウンドトゥルーストークンに基づいて次のトークンを予測するようにトレーニングされます。しかし、推論中、モデルは自身の以前の出力に基づいて各トークンを予測します。このグラウンドトゥルーストークンとモデル予測トークンとの間の不一致は、分布シフトを引き起こし、モデルの連鎖的思考（CoT）推論能力を損なう可能性があります。この問題を緩和するために、MPOを採用し、ポジティブおよびネガティブサンプルからの追加の監督を導入して、モデル応答分布をグラウンドトゥルース分布と一致させ、推論性能を向上させます。具体的には、MPOのトレーニング目標は、選好損失$\mathcal{L}{\text{p}}$, 品質損失$\mathcal{L}{\text{q}}$, および生成損失$\mathcal{L}_{\text{g}}$ の組み合わせであり、次のように定式化できます：

$$ \mathcal{L}=w_{p}\cdot\mathcal{L}{\text{p}} + w{q}\cdot\mathcal{L}{\text{q}} + w{g}\cdot\mathcal{L}_{\text{g}}, $$

ここで、$w_{*}$は各損失コンポーネントに割り当てられた重みを表します。MPOの詳細については、私たちの論文を参照してください。

テストタイムスケーリング

テストタイムスケーリングは、LLMおよびMLLMの推論能力を向上させる効果的な方法であることが示されています。この作業では、Best-of-N評価戦略を使用し、VisualPRM-8Bを批評モデルとして使用して、推論および数学的評価のための最良の応答を選択します。

マルチモーダル能力の評価

マルチモーダル推論と数学

image/png

OCR、チャート、およびドキュメント理解

image/png

マルチイメージおよび実世界の理解

image/png

総合的なマルチモーダルおよび幻覚評価

image/png

視覚的グラウンディング

image/png

マルチモーダル多言語理解

image/png

ビデオ理解

image/png

GUIグラウンディング

image/png

空間推論

image/png

言語能力の評価

InternVL3をQwen2.5 Chatモデルと比較します。これらの対応する事前学習済みベースモデルは、InternVL3の言語コンポーネントの初期化として使用されます。ネイティブマルチモーダル事前学習の恩恵により、InternVL3シリーズはQwen2.5シリーズよりもさらに優れた総合的なテキスト性能を達成しています。 Qwen2.5シリーズの評価スコアは公式に報告されたものと異なる場合があることに注意してください。これは、すべてのデータセットに対してOpenCompass評価を行う際に、表で提供されたプロンプトバージョンを採用したためです。

image/png

アブレーション研究

ネイティブマルチモーダル事前学習

InternVL2-8Bモデルで実験を行い、そのアーキテクチャ、初期化パラメータ、およびトレーニングデータを完全に変更せずに保持しました。従来、InternVL2-8Bは、特徴アラインメントのためのMLPウォームアップフェーズから始まり、その後命令チューニング段階に進むトレーニングパイプラインを採用しています。私たちの実験では、従来のMLPウォームアップフェーズをネイティブマルチモーダル事前学習プロセスに置き換えました。この変更により、ネイティブマルチモーダル事前学習がモデルの総合的なマルチモーダル能力に与える貢献を分離しました。

以下の図の評価結果は、ネイティブマルチモーダル事前学習を行ったモデルが、完全な多段階トレーニングを受けたInternVL2-8Bベースラインと同等の性能をほとんどのベンチマークで示していることを示しています。さらに、より高品質なデータで命令チューニングを行うと、モデルは評価されたマルチモーダルタスク全体でさらに性能が向上します。これらの発見は、ネイティブマルチモーダル事前学習がMLLMに強力なマルチモーダル能力を与える効率性を強調しています。

image/png

混合選好最適化

以下の表に示すように、MPOでファインチューニングされたモデルは、MPOなしのモデルと比較して、7つのマルチモーダル推論ベンチマークで優れた推論性能を示しています。具体的には、InternVL3-78BとInternVL3-38Bは、それぞれ4.1ポイントと4.5ポイントの性能向上を示しました。注目すべきは、MPOに使用されたトレーニングデータはSFTに使用されたデータのサブセットであり、性能向上は主にトレーニングアルゴリズムからもたらされていることです。

image/png

可変視覚位置エンコーディング

以下の表に報告されているように、V2PEの導入は、ほとんどの評価指標で大きな性能向上をもたらします。さらに、位置増分$ \delta $を変化させるアブレーション研究により、従来の文脈を主に含むタスクであっても、比較的小さな$ \delta $値で最適な性能が達成されることが明らかになりました。これらの発見は、MLLMにおけるビジュアルトークンの位置エンコーディング戦略を洗練させるための将来の取り組みに重要な洞察を提供します。

image/png

クイックスタート

transformersを使用してInternVL3-9Bを実行するためのサンプルコードを提供します。

モデルが正常に動作することを保証するために、transformers>=4.37.2を使用してください。

モデルの読み込み

16ビット（bf16 / fp16）

import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL3-9B"
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True).eval().cuda()

BNB 8ビット量子化

import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL3-9B"
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    load_in_8bit=True,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True).eval()

複数GPU

このようにコードを書く理由は、テンソルが同じデバイス上にないためにマルチGPU推論中に発生するエラーを回避するためです。大規模言語モデル（LLM）の最初と最後の層を同じデバイス上に配置することで、このようなエラーを防ぎます。

import math
import torch
from transformers import AutoTokenizer, AutoModel

def split_model(model_name):
    device_map = {}
    world_size = torch.cuda.device_count()
    config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
    num_layers = config.llm_config.num_hidden_layers
    # 最初のGPUはViTに使用されるため、半GPUとして扱います。
    num_layers_per_gpu = math.ceil(num_layers / (world_size - 0.5))
    num_layers_per_gpu = [num_layers_per_gpu] * world_size
    num_layers_per_gpu[0] = math.ceil(num_layers_per_gpu[0] * 0.5)
    layer_cnt = 0
    for i, num_layer in enumerate(num_layers_per_gpu):
        for j in range(num_layer):
            device_map[f'language_model.model.layers.{layer_cnt}'] = i
            layer_cnt += 1
    device_map['vision_model'] = 0
    device_map['mlp1'] = 0
    device_map['language_model.model.tok_embeddings'] = 0
    device_map['language_model.model.embed_tokens'] = 0
    device_map['language_model.output'] = 0
    device_map['language_model.model.norm'] = 0
    device_map['language_model.model.rotary_emb'] = 0
    device_map['language_model.lm_head'] = 0
    device_map[f'language_model.model.layers.{num_layers - 1}'] = 0

    return device_map

path = "OpenGVLab/InternVL3-9B"
device_map = split_model('InternVL3-9B')
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True,
    device_map=device_map).eval()

Transformersでの推論

import math
import numpy as np
import torch
import torchvision.transforms as T
from decord import VideoReader, cpu
from PIL import Image
from torchvision.transforms.functional import InterpolationMode
from transformers import AutoModel, AutoTokenizer

IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)

def build_transform(input_size):
    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
    transform = T.Compose([
        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),
        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
        T.ToTensor(),
        T.Normalize(mean=MEAN, std=STD)
    ])
    return transform

def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
    best_ratio_diff = float('inf')
    best_ratio = (1, 1)
    area = width * height
    for ratio in target_ratios:
        target_aspect_ratio = ratio[0] / ratio[1]
        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
        if ratio_diff < best_ratio_diff:
            best_ratio_diff = ratio_diff
            best_ratio = ratio
        elif ratio_diff == best_ratio_diff:
            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
                best_ratio = ratio
    return best_ratio

def dynamic_preprocess(image, min_num=1, max_num=12, image_size=448, use_thumbnail=False):
    orig_width, orig_height = image.size
    aspect_ratio = orig_width / orig_height

    # 既存の画像アスペクト比を計算
    target_ratios = set(
        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if
        i * j <= max_num and i * j >= min_num)
    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])

    # ターゲットに最も近いアスペクト比を見つける
    target_aspect_ratio = find_closest_aspect_ratio(
        aspect_ratio, target_ratios, orig_width, orig_height, image_size)

    # ターゲットの幅と高さを計算
    target_width = image_size * target_aspect_ratio[0]
    target_height = image_size * target_aspect_ratio[1]
    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]

    # 画像をリサイズ
    resized_img = image.resize((target_width, target_height))
    processed_images = []
    for i in range(blocks):
        box = (
            (i % (target_width // image_size)) * image_size,
            (i // (target_width // image_size)) * image_size,
            ((i % (target_width // image_size)) + 1) * image_size,
            ((i // (target_width // image_size)) + 1) * image_size
        )
        # 画像を分割
        split_img = resized_img.crop(box)
        processed_images.append(split_img)
    assert len(processed_images) == blocks
    if use_thumbnail and len(processed_images) != 1:
        thumbnail_img = image.resize((image_size, image_size))
        processed_images.append(thumbnail_img)
    return processed_images

def load_image(image_file, input_size=448, max_num=12):
    image = Image.open(image_file).convert('RGB')
    transform = build_transform(input_size=input_size)
    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)
    pixel_values = [transform(image) for image in images]
    pixel_values = torch.stack(pixel_values)
    return pixel_values

def split_model(model_name):
    device_map = {}
    world_size = torch.cuda.device_count()
    config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
    num_layers = config.llm_config.num_hidden_layers
    # 最初のGPUはViTに使用されるため、半GPUとして扱います。
    num_layers_per_gpu = math.ceil(num_layers / (world_size - 0.5))
    num_layers_per_gpu = [num_layers_per_gpu] * world_size
    num_layers_per_gpu[0] = math.ceil(num_layers_per_gpu[0] * 0.5)
    layer_cnt = 0
    for i, num_layer in enumerate(num_layers_per_gpu):
        for j in range(num_layer):
            device_map[f'language_model.model.layers.{layer_cnt}'] = i
            layer_cnt += 1
    device_map['vision_model'] = 0
    device_map['mlp1'] = 0
    device_map['language_model.model.tok_embeddings'] = 0
    device_map['language_model.model.embed_tokens'] = 0
    device_map['language_model.output'] = 0
    device_map['language_model.model.norm'] = 0
    device_map['language_model.model.rotary_emb'] = 0
    device_map['language_model.lm_head'] = 0
    device_map[f'language_model.model.layers.{num_layers - 1}'] = 0

    return device_map

# `load_in_8bit=True`に設定する場合、80GB GPUが2台必要です。
# `load_in_8bit=False`に設定する場合、80GB GPUが少なくとも3台必要です。
path = 'OpenGVLab/InternVL3-9B'
device_map = split_model('InternVL3-9B')
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    load_in_8bit=False,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True,
    device_map=device_map).eval()
tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True, use_fast=False)

# `max_num`でタイルの最大数を設定
pixel_values = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
generation_config = dict(max_new_tokens=1024, do_sample=True)

# 純粋なテキスト会話
question = 'こんにちは、あなたは誰ですか？'
response, history = model.chat(tokenizer, None, question, generation_config, history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = '物語を教えてくれますか？'
response, history = model.chat(tokenizer, None, question, generation_config, history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 単一画像単一会話
question = '<image>\nこの画像を簡単に説明してください。'
response = model.chat(tokenizer, pixel_values, question, generation_config)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 単一画像複数回会話
question = '<image>\nこの画像を詳細に説明してください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = 'この画像に基づいて詩を書いてください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 複数画像複数回会話、結合画像
pixel_values1 = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values2 = load_image('./examples/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)

question = '<image>\n2つの画像を詳細に説明してください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = 'これらの2つの画像の類似点と相違点は何ですか。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 複数画像複数回会話、独立画像
pixel_values1 = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values2 = load_image('./examples/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)
num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]

question = 'Image-1: <image>\nImage-2: <image>\n2つの画像を詳細に説明してください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               num_patches_list=num_patches_list,
                               history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = 'これらの2つの画像の類似点と相違点は何ですか。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               num_patches_list=num_patches_list,
                               history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# バッチ推論、サンプルごとに1画像
pixel_values1 = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values2 = load_image('./examples/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]
pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)

questions = ['<image>\n画像を詳細に説明してください。'] * len(num_patches_list)
responses = model.batch_chat(tokenizer, pixel_values,
                             num_patches_list=num_patches_list,
                             questions=questions,
                             generation_config=generation_config)
for question, response in zip(questions, responses):
    print(f'ユーザー: {question}\nアシスタント: {response}')

# ビデオ複数回会話
def get_index(bound, fps, max_frame, first_idx=0, num_segments=32):
    if bound:
        start, end = bound[0], bound[1]
    else:
        start, end = -100000, 100000
    start_idx = max(first_idx, round(start * fps))
    end_idx = min(round(end * fps), max_frame)
    seg_size = float(end_idx - start_idx) / num_segments
    frame_indices = np.array([
        int(start_idx + (seg_size / 2) + np.round(seg_size * idx))
        for idx in range(num_segments)
    ])
    return frame_indices

def load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=32):
    vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)
    max_frame = len(vr) - 1
    fps = float(vr.get_avg_fps())

    pixel_values_list, num_patches_list = [], []
    transform = build_transform(input_size=input_size)
    frame_indices = get_index(bound, fps, max_frame, first_idx=0, num_segments=num_segments)
    for frame_index in frame_indices:
        img = Image.fromarray(vr[frame_index].asnumpy()).convert('RGB')
        img = dynamic_preprocess(img, image_size=input_size, use_thumbnail=True, max_num=max_num)
        pixel_values = [transform(tile) for tile in img]
        pixel_values = torch.stack(pixel_values)
        num_patches_list.append(pixel_values.shape[0])
        pixel_values_list.append(pixel_values)
    pixel_values = torch.cat(pixel_values_list)
    return pixel_values, num_patches_list

video_path = './examples/red-panda.mp4'
pixel_values, num_patches_list = load_video(video_path, num_segments=8, max_num=1)
pixel_values = pixel_values.to(torch.bfloat16).cuda()
video_prefix = ''.join([f'Frame{i+1}: <image>\n' for i in range(len(num_patches_list))])
question = video_prefix + 'レッサーパンダは何をしていますか？'
# Frame1: <image>\nFrame2: <image>\n...\nFrame8: <image>\n{question}
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               num_patches_list=num_patches_list, history=None, return_history=True)
print(f'ユーザ