Internvl3 8B Instruct GGUF

unslothによって開発

InternVL3-8B-Instruct は先進的なマルチモーダル大規模言語モデル（MLLM）で、卓越した全体的な性能と強力なマルチモーダル知覚・推論能力を備えています。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル推論 #ネイティブ事前学習 #長文脈理解

ダウンロード数 2,412

リリース時間 : 5/19/2025

モデル概要

InternVL3-8B-Instruct は InternVL3 シリーズの SFT バージョンで、ネイティブマルチモーダル事前学習と SFT を経ていますが、MPO は実施されていません。このモデルはツール使用、GUI エージェント、産業画像分析、3D 視覚知覚など、さまざまなマルチモーダルタスクをサポートします。

モデル特徴

ネイティブマルチモーダル事前学習

言語と視覚の学習を単一の事前学習段階に統合し、モデルのマルチモーダル処理能力を強化します。

可変視覚位置エンコーディング（V2PE）

より小さく柔軟な位置増分を使用して視覚トークンを処理し、長文脈理解能力を向上させます。

マルチモーダル能力拡張

ツール使用、GUI エージェント、産業画像分析、3D 視覚知覚など、さまざまなタスクをサポートします。

高性能推論

複数のベンチマークテストで卓越したマルチモーダル推論と数学的能力を示しています。

モデル能力

マルチモーダル推論

OCR

チャートとドキュメント理解

複数画像と現実世界理解

視覚的定位

マルチモーダル多言語理解

動画理解

GUI 定位

空間推論

使用事例

産業応用

産業画像分析

産業シーンにおける画像を分析し、欠陥や異常を識別します。

教育

科学チャート理解

学生が科学チャートの情報を理解し分析するのを支援します。

エンターテインメント

動画コンテンツ理解

動画コンテンツを分析し、説明を生成したり関連質問に回答したりします。

license: apache-2.0 license_name: qwen license_link: https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/blob/main/LICENSE pipeline_tag: image-text-to-text library_name: transformers base_model:

OpenGVLab/InternVL3-8B-Instruct base_model_relation: finetune language:
multilingual tags:
internvl
unsloth
custom_code

Unsloth Dynamic 2.0は優れた精度を実現し、他の主要な量子化手法を凌駕します。

InternVL3-8B-Instruct

[üìÇ GitHub] [üìú InternVL 1.0] [üìú InternVL 1.5] [üìú InternVL 2.5] [üìú InternVL2.5-MPO] [üìú InternVL3]

[üÜï Blog] [üó®Ô∏è Chat Demo] [ü§ó HF Demo] [üöÄ Quick Start] [üìñ Documents]

はじめに

これはInternVL3-8BのSFTバージョンで、ネイティブマルチモーダル事前学習とSFTを経ていますが、MPOは実施されていません。どちらのバージョンを使用すべきか迷った場合は、InternVL3-8Bバージョンを使用してください。

私たちは、優れた総合性能を示す先進的なマルチモーダル大規模言語モデル（MLLM）シリーズであるInternVL3を紹介します。 InternVL 2.5と比較して、InternVL3は優れたマルチモーダル知覚と推論能力を示し、さらにツール使用、GUIエージェント、産業画像分析、3D視覚知覚など、マルチモーダル能力を拡張しています。さらに、InternVL3をQwen2.5 Chatモデルと比較しました。Qwen2.5の対応する事前学習済みベースモデルは、InternVL3の言語コンポーネントの初期化として使用されています。ネイティブマルチモーダル事前学習の恩恵により、InternVL3シリーズはQwen2.5シリーズよりも優れたテキスト性能を達成しています。

image/png

InternVL3ファミリー

以下の表に、InternVL3シリーズの概要を示します。

モデル名	ビジョン部分	言語部分	HFリンク
InternVL3-1B	InternViT-300M-448px-V2_5	Qwen2.5-0.5B	ü§ó リンク
InternVL3-2B	InternViT-300M-448px-V2_5	Qwen2.5-1.5B	ü§ó リンク
InternVL3-8B	InternViT-300M-448px-V2_5	Qwen2.5-7B	ü§ó リンク
InternVL3-9B	InternViT-300M-448px-V2_5	internlm3-8b-instruct	ü§ó リンク
InternVL3-14B	InternViT-300M-448px-V2_5	Qwen2.5-14B	ü§ó リンク
InternVL3-38B	InternViT-6B-448px-V2_5	Qwen2.5-32B	ü§ó リンク
InternVL3-78B	InternViT-6B-448px-V2_5	Qwen2.5-72B	ü§ó リンク

image/png

モデルアーキテクチャ

以下の図に示すように、InternVL3はInternVL 2.5およびその前身であるInternVL 1.5および2.0と同じモデルアーキテクチャを保持し、「ViT-MLP-LLM」パラダイムに従っています。この新しいバージョンでは、新たに増分的に事前学習されたInternViTを、InternLM 3やQwen 2.5などのさまざまな事前学習済みLLMと、ランダムに初期化されたMLPプロジェクタを使用して統合しています。

image/png

前バージョンと同様に、ピクセルアンシャッフル操作を適用し、視覚トークンの数を元の4分の1に削減しました。さらに、InternVL 1.5と同様の動的解像度戦略を採用し、画像を448√ó448ピクセルのタイルに分割しました。InternVL 2.0から導入された主な違いは、複数画像とビデオデータのサポートを追加したことです。

特筆すべきは、InternVL3ではVariable Visual Position Encoding (V2PE)を統合しており、視覚トークンに対してより小さく柔軟な位置増分を使用しています。V2PEの恩恵により、InternVL3は前身モデルよりも優れた長文理解能力を示しています。

学習戦略

ネイティブマルチモーダル事前学習

私たちは、言語と視覚の学習を単一の事前学習段階に統合するネイティブマルチモーダル事前学習アプローチを提案します。標準的なパラダイムとは異なり、最初に言語のみのモデルを訓練し、その後追加のモダリティに対応させるのではなく、私たちの方法はマルチモーダルデータ（例：画像-テキスト、ビデオ-テキスト、または画像-テキスト交互シーケンス）を大規模なテキストコーパスと交互に配置します。この統一された訓練スキームにより、モデルは言語的およびマルチモーダル表現を同時に学習でき、最終的に別々のアライメントやブリッジングモジュールを必要とせずに視覚言語タスクを処理する能力が向上します。詳細については私たちの論文を参照してください。

教師あり微調整

この段階では、InternVL2.5で提案されたランダムJPEG圧縮、正方形損失再重み付け、マルチモーダルデータパッキングの技術もInternVL3シリーズで採用されています。 InternVL3のSFT段階の主な進歩は、InternVL2.5と比較して、より高品質で多様な訓練データを使用している点です。具体的には、ツール使用、3Dシーン理解、GUI操作、長文タスク、ビデオ理解、科学図表、創造的執筆、マルチモーダル推論のための訓練サンプルをさらに拡張しました。

混合選好最適化

事前学習とSFT中、モデルは以前のグラウンドトゥルートークンに基づいて次のトークンを予測するように訓練されます。しかし、推論中、モデルは自身の以前の出力に基づいて各トークンを予測します。グラウンドトゥルートークンとモデル予測トークンの間のこの不一致は、分布シフトを引き起こし、モデルの連鎖的思考（CoT）推論能力を損なう可能性があります。この問題を緩和するために、MPOを採用し、ポジティブサンプルとネガティブサンプルの両方からの追加の監督を導入して、モデルの応答分布をグラウンドトゥルート分布と整合させ、推論性能を向上させます。具体的には、MPOの訓練目標は、選好損失$\mathcal{L}{\text{p}}$, 品質損失$\mathcal{L}{\text{q}}$, 生成損失$\mathcal{L}_{\text{g}}$ の組み合わせであり、以下のように定式化できます:

$$ \mathcal{L}=w_{p}\cdot\mathcal{L}{\text{p}} + w{q}\cdot\mathcal{L}{\text{q}} + w{g}\cdot\mathcal{L}_{\text{g}}, $$

ここで、$w_{*}$は各損失成分に割り当てられた重みを表します。MPOの詳細については私たちの論文を参照してください。

テスト時スケーリング

テスト時スケーリングは、LLMおよびMLLMの推論能力を向上させる効果的な方法として示されています。この作業では、Best-of-N評価戦略を使用し、VisualPRM-8Bを批評モデルとして使用して、推論および数学評価のための最良の応答を選択します。

マルチモーダル能力の評価

マルチモーダル推論と数学

image/png

OCR、チャート、および文書理解

image/png

複数画像および実世界理解

image/png

総合マルチモーダルおよび幻覚評価

image/png

視覚的接地

image/png

マルチモーダル多言語理解

image/png

ビデオ理解

image/png

GUI接地

image/png

空間推論

image/png

言語能力の評価

InternVL3をQwen2.5 Chatモデルと比較しました。Qwen2.5の対応する事前学習済みベースモデルは、InternVL3の言語コンポーネントの初期化として使用されています。ネイティブマルチモーダル事前学習の恩恵により、InternVL3シリーズはQwen2.5シリーズよりも優れた総合テキスト性能を達成しています。 Qwen2.5シリーズの評価スコアは公式に報告されたものと異なる場合があることに注意してください。これは、すべてのデータセットに対してOpenCompass評価を行う際に、表で提供されたプロンプトバージョンを採用したためです。

image/png

アブレーション研究

ネイティブマルチモーダル事前学習

InternVL2-8Bモデルで実験を行い、そのアーキテクチャ、初期化パラメータ、および訓練データを完全に変更せずに保持しました。従来、InternVL2-8Bは、特徴アライメントのためのMLPウォームアップ段階から始まり、その後命令チューニング段階に進む訓練パイプラインを採用していました。私たちの実験では、従来のMLPウォームアップ段階をネイティブマルチモーダル事前学習プロセスに置き換えました。この変更により、ネイティブマルチモーダル事前学習がモデルの総合的なマルチモーダル能力に与える貢献を分離しました。

以下の図の評価結果は、ネイティブマルチモーダル事前学習を行ったモデルが、ほとんどのベンチマークで完全な多段階訓練を受けたInternVL2-8Bベースラインと同等の性能を示していることを示しています。さらに、より高品質なデータで命令チューニングを行うと、モデルは評価されたマルチモーダルタスク全体でさらなる性能向上を示しました。これらの発見は、MLLMに強力なマルチモーダル能力を付与するネイティブマルチモーダル事前学習の効率性を強調しています。

image/png

混合選好最適化

以下の表に示すように、MPOで微調整されたモデルは、MPOなしのモデルと比較して、7つのマルチモーダル推論ベンチマークで優れた推論性能を示しています。具体的には、InternVL3-78BとInternVL3-38Bは、それぞれ4.1ポイントと4.5ポイントの性能向上を示しました。注目すべきは、MPOに使用された訓練データはSFTに使用されたデータのサブセットであり、性能向上は主に訓練アルゴリズムに起因していることです。

image/png

可変視覚位置エンコーディング

以下の表に報告されているように、V2PEの導入はほとんどの評価指標で顕著な性能向上をもたらしました。さらに、位置増分$ \delta $を変化させるアブレーション研究により、従来のコンテキストを主に含むタスクであっても、比較的小さな$ \delta $値が最適な性能を達成できることが明らかになりました。これらの発見は、MLLMにおける視覚トークンの位置エンコーディング戦略を改良する将来の取り組みにとって重要な洞察を提供します。

image/png

クイックスタート

transformersを使用してInternVL3-8Bを実行するためのサンプルコードを提供します。

モデルが正常に動作することを保証するために、transformers>=4.37.2を使用してください。

モデル読み込み

16ビット（bf16 / fp16）

import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL3-8B"
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True).eval().cuda()

BNB 8ビット量子化

import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL3-8B"
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    load_in_8bit=True,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True).eval()

複数GPU

このようにコードを書く理由は、テンソルが同じデバイス上にないために発生する複数GPU推論中のエラーを回避するためです。大規模言語モデル（LLM）の最初と最後の層が同じデバイス上にあることを保証することで、このようなエラーを防ぎます。

import math
import torch
from transformers import AutoTokenizer, AutoModel

def split_model(model_name):
    device_map = {}
    world_size = torch.cuda.device_count()
    config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
    num_layers = config.llm_config.num_hidden_layers
    # 最初のGPUはViTに使用されるため、半分のGPUとして扱います。
    num_layers_per_gpu = math.ceil(num_layers / (world_size - 0.5))
    num_layers_per_gpu = [num_layers_per_gpu] * world_size
    num_layers_per_gpu[0] = math.ceil(num_layers_per_gpu[0] * 0.5)
    layer_cnt = 0
    for i, num_layer in enumerate(num_layers_per_gpu):
        for j in range(num_layer):
            device_map[f'language_model.model.layers.{layer_cnt}'] = i
            layer_cnt += 1
    device_map['vision_model'] = 0
    device_map['mlp1'] = 0
    device_map['language_model.model.tok_embeddings'] = 0
    device_map['language_model.model.embed_tokens'] = 0
    device_map['language_model.output'] = 0
    device_map['language_model.model.norm'] = 0
    device_map['language_model.model.rotary_emb'] = 0
    device_map['language_model.lm_head'] = 0
    device_map[f'language_model.model.layers.{num_layers - 1}'] = 0

    return device_map

path = "OpenGVLab/InternVL3-8B"
device_map = split_model('InternVL3-8B')
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True,
    device_map=device_map).eval()

Transformersでの推論

import math
import numpy as np
import torch
import torchvision.transforms as T
from decord import VideoReader, cpu
from PIL import Image
from torchvision.transforms.functional import InterpolationMode
from transformers import AutoModel, AutoTokenizer

IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)

def build_transform(input_size):
    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
    transform = T.Compose([
        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),
        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
        T.ToTensor(),
        T.Normalize(mean=MEAN, std=STD)
    ])
    return transform

def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
    best_ratio_diff = float('inf')
    best_ratio = (1, 1)
    area = width * height
    for ratio in target_ratios:
        target_aspect_ratio = ratio[0] / ratio[1]
        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
        if ratio_diff < best_ratio_diff:
            best_ratio_diff = ratio_diff
            best_ratio = ratio
        elif ratio_diff == best_ratio_diff:
            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
                best_ratio = ratio
    return best_ratio

def dynamic_preprocess(image, min_num=1, max_num=12, image_size=448, use_thumbnail=False):
    orig_width, orig_height = image.size
    aspect_ratio = orig_width / orig_height

    # 既存の画像アスペクト比を計算
    target_ratios = set(
        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if
        i * j <= max_num and i * j >= min_num)
    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])

    # ターゲットに最も近いアスペクト比を見つける
    target_aspect_ratio = find_closest_aspect_ratio(
        aspect_ratio, target_ratios, orig_width, orig_height, image_size)

    # ターゲットの幅と高さを計算
    target_width = image_size * target_aspect_ratio[0]
    target_height = image_size * target_aspect_ratio[1]
    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]

    # 画像をリサイズ
    resized_img = image.resize((target_width, target_height))
    processed_images = []
    for i in range(blocks):
        box = (
            (i % (target_width // image_size)) * image_size,
            (i // (target_width // image_size)) * image_size,
            ((i % (target_width // image_size)) + 1) * image_size,
            ((i // (target_width // image_size)) + 1) * image_size
        )
        # 画像を分割
        split_img = resized_img.crop(box)
        processed_images.append(split_img)
    assert len(processed_images) == blocks
    if use_thumbnail and len(processed_images) != 1:
        thumbnail_img = image.resize((image_size, image_size))
        processed_images.append(thumbnail_img)
    return processed_images

def load_image(image_file, input_size=448, max_num=12):
    image = Image.open(image_file).convert('RGB')
    transform = build_transform(input_size=input_size)
    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)
    pixel_values = [transform(image) for image in images]
    pixel_values = torch.stack(pixel_values)
    return pixel_values

def split_model(model_name):
    device_map = {}
    world_size = torch.cuda.device_count()
    config = AutoConfig.from_pretrained(model_path, trust_remote_code=True)
    num_layers = config.llm_config.num_hidden_layers
    # 最初のGPUはViTに使用されるため、半分のGPUとして扱います。
    num_layers_per_gpu = math.ceil(num_layers / (world_size - 0.5))
    num_layers_per_gpu = [num_layers_per_gpu] * world_size
    num_layers_per_gpu[0] = math.ceil(num_layers_per_gpu[0] * 0.5)
    layer_cnt = 0
    for i, num_layer in enumerate(num_layers_per_gpu):
        for j in range(num_layer):
            device_map[f'language_model.model.layers.{layer_cnt}'] = i
            layer_cnt += 1
    device_map['vision_model'] = 0
    device_map['mlp1'] = 0
    device_map['language_model.model.tok_embeddings'] = 0
    device_map['language_model.model.embed_tokens'] = 0
    device_map['language_model.output'] = 0
    device_map['language_model.model.norm'] = 0
    device_map['language_model.model.rotary_emb'] = 0
    device_map['language_model.lm_head'] = 0
    device_map[f'language_model.model.layers.{num_layers - 1}'] = 0

    return device_map

# `load_in_8bit=True`に設定する場合、80GB GPUが2台必要です。
# `load_in_8bit=False`に設定する場合、少なくとも80GB GPUが3台必要です。
path = 'OpenGVLab/InternVL3-8B'
device_map = split_model('InternVL3-8B')
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    load_in_8bit=False,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True,
    device_map=device_map).eval()
tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True, use_fast=False)

# `max_num`でタイルの最大数を設定
pixel_values = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
generation_config = dict(max_new_tokens=1024, do_sample=True)

# 純粋なテキスト会話（単一ラウンド）
question = 'こんにちは、あなたは誰ですか？'
response, history = model.chat(tokenizer, None, question, generation_config, history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = '物語を教えてくれますか？'
response, history = model.chat(tokenizer, None, question, generation_config, history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 単一画像単一ラウンド会話
question = '<image>\nこの画像を簡単に説明してください。'
response = model.chat(tokenizer, pixel_values, question, generation_config)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 単一画像複数ラウンド会話
question = '<image>\nこの画像を詳細に説明してください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = 'この画像に基づいて詩を書いてください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config, history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 複数画像複数ラウンド会話、結合画像
pixel_values1 = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values2 = load_image('./examples/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)

question = '<image>\n2つの画像を詳細に説明してください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = 'これらの2つの画像の類似点と相違点は何ですか。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# 複数画像複数ラウンド会話、個別画像
pixel_values1 = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values2 = load_image('./examples/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)
num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]

question = 'Image-1: <image>\nImage-2: <image>\n2つの画像を詳細に説明してください。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               num_patches_list=num_patches_list,
                               history=None, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

question = 'これらの2つの画像の類似点と相違点は何ですか。'
response, history = model.chat(tokenizer, pixel_values, question, generation_config,
                               num_patches_list=num_patches_list,
                               history=history, return_history=True)
print(f'ユーザー: {question}\nアシスタント: {response}')

# バッチ推論、サンプルごとに単一画像
pixel_values1 = load_image('./examples/image1.jpg', max_num=12).to(torch.bfloat16).cuda()
pixel_values2 = load_image('./examples/image2.jpg', max_num=12).to(torch.bfloat16).cuda()
num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]
pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)

questions = ['<image>\n画像を詳細に説明してください。'] * len(num_patches_list)
responses = model.batch_chat(tokenizer, pixel_values,
                             num_patches_list=num_patches_list,
                             questions=questions,
                             generation_config=generation_config)
for question, response in zip(questions, responses):
    print(f'ユーザー: {question}\nアシスタント: {response}')

# ビデオ複数ラウンド会話
def get_index(bound, fps, max_frame, first_idx=0, num_segments=32):
    if bound:
        start, end = bound[0], bound[1]
    else:
        start, end = -100000, 100000
    start_idx = max(first_idx, round(start * fps))
    end_idx = min(round(end * fps), max_frame)
    seg_size = float(end_idx - start_idx) / num_segments
    frame_indices = np.array([
        int(start_idx + (seg_size / 2) + np