Voxtral MiniオープンソースオーディオAIモデル - 無料でデプロイして音声文字起こし、翻訳、理解を実現

ホーム

Voxtral Mini 3B 2507 Transformers

MohamedRashadによって開発

Voxtral MiniはMinistral 3Bをベースにした拡張版で、高度な音声入力機能を備え、音声文字起こし、翻訳、音声理解などの分野で優れた性能を発揮します。

音声生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #音声理解 #多言語文字起こし #長文脈処理

ダウンロード数 416

リリース時間 : 7/18/2025

モデル概要

Voxtral Miniはテキストと音声処理能力を結合したマルチモーダルモデルで、Ministral 3Bのテキスト処理能力を維持しながら、強力な音声理解機能を追加しています。

モデル特徴

専用文字起こしモード

純粋な音声文字起こしモードで動作し、ソース音声の言語を自動認識してテキストに文字起こしします。

長文脈処理

32kトークンのコンテキスト長をサポートし、30 - 40分の音声を処理できます。

組み込み質問応答と要約機能

音声で直接質問し、構造化された要約を生成することができ、個別のASRと言語モデルは必要ありません。

ネイティブ多言語サポート

8つの主要言語の音声処理を自動検出してサポートします。

音声直接呼び出し機能

音声の意図に基づいてバックエンド機能、ワークフロー、またはAPI呼び出しを直接トリガーすることができます。

モデル能力

音声文字起こし

音声理解

多言語サポート

長音声処理

テキスト生成

質問応答システム

要約生成

複数回の対話

使用事例

音声処理

会議記録の文字起こし

30分の会議録音を自動的に文字起こしします。

高い精度の文字起こしテキスト

多言語音声翻訳

ある言語の音声をリアルタイムで別の言語のテキストに翻訳します。

8つの主要言語の相互翻訳をサポート

音声分析

音声内容理解

音声内容に直接質問して回答を取得します。

文字起こしせずに音声内容を理解できます。

音声要約生成

長い音声を分析して構造化された要約を生成します。

手作業で整理する時間を節約します。

🚀 Voxtral Mini 3B - 2507 (Transformers Edition)

Voxtral Miniは、Ministral 3Bを拡張したモデルで、最先端の音声入力機能を備えながら、クラス最高のテキスト処理性能を維持しています。音声文字起こし、翻訳、音声理解などのタスクで優れた性能を発揮します。

こちらのブログ記事でVoxtralについてもっと詳しく学ぶことができます。

✨ 主な機能

Voxtralは、Ministral - 3Bをベースに強力な音声理解機能を備えています。

専用の文字起こしモード：Voxtralは純粋な音声文字起こしモードで動作し、性能を最大化することができます。デフォルトでは、Voxtralは自動的にソース音声の言語を予測し、それに応じてテキストを文字起こしします。
長文コンテキスト：32kトークンのコンテキスト長を持ち、Voxtralは最大30分の音声の文字起こし、または40分の音声の理解を処理することができます。
組み込みのQ&Aと要約機能：音声で直接質問することができます。音声を分析し、別々の自動音声認識（ASR）と言語モデルを必要とせずに構造化された要約を生成します。
ネイティブな多言語対応：自動言語検出機能を備え、世界で最も広く使用されている言語（英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語）で最先端の性能を発揮します。
音声からの直接的な関数呼び出し：ユーザーの発話意図に基づいて、バックエンドの関数、ワークフロー、またはAPI呼び出しを直接トリガーすることができます。
高度なテキスト処理能力：言語モデルのバックボーンであるMinistral - 3Bのテキスト理解能力を維持しています。

📊 ベンチマーク結果

音声

FLEURS、Mozilla Common Voice、Multilingual LibriSpeechのベンチマークにおける平均単語誤り率（WER）：

image/png

テキスト

image/png

📦 インストール

このモデルは以下のフレームワークで使用できます。

Transformers 🤗：こちらを参照してください。

注意事項：

チャット完了（例：音声理解）にはtemperature = 0.2とtop_p = 0.95を、文字起こしにはtemperature = 0.0を使用します。
1つのメッセージに複数の音声、および音声を含む複数のユーザーターンがサポートされています。
システムプロンプトはまだサポートされていません。

Transformers 🤗

VoxtralはTransformersでネイティブにサポートされています！

Transformersをソースからインストールします。

pip install git+https://github.com/huggingface/transformers

💻 使用例

基本的な使用法

音声指示

➡️ 複数音声 + テキスト指示

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/mary_had_lamb.mp3",
            },
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
            },
            {"type": "text", "text": "What sport and what nursery rhyme are referenced?"},
        ],
    }
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ 複数ターン

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3",
            },
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3",
            },
            {"type": "text", "text": "Describe briefly what you can hear."},
        ],
    },
    {
        "role": "assistant",
        "content": "The audio begins with the speaker delivering a farewell address in Chicago, reflecting on his eight years as president and expressing gratitude to the American people. The audio then transitions to a weather report, stating that it was 35 degrees in Barcelona the previous day, but the temperature would drop to minus 20 degrees the following day.",
    },
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
            },
            {"type": "text", "text": "Ok, now compare this new audio with the previous one."},
        ],
    },
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ テキストのみ

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Why should AI models be open-sourced?",
            },
        ],
    }
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ 音声のみ

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversation = [
    {
        "role": "user",
        "content": [
            {
                "type": "audio",
                "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
            },
        ],
    }
]

inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)

➡️ バッチ推論

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

conversations = [
    [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio",
                    "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3",
                },
                {
                    "type": "audio",
                    "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3",
                },
                {
                    "type": "text",
                    "text": "Who's speaking in the speach and what city's weather is being discussed?",
                },
            ],
        }
    ],
    [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio",
                    "path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
                },
                {"type": "text", "text": "What can you tell me about this audio?"},
            ],
        }
    ],
]

inputs = processor.apply_chat_template(conversations)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated responses:")
print("=" * 80)
for decoded_output in decoded_outputs:
    print(decoded_output)
    print("=" * 80)

文字起こし

➡️ 文字起こし

from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch

device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"

processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)

inputs = processor.apply_transcrition_request(language="en", audio="https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3", model_id=repo_id)
inputs = inputs.to(device, dtype=torch.bfloat16)

outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)

print("\nGenerated responses:")
print("=" * 80)
for decoded_output in decoded_outputs:
    print(decoded_output)
    print("=" * 80)