Voxtral Mini 3B 2507 Transformers
Voxtral MiniはMinistral 3Bをベースにした拡張版で、高度な音声入力機能を備え、音声文字起こし、翻訳、音声理解などの分野で優れた性能を発揮します。
ダウンロード数 416
リリース時間 : 7/18/2025
モデル概要
Voxtral Miniはテキストと音声処理能力を結合したマルチモーダルモデルで、Ministral 3Bのテキスト処理能力を維持しながら、強力な音声理解機能を追加しています。
モデル特徴
専用文字起こしモード
純粋な音声文字起こしモードで動作し、ソース音声の言語を自動認識してテキストに文字起こしします。
長文脈処理
32kトークンのコンテキスト長をサポートし、30 - 40分の音声を処理できます。
組み込み質問応答と要約機能
音声で直接質問し、構造化された要約を生成することができ、個別のASRと言語モデルは必要ありません。
ネイティブ多言語サポート
8つの主要言語の音声処理を自動検出してサポートします。
音声直接呼び出し機能
音声の意図に基づいてバックエンド機能、ワークフロー、またはAPI呼び出しを直接トリガーすることができます。
モデル能力
音声文字起こし
音声理解
多言語サポート
長音声処理
テキスト生成
質問応答システム
要約生成
複数回の対話
使用事例
音声処理
会議記録の文字起こし
30分の会議録音を自動的に文字起こしします。
高い精度の文字起こしテキスト
多言語音声翻訳
ある言語の音声をリアルタイムで別の言語のテキストに翻訳します。
8つの主要言語の相互翻訳をサポート
音声分析
音声内容理解
音声内容に直接質問して回答を取得します。
文字起こしせずに音声内容を理解できます。
音声要約生成
長い音声を分析して構造化された要約を生成します。
手作業で整理する時間を節約します。
🚀 Voxtral Mini 3B - 2507 (Transformers Edition)
Voxtral Miniは、Ministral 3Bを拡張したモデルで、最先端の音声入力機能を備えながら、クラス最高のテキスト処理性能を維持しています。音声文字起こし、翻訳、音声理解などのタスクで優れた性能を発揮します。
こちらのブログ記事でVoxtralについてもっと詳しく学ぶことができます。
✨ 主な機能
Voxtralは、Ministral - 3Bをベースに強力な音声理解機能を備えています。
- 専用の文字起こしモード:Voxtralは純粋な音声文字起こしモードで動作し、性能を最大化することができます。デフォルトでは、Voxtralは自動的にソース音声の言語を予測し、それに応じてテキストを文字起こしします。
- 長文コンテキスト:32kトークンのコンテキスト長を持ち、Voxtralは最大30分の音声の文字起こし、または40分の音声の理解を処理することができます。
- 組み込みのQ&Aと要約機能:音声で直接質問することができます。音声を分析し、別々の自動音声認識(ASR)と言語モデルを必要とせずに構造化された要約を生成します。
- ネイティブな多言語対応:自動言語検出機能を備え、世界で最も広く使用されている言語(英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語)で最先端の性能を発揮します。
- 音声からの直接的な関数呼び出し:ユーザーの発話意図に基づいて、バックエンドの関数、ワークフロー、またはAPI呼び出しを直接トリガーすることができます。
- 高度なテキスト処理能力:言語モデルのバックボーンであるMinistral - 3Bのテキスト理解能力を維持しています。
📊 ベンチマーク結果
音声
FLEURS、Mozilla Common Voice、Multilingual LibriSpeechのベンチマークにおける平均単語誤り率(WER):
テキスト
📦 インストール
このモデルは以下のフレームワークで使用できます。
Transformers
🤗:こちらを参照してください。
注意事項:
- チャット完了(例:音声理解)には
temperature = 0.2
とtop_p = 0.95
を、文字起こしにはtemperature = 0.0
を使用します。 - 1つのメッセージに複数の音声、および音声を含む複数のユーザーターンがサポートされています。
- システムプロンプトはまだサポートされていません。
Transformers 🤗
VoxtralはTransformers
でネイティブにサポートされています!
Transformers
をソースからインストールします。
pip install git+https://github.com/huggingface/transformers
💻 使用例
基本的な使用法
音声指示
➡️ 複数音声 + テキスト指示
from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch
device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)
conversation = [
{
"role": "user",
"content": [
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/mary_had_lamb.mp3",
},
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
},
{"type": "text", "text": "What sport and what nursery rhyme are referenced?"},
],
}
]
inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)
outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)
➡️ 複数ターン
from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch
device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)
conversation = [
{
"role": "user",
"content": [
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3",
},
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3",
},
{"type": "text", "text": "Describe briefly what you can hear."},
],
},
{
"role": "assistant",
"content": "The audio begins with the speaker delivering a farewell address in Chicago, reflecting on his eight years as president and expressing gratitude to the American people. The audio then transitions to a weather report, stating that it was 35 degrees in Barcelona the previous day, but the temperature would drop to minus 20 degrees the following day.",
},
{
"role": "user",
"content": [
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
},
{"type": "text", "text": "Ok, now compare this new audio with the previous one."},
],
},
]
inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)
outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)
➡️ テキストのみ
from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch
device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)
conversation = [
{
"role": "user",
"content": [
{
"type": "text",
"text": "Why should AI models be open-sourced?",
},
],
}
]
inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)
outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)
➡️ 音声のみ
from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch
device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)
conversation = [
{
"role": "user",
"content": [
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
},
],
}
]
inputs = processor.apply_chat_template(conversation)
inputs = inputs.to(device, dtype=torch.bfloat16)
outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("\nGenerated response:")
print("=" * 80)
print(decoded_outputs[0])
print("=" * 80)
➡️ バッチ推論
from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch
device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)
conversations = [
[
{
"role": "user",
"content": [
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3",
},
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/bcn_weather.mp3",
},
{
"type": "text",
"text": "Who's speaking in the speach and what city's weather is being discussed?",
},
],
}
],
[
{
"role": "user",
"content": [
{
"type": "audio",
"path": "https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/winning_call.mp3",
},
{"type": "text", "text": "What can you tell me about this audio?"},
],
}
],
]
inputs = processor.apply_chat_template(conversations)
inputs = inputs.to(device, dtype=torch.bfloat16)
outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("\nGenerated responses:")
print("=" * 80)
for decoded_output in decoded_outputs:
print(decoded_output)
print("=" * 80)
文字起こし
➡️ 文字起こし
from transformers import VoxtralForConditionalGeneration, AutoProcessor
import torch
device = "cuda"
repo_id = "MohamedRashad/Voxtral-Mini-3B-2507-transformers"
processor = AutoProcessor.from_pretrained(repo_id)
model = VoxtralForConditionalGeneration.from_pretrained(repo_id, torch_dtype=torch.bfloat16, device_map=device)
inputs = processor.apply_transcrition_request(language="en", audio="https://huggingface.co/datasets/hf-internal-testing/dummy-audio-samples/resolve/main/obama.mp3", model_id=repo_id)
inputs = inputs.to(device, dtype=torch.bfloat16)
outputs = model.generate(**inputs, max_new_tokens=500)
decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)
print("\nGenerated responses:")
print("=" * 80)
for decoded_output in decoded_outputs:
print(decoded_output)
print("=" * 80)
📄 ライセンス
このプロジェクトはApache - 2.0ライセンスの下で提供されています。
⚠️ 重要提示
当社があなたの個人情報をどのように処理するかについて詳しく知りたい場合は、プライバシーポリシーをお読みください。
Qwen2 Audio 7B
Apache-2.0
Qwen2-Audioは通義千問の大規模音声言語モデルシリーズで、音声チャットと音声分析の2つのインタラクションモードをサポートしています。
音声生成テキスト
Transformers 英語

Q
Qwen
28.26k
114
Qwen2 Audio 7B GGUF
Apache-2.0
Qwen2-Audioは先進的な小規模マルチモーダルモデルで、音声とテキスト入力をサポートし、音声認識モジュールに依存せずに音声インタラクションを実現します。
音声生成テキスト 英語
Q
NexaAIDev
5,001
153
Ultravox V0 5 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
3,817
26
Ultravox V0 4
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,851
48
Aero 1 Audio
MIT
軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる
音声生成テキスト
Transformers 英語

A
lmms-lab
1,348
74
Ultravox V0 4 1 Mistral Nemo
MIT
UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,285
25
Ultravox V0 6 Qwen 3 32b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,240
0
Omniaudio 2.6B
Apache-2.0
世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。
音声生成テキスト 英語
O
NexaAIDev
1,149
265
Qwen2 Audio 7B Instruct 4bit
これはQwen2-Audio-7B-Instructの4ビット量子化バージョンで、アリババクラウドのオリジナルQwenモデルに基づいて開発された、オーディオ-テキストマルチモーダル大規模言語モデルです。
音声生成テキスト
Transformers

Q
alicekyting
1,090
6
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravoxは多言語音声テキスト変換モデルで、LLaMA-3-2.1Bアーキテクチャを最適化し、複数言語の音声認識と文字起こしタスクをサポートします。
音声生成テキスト
Transformers 複数言語対応

U
onnx-community
1,088
3
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98