# 多言語音声翻訳

Ultravox V0 6 Qwen 3 32b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。
音声生成テキスト Transformers 複数言語対応
U
fixie-ai
1,240
0
Ultravox V0 3
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト Transformers 英語
U
FriendliAI
20
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instructは軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究とデータセットを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。
マルチモーダル融合 Transformers 複数言語対応
P
Robeeeeeeeeeee
21
1
Ultravox V0 5 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。
音声生成テキスト Transformers 複数言語対応
U
fixie-ai
3,817
26
Ultravox V0 4 1 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト Transformers 複数言語対応
U
fixie-ai
26
10
Ultravox V0 4 1 Mistral Nemo
MIT
UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。
音声生成テキスト Transformers 複数言語対応
U
fixie-ai
1,285
25
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。
テキスト生成オーディオ Transformers 複数言語対応
U
fixie-ai
204
24
Ultravox V0 4 1 Llama 3 1 8b
MIT
UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト Transformers 複数言語対応
U
fixie-ai
747
97
Ultravox V0 4
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト Transformers 複数言語対応
U
fixie-ai
1,851
48
Seamless M4t V2 Large
SeamlessM4Tは大規模な多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ 複数言語対応
S
audo
39
17
Seamless M4t V2 Large
SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ Transformers 複数言語対応
S
facebook
64.59k
821
Hf Seamless M4t Large
SeamlessM4Tは、多言語音声・テキスト翻訳をサポートする統一モデルで、音声から音声、音声からテキスト、テキストから音声、テキストからテキストへの翻訳タスクを実現できます。
テキスト生成オーディオ Transformers
H
facebook
4,648
57
Hf Seamless M4t Medium
SeamlessM4Tは多言語翻訳モデルで、音声とテキストの入出力をサポートし、言語を超えたコミュニケーションを実現します。
テキスト生成オーディオ Transformers
H
facebook
14.74k
30
Wav2vec2 Xls R 300m 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS-Rは21言語から英語への音声翻訳用にファインチューニングされています
音声認識 Transformers 複数言語対応
W
facebook
464
5
S2t Medium Mustc Multilingual St
MIT
Transformerベースのエンドツーエンド多言語音声翻訳モデルで、英語から複数言語への音声翻訳をサポート
音声認識 Transformers 複数言語対応
S
facebook
7,322
6
Wav2vec2 Xls R 2b 22 To 16
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルは多言語音声翻訳タスク用に微調整されており、22種類の入力言語と16種類の出力言語の相互翻訳をサポートしています。
音声認識 Transformers 複数言語対応
W
facebook
38
14
Wav2vec2 Xls R 2b En To 15
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルで、15言語の音声翻訳タスク向けにファインチューニングされており、英語の音声を複数の書き言葉に翻訳できます。
音声認識 Transformers 複数言語対応
W
facebook
27
1
Wav2vec2 Xls R 300m En To 15
Apache-2.0
FacebookのWav2Vec2 XLS - Rモデルを微調整して、多言語音声翻訳タスクに使用します。英語から15言語への翻訳をサポートします。
音声認識 Transformers 複数言語対応
W
facebook
167
6
Wav2vec2 Xls R 1b En To 15
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデルを音声翻訳タスク用にファインチューニングしたもので、英語から15言語への翻訳をサポートします。
音声認識 Transformers 複数言語対応
W
facebook
505
3
Wav2vec2 Xls R 1b 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS-Rモデル、多言語音声から英語への翻訳タスク用
音声認識 Transformers 複数言語対応
W
facebook
511
3
Wav2vec2 Xls R 2b 21 To En
Apache-2.0
FacebookのWav2Vec2 XLS - Rモデルで、多言語音声から英語への翻訳タスクに使用されます。
音声認識 Transformers 複数言語対応
W
facebook
38
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase