# 多语言语音翻译

Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
音频生成文本 Transformers 支持多种语言
U
fixie-ai
1,240
0
Ultravox V0 3
MIT
Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本 Transformers 英语
U
FriendliAI
20
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入,生成文本输出,并具备128K标记的上下文长度。
多模态融合 Transformers 支持多种语言
P
Robeeeeeeeeeee
21
1
Ultravox V0 5 Llama 3 3 70b
MIT
Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型,支持语音和文本输入,适用于语音代理、翻译等场景。
音频生成文本 Transformers 支持多种语言
U
fixie-ai
3,817
26
Ultravox V0 4 1 Llama 3 3 70b
MIT
Ultravox是一个基于Llama3.3-70B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本 Transformers 支持多种语言
U
fixie-ai
26
10
Ultravox V0 4 1 Mistral Nemo
MIT
Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型,可同时处理语音和文本输入,适用于语音代理、语音翻译等任务。
音频生成文本 Transformers 支持多种语言
U
fixie-ai
1,285
25
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主干构建,能够同时接收语音和文本作为输入。
文本生成音频 Transformers 支持多种语言
U
fixie-ai
204
24
Ultravox V0 4 1 Llama 3 1 8b
MIT
Ultravox是基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本 Transformers 支持多种语言
U
fixie-ai
747
97
Ultravox V0 4
MIT
Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本 Transformers 支持多种语言
U
fixie-ai
1,851
48
Seamless M4t V2 Large
SeamlessM4T是一个大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频 支持多种语言
S
audo
39
17
Seamless M4t V2 Large
SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频 Transformers 支持多种语言
S
facebook
64.59k
821
Hf Seamless M4t Large
SeamlessM4T 是一个支持多语言语音和文本翻译的统一模型,能够实现语音到语音、语音到文本、文本到语音和文本到文本的翻译任务。
文本生成音频 Transformers
H
facebook
4,648
57
Hf Seamless M4t Medium
SeamlessM4T 是一个多语言翻译模型,支持语音和文本的输入输出,实现跨语言交流。
文本生成音频 Transformers
H
facebook
14.74k
30
Wav2vec2 Xls R 300m En To 15
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务,支持15种语言的英语到目标语言的翻译。
语音识别 Transformers 支持多种语言
W
facebook
167
6
Wav2vec2 Xls R 2b En To 15
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型,针对15种语言的语音翻译任务进行了微调,能够将英语口语翻译为多种书面语言。
语音识别 Transformers 支持多种语言
W
facebook
27
1
Wav2vec2 Xls R 2b 21 To En
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型,用于多语言语音到英语的翻译任务。
语音识别 Transformers 支持多种语言
W
facebook
38
5
Wav2vec2 Xls R 2b 22 To 16
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务,支持22种输入语言和16种输出语言的互译。
语音识别 Transformers 支持多种语言
W
facebook
38
14
Wav2vec2 Xls R 300m 21 To En
Apache-2.0
Facebook的Wav2Vec2 XLS-R针对21种语言到英语的语音翻译进行了微调
语音识别 Transformers 支持多种语言
W
facebook
464
5
Wav2vec2 Xls R 1b En To 15
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型微调用于语音翻译任务,支持15种语言从英语到目标语言的翻译。
语音识别 Transformers 支持多种语言
W
facebook
505
3
Wav2vec2 Xls R 1b 21 To En
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型,用于多语言语音到英语的翻译任务
语音识别 Transformers 支持多种语言
W
facebook
511
3
S2t Medium Mustc Multilingual St
MIT
基于Transformer的端到端多语言语音翻译模型,支持英语到多种语言的语音翻译
语音识别 Transformers 支持多种语言
S
facebook
7,322
6
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase