多语言语音翻译

# 多语言语音翻译

Ultravox V0 6 Qwen 3 32b

Ultravox是一个多模态语音大语言模型，能够理解和处理语音输入，支持多种语言和噪声环境。

音频生成文本

Transformers 支持多种语言

Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 英语

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型，融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入，生成文本输出，并具备128K标记的上下文长度。

多模态融合

Transformers 支持多种语言

Ultravox V0 5 Llama 3 3 70b

Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型，支持语音和文本输入，适用于语音代理、翻译等场景。

音频生成文本

Transformers 支持多种语言

Ultravox V0 4 1 Llama 3 3 70b

Ultravox是一个基于Llama3.3-70B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 支持多种语言

Ultravox V0 4 1 Mistral Nemo

Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型，可同时处理语音和文本输入，适用于语音代理、语音翻译等任务。

音频生成文本

Transformers 支持多种语言

Ultravox V0 4 1 Llama 3 1 70b

Ultravox 是一个多模态语音大语言模型，基于预训练的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主干构建，能够同时接收语音和文本作为输入。

文本生成音频

Transformers 支持多种语言

Ultravox V0 4 1 Llama 3 1 8b

Ultravox是基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 支持多种语言

Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 支持多种语言

Seamless M4t V2 Large

SeamlessM4T是一个大规模多语言多模态机器翻译模型，支持近100种语言的语音和文本翻译。

文本生成音频支持多种语言

Seamless M4t V2 Large

SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型，支持近100种语言的语音和文本翻译。

文本生成音频

Transformers 支持多种语言

Hf Seamless M4t Large

SeamlessM4T 是一个支持多语言语音和文本翻译的统一模型，能够实现语音到语音、语音到文本、文本到语音和文本到文本的翻译任务。

文本生成音频

Hf Seamless M4t Medium

SeamlessM4T 是一个多语言翻译模型，支持语音和文本的输入输出，实现跨语言交流。

文本生成音频

Wav2vec2 Xls R 300m En To 15

Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务，支持15种语言的英语到目标语言的翻译。

Transformers 支持多种语言

Wav2vec2 Xls R 2b En To 15

Facebook的Wav2Vec2 XLS-R模型，针对15种语言的语音翻译任务进行了微调，能够将英语口语翻译为多种书面语言。

Transformers 支持多种语言

Wav2vec2 Xls R 2b 21 To En

Facebook的Wav2Vec2 XLS-R模型，用于多语言语音到英语的翻译任务。

Transformers 支持多种语言

Wav2vec2 Xls R 2b 22 To 16

Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务，支持22种输入语言和16种输出语言的互译。

Transformers 支持多种语言

Wav2vec2 Xls R 300m 21 To En

Facebook的Wav2Vec2 XLS-R针对21种语言到英语的语音翻译进行了微调

Transformers 支持多种语言

Wav2vec2 Xls R 1b En To 15

Facebook的Wav2Vec2 XLS-R模型微调用于语音翻译任务，支持15种语言从英语到目标语言的翻译。

Transformers 支持多种语言

Wav2vec2 Xls R 1b 21 To En

Facebook的Wav2Vec2 XLS-R模型，用于多语言语音到英语的翻译任务

Transformers 支持多种语言

S2t Medium Mustc Multilingual St

基于Transformer的端到端多语言语音翻译模型，支持英语到多种语言的语音翻译

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase