Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,240
0
Ultravox V0 3
MIT
Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 英语

U
FriendliAI
20
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入,生成文本输出,并具备128K标记的上下文长度。
多模态融合
Transformers 支持多种语言

P
Robeeeeeeeeeee
21
1
Ultravox V0 5 Llama 3 3 70b
MIT
Ultravox是基于Llama3.3-70B和Whisper构建的多模态语音大语言模型,支持语音和文本输入,适用于语音代理、翻译等场景。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
3,817
26
Ultravox V0 4 1 Llama 3 3 70b
MIT
Ultravox是一个基于Llama3.3-70B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
26
10
Ultravox V0 4 1 Mistral Nemo
MIT
Ultravox 是一个基于 Mistral-Nemo 和 Whisper 的多模态模型,可同时处理语音和文本输入,适用于语音代理、语音翻译等任务。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,285
25
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 whisper-large-v3-turbo 主干构建,能够同时接收语音和文本作为输入。
文本生成音频
Transformers 支持多种语言

U
fixie-ai
204
24
Ultravox V0 4 1 Llama 3 1 8b
MIT
Ultravox是基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
747
97
Ultravox V0 4
MIT
Ultravox 是一款基于 Llama3.1-8B-Instruct 和 Whisper-medium 的多模态语音大语言模型,能够同时处理语音和文本输入。
音频生成文本
Transformers 支持多种语言

U
fixie-ai
1,851
48
Seamless M4t V2 Large
SeamlessM4T是一个大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频 支持多种语言
S
audo
39
17
Seamless M4t V2 Large
SeamlessM4T v2 是 Facebook 发布的大规模多语言多模态机器翻译模型,支持近100种语言的语音和文本翻译。
文本生成音频
Transformers 支持多种语言

S
facebook
64.59k
821
Hf Seamless M4t Large
SeamlessM4T 是一个支持多语言语音和文本翻译的统一模型,能够实现语音到语音、语音到文本、文本到语音和文本到文本的翻译任务。
文本生成音频
Transformers

H
facebook
4,648
57
Hf Seamless M4t Medium
SeamlessM4T 是一个多语言翻译模型,支持语音和文本的输入输出,实现跨语言交流。
文本生成音频
Transformers

H
facebook
14.74k
30
Wav2vec2 Xls R 300m En To 15
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务,支持15种语言的英语到目标语言的翻译。
语音识别
Transformers 支持多种语言

W
facebook
167
6
Wav2vec2 Xls R 2b En To 15
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型,针对15种语言的语音翻译任务进行了微调,能够将英语口语翻译为多种书面语言。
语音识别
Transformers 支持多种语言

W
facebook
27
1
Wav2vec2 Xls R 2b 21 To En
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型,用于多语言语音到英语的翻译任务。
语音识别
Transformers 支持多种语言

W
facebook
38
5
Wav2vec2 Xls R 2b 22 To 16
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型微调用于多语言语音翻译任务,支持22种输入语言和16种输出语言的互译。
语音识别
Transformers 支持多种语言

W
facebook
38
14
Wav2vec2 Xls R 300m 21 To En
Apache-2.0
Facebook的Wav2Vec2 XLS-R针对21种语言到英语的语音翻译进行了微调
语音识别
Transformers 支持多种语言

W
facebook
464
5
Wav2vec2 Xls R 1b En To 15
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型微调用于语音翻译任务,支持15种语言从英语到目标语言的翻译。
语音识别
Transformers 支持多种语言

W
facebook
505
3
Wav2vec2 Xls R 1b 21 To En
Apache-2.0
Facebook的Wav2Vec2 XLS-R模型,用于多语言语音到英语的翻译任务
语音识别
Transformers 支持多种语言

W
facebook
511
3
S2t Medium Mustc Multilingual St
MIT
基于Transformer的端到端多语言语音翻译模型,支持英语到多种语言的语音翻译
语音识别
Transformers 支持多种语言

S
facebook
7,322
6
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98