Ultravox V0 4 Llama 3 1 70b
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 Whisper-medium 主干构建,能够同时接收语音和文本作为输入。
Downloads 79
Release Time : 9/10/2024
Model Overview
Ultravox 是一个多模态模型,能够同时接收语音和文本作为输入(例如,文本系统提示和语音用户消息)。模型的输入是一个包含特殊伪标记 `<|audio|>` 的文本提示,模型处理器会将该标记替换为输入音频生成的嵌入。
Model Features
多模态输入
能够同时接收语音和文本作为输入,适用于多种交互场景。
高性能语音识别
基于 Whisper-medium 编码器,提供高质量的语音识别能力。
知识蒸馏
采用知识蒸馏损失函数,Ultravox 试图匹配基于文本的 Llama 主干的逻辑输出。
Model Capabilities
语音识别
文本生成
多模态交互
语音到语音翻译
语音音频分析
Use Cases
语音代理
语音助手
作为语音代理使用,回答用户的问题。
翻译
语音到语音翻译
支持多种语言的语音翻译任务。
英译德 BLEU 30.30,西译英 BLEU 39.55
语音分析
语音音频分析
分析语音内容,提取关键信息。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 Chinese
R
uer
2,694
98