U

Ultravox V0 4 Llama 3 1 70b

Developed by fixie-ai
Ultravox 是一个多模态语音大语言模型,基于预训练的 Llama3.1-70B-Instruct 和 Whisper-medium 主干构建,能够同时接收语音和文本作为输入。
Downloads 79
Release Time : 9/10/2024

Model Overview

Ultravox 是一个多模态模型,能够同时接收语音和文本作为输入(例如,文本系统提示和语音用户消息)。模型的输入是一个包含特殊伪标记 `<|audio|>` 的文本提示,模型处理器会将该标记替换为输入音频生成的嵌入。

Model Features

多模态输入
能够同时接收语音和文本作为输入,适用于多种交互场景。
高性能语音识别
基于 Whisper-medium 编码器,提供高质量的语音识别能力。
知识蒸馏
采用知识蒸馏损失函数,Ultravox 试图匹配基于文本的 Llama 主干的逻辑输出。

Model Capabilities

语音识别
文本生成
多模态交互
语音到语音翻译
语音音频分析

Use Cases

语音代理
语音助手
作为语音代理使用,回答用户的问题。
翻译
语音到语音翻译
支持多种语言的语音翻译任务。
英译德 BLEU 30.30,西译英 BLEU 39.55
语音分析
语音音频分析
分析语音内容,提取关键信息。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase