U

Ultravox V0 3

Developed by fixie-ai
Ultravox 是一个基于 Llama3.1-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型,能够同时处理语音和文本输入。
Downloads 48.30k
Release Time : 7/25/2024

Model Overview

Ultravox 是一个多模态模型,能够接收语音和文本输入,并生成文本输出。适用于语音代理、语音到语音翻译和语音分析等任务。

Model Features

多模态输入
能够同时接收语音和文本输入,通过特殊伪标记 <|audio|> 处理音频嵌入向量。
语音理解
能够理解和处理语音内容,适用于语音代理和语音分析任务。
知识蒸馏
采用知识蒸馏损失函数,使模型能够匹配基于文本的 Llama 主干网络的逻辑输出。

Model Capabilities

语音识别
文本生成
语音到文本翻译
语音分析

Use Cases

语音代理
语音助手
作为语音助手,回答用户的问题并提供帮助。
语音翻译
语音到语音翻译
将一种语言的语音输入翻译成另一种语言的文本输出。
英译德 BLEU 22.68,西译英 BLEU 24.10
语音分析
语音内容分析
分析语音内容,提取关键信息或生成摘要。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase