实时语音交互

# 实时语音交互

Voila Autonomous Preview

Voila是一个大型语音-语言基础模型家族，旨在提升人机交互体验，支持实时、低延迟的语音交互和多语言处理。

文本生成音频

Transformers 支持多种语言

Voila Audio Alpha

Voila是一个大型语音-语言基础模型家族，旨在提升人机交互体验，支持实时、低延迟的语音交互和多语言处理。

文本生成音频

Transformers 支持多种语言

Voila是一个全新的大型语音-语言基础模型系列，旨在将人机交互体验提升至全新水平。

文本生成音频

Transformers 支持多种语言

Seallms Audio 7B

SeaLLMs-Audio是面向东南亚的大规模音频语言模型，支持印尼语、泰语、越南语、英语和中文五大语种，具备音频分析、语音交互等能力。

音频生成文本支持多种语言

Voila Tokenizer

Voila是一个大型语音-语言基础模型系列，旨在提升人机交互体验，支持多种音频任务和语言。

文本生成音频

Transformers 支持多种语言

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，显著降低GPU显存占用，支持多模态处理能力。

文本生成音频

Transformers 其他

Llama 3 Typhoon V1.5 8b Audio Preview

Typhoon-Audio 预览版是一款支持泰语和英语的音频-语言模型，能够处理文本和音频输入，输出为文本。

音频生成文本

Ultravox 是一个基于 Llama3-8B-Instruct 和 Whisper-small 构建的多模态语音大语言模型，能够同时处理语音和文本输入。

音频生成文本

Transformers 英语

Ast Finetuned Speech Commands V2

基于Speech Commands v2数据集微调的音频频谱图变换器模型，用于音频分类任务，准确率达98.12%。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase