实时音频处理

# 实时音频处理

Parakeet Tdt Ctc 0.6b Ja

该模型是基于FastConformer架构的日语自动语音识别(ASR)模型，由NVIDIA开发并转换为MLX格式。

Pyannote Segmentation

这是一个基于幂集编码的说话人分割模型，能够处理10秒音频片段并识别多个说话人及其重叠情况。

说话人处理

Speaker Diarization 2.5

基于pyannote/speaker-diarization-3.0修改的说话人分割模型，使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入，在某些测试中表现更优

说话人处理

Whisper Large V3 Turbo Russian

基于OpenAI Whisper Large V3 Turbo优化的俄语自动语音识别(ASR)模型，使用Mozilla Common Voice 17俄语数据集微调

Transformers 其他

Distilhubert Finetuned Gtzan

基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型，准确率达83%

Voice Gender Classifier

基于ECAPA-TDNN架构的预训练模型，用于从人类语音中分类性别

Whisper Large V3 Gguf

Whisper 是一个多语言自动语音识别（ASR）系统，支持多种语言的语音转文本任务。

语音识别支持多种语言

Faster Whisper Large V3 Ja

基于OpenAI Whisper large-v3的日语优化版本，支持多语言语音识别

语音识别支持多种语言

Pyannote Segmentation 30

这是一个用于音频处理的说话人分割模型，能够检测语音活动、重叠语音和多个说话人。

说话人处理

Faster Whisper Large V3

Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型，支持多种语言的语音转文字任务。

语音识别支持多种语言

Speaker Diarization 3.1

一个用于说话人分割的音频处理模型，能够自动检测和分割音频中的不同说话人。

说话人处理

Segmentation 3.0

这是一个基于幂集编码的说话人分割模型，能够处理10秒音频片段并识别多个说话人及其重叠语音。

说话人处理

Sonic48k 是一个基于 RVC (Retrieval-based Voice Conversion) 技术的音频转音频模型，主要用于语音转换任务。

Saitamarvcv2 E520 S7800

这是一个RVC（Retrieval-Based Voice Conversion）模型，用于音频到音频的转换任务。

Messi RVC V2 Crepe 200 Epochs

这是一个基于RVC (Retrieval-based Voice Conversion) 技术的语音转换模型，经过200轮训练，使用Crepe算法。

Luffysan2333333

这是一个RVC（Retrieval-Based Voice Conversion）模型，用于音频转音频任务，能够实现声音转换。

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，能够将输入音频转换为特定风格的语音。

Homersimpson2333333

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，能够将输入音频转换为荷马·辛普森风格的声音。

Edsheeran2333333

这是一个基于RVC（Retrieval-based Voice Conversion）技术的语音转换模型，能够将输入音频转换为特定风格的语音。

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，可以将输入音频转换为贝吉塔（《龙珠》角色）的声音。

Ariana Grande RVC V1

这是一个基于RVC（Retrieval-Based Voice Conversion）技术的语音转换模型，能够将输入音频转换为爱莉安娜·格兰德风格的语音。

这是一个RVC（Retrieval-Based Voice Conversion）模型，用于音频到音频的转换任务。

Distilhubert Finetuned Gtzan

这是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型，准确率达82%

Faster Whisper Large V2

这是OpenAI Whisper large-v2模型的CTranslate2转换版本，用于高效语音识别

语音识别支持多种语言

Pyannote Speaker Diarization Endpoint

基于pyannote.audio 2.0的说话人分割模型，用于自动检测音频中的说话人变化和语音活动

说话人处理

Wav2vec2 Keyword Spotting Int8

基于wav2vec2架构的语音关键词检测模型，已通过Optimum OpenVINO进行量化优化

Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw

基于ESPnet框架训练的语音增强模型，使用chime4数据集进行训练，适用于单通道语音增强任务。

Fasnettac Paper

基于Asteroid框架训练的音频分离模型，专门用于处理带噪声的多通道音频信号分离任务

Convtasnet Libri1Mix Enhsingle

基于Asteroid框架训练的ConvTasNet模型，用于单通道语音增强任务

Wav2vec2 Large Xlsr 53 Spanish

Facebook 发布的基于 Wav2Vec2 架构的大规模跨语言语音识别模型，专门针对西班牙语优化

语音识别西班牙语

Wav2vec2 Large Xlsr 53 Italian

Facebook 发布的基于 Wav2Vec2 架构的大规模意大利语自动语音识别模型，在 Common Voice 数据集上微调

语音识别其他

Quran Speech Recognizer

该模型是一个基于迁移学习的阿拉伯语语音识别系统，专门用于识别古兰经诵读内容并定位到具体章节。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase