Parakeet Tdt Ctc 0.6b Ja
该模型是基于FastConformer架构的日语自动语音识别(ASR)模型,由NVIDIA开发并转换为MLX格式。
语音识别
P
mlx-community
368
1
Pyannote Segmentation
MIT
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠情况。
说话人处理
P
it-just-works
771
0
Speaker Diarization 2.5
MIT
基于pyannote/speaker-diarization-3.0修改的说话人分割模型,使用speechbrain/spkrec-ecapa-voxceleb进行说话人嵌入,在某些测试中表现更优
说话人处理
S
Willy030125
26
0
Whisper Large V3 Turbo Russian
MIT
基于OpenAI Whisper Large V3 Turbo优化的俄语自动语音识别(ASR)模型,使用Mozilla Common Voice 17俄语数据集微调
语音识别
Transformers 其他

W
dvislobokov
1,022
12
Distilhubert Finetuned Gtzan
Apache-2.0
基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型,准确率达83%
音频分类
Transformers

D
Leo1212
25
0
Voice Gender Classifier
MIT
基于ECAPA-TDNN架构的预训练模型,用于从人类语音中分类性别
音频分类
Transformers

V
JaesungHuh
14.01k
16
Whisper Large V3 Gguf
Apache-2.0
Whisper 是一个多语言自动语音识别(ASR)系统,支持多种语言的语音转文本任务。
语音识别 支持多种语言
W
vonjack
931
14
Faster Whisper Large V3 Ja
MIT
基于OpenAI Whisper large-v3的日语优化版本,支持多语言语音识别
语音识别 支持多种语言
F
JhonVanced
46
3
Pyannote Segmentation 30
MIT
这是一个用于音频处理的说话人分割模型,能够检测语音活动、重叠语音和多个说话人。
说话人处理
P
collinbarnwell
873
0
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
语音识别 支持多种语言
F
Systran
713.48k
376
Speaker Diarization 3.1
MIT
一个用于说话人分割的音频处理模型,能够自动检测和分割音频中的不同说话人。
说话人处理
S
pyannote
11.7M
822
Segmentation 3.0
MIT
这是一个基于幂集编码的说话人分割模型,能够处理10秒音频片段并识别多个说话人及其重叠语音。
说话人处理
S
pyannote
12.6M
445
Sonic48k
Sonic48k 是一个基于 RVC (Retrieval-based Voice Conversion) 技术的音频转音频模型,主要用于语音转换任务。
语音合成
Transformers

S
sail-rvc
25
1
Saitamarvcv2 E520 S7800
这是一个RVC(Retrieval-Based Voice Conversion)模型,用于音频到音频的转换任务。
语音合成
Transformers

S
sail-rvc
234
0
Messi RVC V2 Crepe 200 Epochs
这是一个基于RVC (Retrieval-based Voice Conversion) 技术的语音转换模型,经过200轮训练,使用Crepe算法。
语音合成
Transformers

M
sail-rvc
3,077
0
Luffysan2333333
这是一个RVC(Retrieval-Based Voice Conversion)模型,用于音频转音频任务,能够实现声音转换。
语音合成
Transformers

L
sail-rvc
1,040
0
KORONE
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为特定风格的语音。
语音合成
Transformers

K
sail-rvc
16
1
Homersimpson2333333
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的语音转换模型,能够将输入音频转换为荷马·辛普森风格的声音。
语音合成
Transformers

H
sail-rvc
11.36k
1
Edsheeran2333333
这是一个基于RVC(Retrieval-based Voice Conversion)技术的语音转换模型,能够将输入音频转换为特定风格的语音。
语音合成
Transformers

E
sail-rvc
3,637
1
DBZ Vegeta RVC
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的语音转换模型,可以将输入音频转换为贝吉塔(《龙珠》角色)的声音。
语音合成
Transformers

D
sail-rvc
1,678
0
Ariana Grande RVC V1
这是一个基于RVC(Retrieval-Based Voice Conversion)技术的语音转换模型,能够将输入音频转换为爱莉安娜·格兰德风格的语音。
语音合成
Transformers

A
sail-rvc
5,404
2
21savage
这是一个RVC(Retrieval-Based Voice Conversion)模型,用于音频到音频的转换任务。
语音合成
Transformers

2
sail-rvc
1,739
0
Distilhubert Finetuned Gtzan
Apache-2.0
这是基于DistilHuBERT在GTZAN音乐分类数据集上微调的音频分类模型,准确率达82%
音频分类
Transformers

D
sanchit-gandhi
255
4
Faster Whisper Large V2
MIT
这是OpenAI Whisper large-v2模型的CTranslate2转换版本,用于高效语音识别
语音识别 支持多种语言
F
guillaumekln
161.19k
199
Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0的说话人分割模型,用于自动检测音频中的说话人变化和语音活动
说话人处理
P
philschmid
51
18
Wav2vec2 Keyword Spotting Int8
基于wav2vec2架构的语音关键词检测模型,已通过Optimum OpenVINO进行量化优化
语音识别
Transformers

W
sampras343
17
0
Wangyou Zhang Chime4 Enh Train Enh Conv Tasnet Raw
基于ESPnet框架训练的语音增强模型,使用chime4数据集进行训练,适用于单通道语音增强任务。
音频增强
W
espnet
57
1
Fasnettac Paper
基于Asteroid框架训练的音频分离模型,专门用于处理带噪声的多通道音频信号分离任务
声音分离
F
popcornell
21
3
Convtasnet Libri1Mix Enhsingle
基于Asteroid框架训练的ConvTasNet模型,用于单通道语音增强任务
音频增强
C
mhu-coder
18
1
Wav2vec2 Large Xlsr 53 Spanish
Apache-2.0
Facebook 发布的基于 Wav2Vec2 架构的大规模跨语言语音识别模型,专门针对西班牙语优化
语音识别 西班牙语
W
facebook
66.63k
20
Wav2vec2 Large Xlsr 53 Italian
Apache-2.0
Facebook 发布的基于 Wav2Vec2 架构的大规模意大利语自动语音识别模型,在 Common Voice 数据集上微调
语音识别 其他
W
facebook
4,013
6
Quran Speech Recognizer
该模型是一个基于迁移学习的阿拉伯语语音识别系统,专门用于识别古兰经诵读内容并定位到具体章节。
语音识别
Transformers

Q
Nuwaisir
123
9
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98