自动语音识别

# 自动语音识别

Finetuned Whisper Mr

基于simran14/mr-model-h在Common Voice 17.0马拉地语数据集上微调的Whisper小型语音识别模型

Transformers 其他

Speaker Diarization Optimized

Pyannote.audio的说话人分割管道，用于自动检测音频中的说话人变化和分割语音片段

说话人处理

Speaker Diarization 3.1

一个用于说话人分割的音频处理模型，能够自动检测和分割音频中的不同说话人。

说话人处理

Psst Fairseq Rir

该模型是基于Wav2vec 2.0基础架构微调的自动语音识别(ASR)模型，使用经过房间脉冲响应(RIR)增强的TIMIT子集训练

Transformers 英语

基于xls-r-dummy在Common Voice 8.0阿布哈兹语数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 300m Kh

这是一个用于高棉语自动语音识别（ASR）的基线模型，旨在为高棉语语音识别任务提供基础支持。

Wynehills Mimi ASR

这是一个自动语音识别(ASR)模型，在未知数据集上训练，词错误率(WER)为0.6309。

这是一个基于wav2vec2架构的小型随机鲁棒性模型，在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - AB数据集上进行了微调，用于自动语音识别任务。

Transformers 其他

Xls R Demo Test

该模型是在MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - AB数据集上对xls-r-dummy进行微调的自动语音识别模型

Transformers 其他

Wav2vec2 Base Timit Fine Tuned

该模型是基于facebook/wav2vec2-base在TIMIT_ASR数据集上微调的自动语音识别(ASR)模型，在评估集上取得了0.2151的词错误率(WER)。

patrickvonplaten

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase