Wav2Vec2微调

# Wav2Vec2微调

Wav2vec2 Ser English Finetuned

该模型基于Wav2Vec2架构微调训练，专门用于识别英语语音中的六种情绪状态（悲伤、愤怒、厌恶、恐惧、快乐、中性），准确率达92.42%。

Safetensors 英语

My Awesome Mind Model

基于facebook/wav2vec2-base模型在minds14数据集上微调的音频分类模型

专为企业披露场景设计的语音语调分类器，基于Wav2Vec2架构进行两阶段训练

Transformers 英语

基于Wav2Vec2微调的音频分类器，能够区分真人语音和AI生成语音。

Transformers 英语

Music Classifier

基于Wav2Vec2的音频分类模型，用于识别音乐流派

Baby Cry Classification Finetuned Babycry V4

基于wav2vec2-large-xlsr-53-english微调的婴儿哭声分类模型，准确率达81.5%

Speech Emotion Recognition With Facebook Wav2vec2 Large Xlsr 53

基于Wav2Vec2 Large XLSR-53模型微调的语音情感识别系统，能够识别7种常见情感

Wav2vec2 Xlsr English Speech Emotion Recognition

该模型用于从英语音频中识别六种基本情绪：愤怒、厌恶、恐惧、快乐、悲伤和惊讶，基于RAVDESS数据集训练。

Transformers 英语

Wav2vec2 Large Robust 6 Ft Age Gender

该模型通过微调Wav2Vec2-Large-Robust，能够从原始音频中预测说话者的年龄和性别。

Arabic Speech Syllables Recognition Using Wav2vec2

这是一个基于wav2vec2的阿拉伯语音节识别模型，能够从语音中识别现代标准阿拉伯语的音节。

Transformers 阿拉伯语

该模型是基于facebook/wav2vec2-xls-r-300m微调的语音识别模型，主要用于英语语音转文本任务。

Wav2vec2 Ljspeech Gruut

基于Wav2Vec2架构的音素识别模型，在LJSpeech Phonemes数据集上微调，用于将语音转换为音素序列

Transformers 英语

Wav2vec2 Xls R 300m En Atc Uwb Atcc And Atcosim

基于wav2vec2-xls-r-300m微调的航空管制通信语音识别模型，支持英语

Transformers 英语

Wav2vec English Speech Emotion Recognition

基于Wav2Vec 2.0微调的英语语音情感识别模型，能够识别7种不同情感

Malaya Speech Fine Tune Realcase 30 Jun Lm

该模型是在uob_singlish数据集上对malay-huggingface/wav2vec2-xls-r-300m-mixed进行微调的版本，主要用于语音识别任务。

这是一个基于facebook/wav2vec2-base-960h微调的法语语音识别模型，在评估集上取得了1.0的词错误率。

Malaya Speech Fine Tune Realcase 22 Jun

该模型是基于wav2vec2-xls-r-300m-mixed在新加坡英语(uob_singlish)数据集上微调的语音识别模型

基于facebook/wav2vec2-base微调的语音识别模型，在评估集上取得了0.3355的词错误率(WER)。

Model Facebookptbrlarge

基于Facebook wav2vec2-large-xlsr-53-portuguese模型在common_voice数据集上微调的巴西葡萄牙语语音识别模型

Wav2vec2 Base Common Voice 50p Persian Colab

该模型是基于facebook/wav2vec2-base在波斯语数据集上微调的语音识别模型，支持波斯语语音转文本任务。

Wav2vec2 Xls R 300m Mr Cv9 With Lm

基于Facebook XLS-R-300M模型在马拉地语语音数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Xls R 300m Timit Phoneme

这是一个基于facebook/wav2vec2-xls-r-300m模型在TIMIT数据集上微调的自动音素识别模型，主要用于英语语音的音素级别识别。

Transformers 英语

English Filipino Wav2vec2 L Xls R Test 09

基于jonatasgrosman/wav2vec2-large-xlsr-53-english微调的英语-菲律宾语语音识别模型，在评估集上WER为0.5750

English Filipino Wav2vec2 L Xls R Test 06

该模型是基于jonatasgrosman/wav2vec2-large-xlsr-53-english在filipino_voice数据集上微调的版本，用于英语和菲律宾语的语音识别任务。

Wav2vec2 Base Timit Demo Colab11

该模型是基于facebook/wav2vec2-base进行微调的语音识别模型，在TIMIT数据集上取得了0.4348的词错误率。

SSL Harveen Chadda Fine Tuning

该模型是基于Harveenchadha/vakyansh-wav2vec2-hindi-him-4200在未知数据集上微调得到的语音识别模型，支持印地语，在评估集上取得了10.08%的词错误率。

Gram Vaani Harveen Chadda Fine Tuning

这是一个基于Harveenchadha/vakyansh-wav2vec2-hindi-him-4200微调的语音识别模型，支持印地语语音转文本任务。

Wav2vec2 Large Robust 12 Ft Emotion Msp Dim

该模型通过对Wav2Vec2-Large-Robust进行微调训练，用于语音情感识别，输出唤醒度、支配度和效价三个维度的预测值。

Transformers 英语

基于facebook/wav2vec2-xls-r-300m在Mozilla Common Voice葡萄牙语数据集上微调的自动语音识别模型

Transformers 其他

Wav2vec2 Large Xlsr 53 Coraa Brazilian Portuguese Gain Normalization

这是一个针对葡萄牙语进行微调的Wav2vec 2.0模型，训练数据来源于多个葡萄牙语语音数据集，包括CORAA、CETUC、MLS等。

Transformers 其他

Finetune Indian Asr

基于Harveenchadha/vakyansh-wav2vec2-indian-english-enm-700微调的印度英语语音识别模型

Wav2vec2 Large Xlsr Rm Sursilv

这是一个基于facebook/wav2vec2-large-xlsr-53模型微调的自动语音识别模型，专门用于识别罗曼什语的苏塞尔瓦方言。

Wav2vec2 Large Xlsr Greek 1

基于facebook/wav2vec2-large-xlsr-53在希腊语上微调的语音识别模型，支持16kHz采样率的语音输入。

Transformers 其他

基于facebook/wav2vec2-base微调的自动语音识别(ASR)模型，在评估集上词错误率为0.3423

这是一个针对巴西葡萄牙语微调的Wav2vec 2.0模型，使用了多个巴西葡萄牙语数据集进行训练，在Common Voice测试集上WER为13.6。

Transformers 其他

Bp Commonvoice10 Xlsr

基于Common Voice 7.0数据集针对巴西葡萄牙语微调的Wav2vec 2.0模型，用于葡萄牙语语音识别

Transformers 其他

Wav2vec2 Large XLSR 53 Assamese

基于facebook/wav2vec2-large-xlsr-53微调的阿萨姆语自动语音识别模型，使用Common Voice数据集训练

语音识别其他

Wav2vec2 Large Xlsr 53 Turkish

这是一个基于Facebook的wav2vec2-large-xlsr-53模型在土耳其语Common Voice数据集上微调的自动语音识别(ASR)模型。

语音识别其他

基于facebook/wav2vec2-large-xlsr-53微调的埃及阿拉伯语自动语音识别模型，使用arabicspeech.org MGB-3数据集训练。

Transformers 阿拉伯语

Wav2vec2 Xlsr Multilingual 53 Fa

基于wav2vec 2.0架构的多语言语音识别模型，专门针对波斯语进行微调，显著降低词错误率

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase