wav2vec2微調

# wav2vec2微調

Deepfake Audio Detection V1

基於wav2vec2-base微調的深度偽造音頻檢測模型，準確率達99.66%

Zeyadd-Mostaffa

Wav2vec2 Base 100k Gtzan Music Genres Finetuned Wav2vec2 Ivan

基於wav2vec2架構的音樂流派分類模型，在GTZAN數據集上微調，準確率達98%

Wav2vec2 Large Xlsr 53 Serbian Smart Home Commands

基於wav2vec2的塞爾維亞語智能家居語音指令識別模型，可識別7種控制指令

音頻分類其他

基於facebook/wav2vec2-base微調的噪聲識別模型，準確率達93.89%

My Awesome Mind Model

基於facebook/wav2vec2-base在minds14數據集上微調的音頻分類模型

Wav2vec2 Large Xlsr 53 Th Speech Emotion Recognition 3c

基於airesearch/wav2vec2-large-xlsr-53-th微調的泰語語音情感識別模型，支持憤怒、快樂、平靜三種情感分類

Wav2vec2 Turkish Gender Classification

基於facebook/wav2vec2-base微調的土耳其語性別分類模型，在common_voice_17_0數據集上訓練，測試集準確率達84.79%

W2v Speech Emotion Recognition

基於Wav2Vec2架構微調的英語語音情感識別模型，可識別六種情感狀態

音頻分類英語

Wav2vec2 ASV Deepfake Audio Detection

基於facebook/wav2vec2-base微調的深度偽造音頻檢測模型，用於識別合成或篡改的語音內容

說話人處理

Japanese Wav2vec2 Base Rs35kh

基於大規模日語自動語音識別語料庫ReazonSpeech v2.0微調的wav2vec 2.0 Base模型，適用於日語自動語音識別任務。

Transformers 日語

reazon-research

Audio Emotion Detection

本模型是基於facebook/wav2vec2-large-xlsr-53微調而成的音頻情感檢測模型，可識別7種情感狀態

Wav2vec2 Large Xls R 300m Amharic Demo Colab

基於facebook/wav2vec2-xls-r-300m在common_voice_16_1數據集上微調的阿姆哈拉語語音識別模型

Wav2vec2 Base ASVSpoof5 TUC N

基於wav2vec2-base微調的語音防偽檢測模型，在評估集上達到88.89%準確率

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k 002

基於facebook/wav2vec2-large-lv60在TIMIT數據集上微調的英語音素識別模型，音素錯誤率10.53%

Transformers 英語

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k

基於facebook/wav2vec2-large-lv60微調的英語音素識別模型，在TIMIT數據集上取得10.53%的音素錯誤率

Transformers 英語

Speechbrain Emotion Recognition Openvino

該模型使用微調的wav2vec2（基礎）架構，在IEMOCAP數據集上訓練，用於語音情感識別任務。

音頻分類英語

Wav2vec2 Large Xlrs Korean V5

該模型是基於facebook/wav2vec2-xls-r-300m在zeroth_korean數據集上微調的韓語自動語音識別模型，詞錯誤率為0.2433。

Deepfake Audio Detection

基於facebook/wav2vec2-base微調的深度偽造音頻檢測模型，在評估集上準確率達95.45%

Wav2vec Base Crema Sentiment Analysis

基於facebook/wav2vec2-base微調的語音情感分析模型，在評估集上達到70.87%的準確率

Violence Detect 44

基於facebook/wav2vec2-base-960h微調的音頻分類模型，用於檢測暴力聲音

Deeepfake Audio Recognition Ttoo

基於facebook/wav2vec2-base微調的深度偽造音頻識別模型，在評估集上準確率達95.45%

Wav2vec2 Base Arabic Speech Emotion Recognition

基於facebook/wav2vec2-base微調的阿拉伯語語音情感識別模型，在評估集上取得了99.92%的準確率。

ahmmedasaad2772

Wav2vec2 Base Gender Classification

基於facebook/wav2vec2-base微調的語音性別分類模型，在評估集上準確率達98.92%

Wav2vec2 Large Xlsr 53 English Finetuned Ravdess

基於wav2vec2-large-xlsr-53-english模型在RAVDESS數據集上微調的語音情感識別模型

My Awesome Mind Model

基於facebook/wav2vec2-base微調的音頻分類模型，在評估集上達到58.92%的準確率

Wav2vec2 Audio Emotion Classification

基於facebook/wav2vec2-base微調的音頻情感分類模型，在評估集上準確率達73.98%

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

基於wav2vec2架構的音頻分類模型，在GTZAN數據集上微調，用於音樂和語音分類任務

Wav2vec2 Large Robust 24 Ft Age Gender

該模型以原始音頻信號作為輸入，輸出年齡預測值以及性別概率（兒童/女性/男性），同時輸出最後一層transformer的池化狀態。

Wav2vec Fine Tuned Speech Command2

基於facebook/wav2vec2-base在speech_commands數據集上微調的語音識別模型，準確率達97.35%

Viet Tones Model

基於wav2vec2-base-vietnamese-250h微調的越南語聲調識別模型，準確率59.72%

Asr Wav2vec2 Commonvoice 14 Zh CN

這是一個基於CommonVoice中文數據集訓練的端到端自動語音識別系統，使用wav2vec2.0和CTC架構，支持中文語音識別。

語音識別中文

Asr Wav2vec2 Commonvoice 14 Es

這是一個基於CommonVoice西班牙語數據集訓練的端到端自動語音識別系統，使用wav2vec 2.0預訓練模型結合CTC解碼器。

語音識別西班牙語

Wav2vec2 Base Finetuned Gtzan

該模型是基於facebook/wav2vec2-base在GTZAN數據集上微調的音頻分類模型，主要用於音樂流派分類任務。

Wav2vec2 Base Down On

基於facebook/wav2vec2-base微調的二進制音頻分類模型，專門用於區分'down'和'on'的發音

Wav2vec2 Base Music Speech Both Classification

基於facebook/wav2vec2-base微調的音頻分類模型，用於區分音樂和語音

Wav2vec2 Nepali

基於Facebook的wav2vec2模型微調的尼泊爾語語音識別模型

Transformers 其他

anish-shilpakar

Neunit Nihaochangchu V3

基於facebook/wav2vec2-base微調的音頻分類模型，在superb數據集上訓練，準確率達99.99%

Bsc Ai Thesis Torgo Model 1

基於facebook/wav2vec2-base微調的語音處理模型，在評估集上表現出色

SER Wav2vec2 Large Xlsr 53 Eng Zho Adults

基於wav2vec2-large-xlsr-53微調的跨語言跨年齡組語音情感識別模型，支持英語和中文

Transformers 支持多種語言

基於facebook/wav2vec2-base微調的音頻分類模型，用於識別音樂流派

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase