音頻處理

# 音頻處理

Wav2vec Checkpoints

基於facebook/wav2vec2-base微調的語音處理模型，在評估集上準確率達99.48%

Zeyadd-Mostaffa

Distilhubert Finetuned Gtzan 5 Epochs Finetuned Gtzan Finetuned Gtzan

基於DistilHuBERT架構的音頻分類模型，在GTZAN數據集上微調，用於音樂流派分類任務。

Deepfake Audio Detection

基於wav2vec2-base-finetuned進一步微調的語音處理模型，在評估集上準確率達98.82%

Wav2vec2 Base Finetuned

基於facebook/wav2vec2-base模型微調的語音處理模型，在評估集上達到99.97%的準確率

Wav2vec2 Base Finetuned

基於facebook/wav2vec2-base模型微調的語音處理模型，在評估集上準確率達99.97%

Distilhubert Finetuned Chorddetection

基於distilhubert模型微調的和絃檢測模型，在ChordStimation數據集上訓練，評估準確率達到100%

這是一個RVC（Retrieval-based Voice Conversion）模型，用於音頻到音頻的轉換任務。

Vocoder Daft Punk RVC 200 Epochs

這是一個RVC（即時語音轉換）模型，經過200輪訓練，適用於語音轉換任務。

Snoop是一個基於RVC（Retrieval-based Voice Conversion）技術的音頻轉音頻模型，主要用於語音轉換任務。

這是一個基於RVC（Retrieval-based Voice Conversion）的語音轉換模型，可以將輸入音頻轉換為特定風格的語音。

Drake_RVC 是一個基於 RVC (Retrieval-based Voice Conversion) 技術的音頻轉音頻模型，專門用於語音轉換任務。

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，能夠將輸入的音頻轉換為特定風格的語音輸出。

CJ RVC V2 400 Epochs

這是一個基於RVC（Retrieval-based Voice Conversion）技術的語音轉換模型，經過400輪訓練，適用於音頻轉音頻任務。

這是一個基於RVC(Retrieval-based Voice Conversion)技術的語音轉換模型，可以將輸入音頻轉換為安德魯·泰特風格的聲音。

這是一個RVC（Retrieval-based Voice Conversion）模型，用於音頻到音頻的轉換任務。

Audio Cls Unispeech Sat Base 100h Libri Ft Minds14 Finetune

基於microsoft/unispeech-sat-base-100h-libri-ft在minds14數據集上微調的語音分類模型

Wav2vec2 Base Finetuned Amd

該模型是基於facebook/wav2vec2-base在未知數據集上微調的版本，主要用於語音識別任務，在評估集上達到84.55%的準確率。

Whisper Small Ft Common Language Id

基於openai/whisper-small微調的通用語言識別模型，在評估集上準確率達88.6%

Wav2vec2 Base Finetuned Ie

基於facebook/wav2vec2-base模型微調的版本，用於特定任務

Wav2vec2 Base Finetuned Ks

基於facebook/wav2vec2-base模型微調的語音識別模型，在評估集上準確率達到87.27%。

Wav2vec2 Base Ft Cv3 V3

該模型是基於facebook/wav2vec2-base在Common Voice 3.0英語數據集上微調的語音識別模型，在測試集上取得了0.247的詞錯誤率。

Wav2vec Trained

該模型是基於facebook/wav2vec2-base微調而成的語音識別模型，在評估集上取得了詞錯誤率0.1042的表現。

Resepformer Wsj02mix

這是一個基於RE-SepFormer架構的音頻源分離模型，由SpeechBrain實現並在WSJ0-2Mix數據集上訓練。

聲音分離英語

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53

該模型是基於facebook/wav2vec2-large-xlsr-53在AI_LIGHT_DANCE - ONSET-SINGING數據集上微調的自動語音識別模型，主要用於歌唱語音識別任務。

Wav2vec2 Base Vios Commonvoice 1

該模型是基於facebook/wav2vec2-xls-r-300m在Common Voice數據集上微調的語音識別模型，支持自動語音識別任務。

Wav2vec2 Final 1 Lm 3

基於facebook/wav2vec2-base微調的語音識別模型，在評估集上詞錯誤率為0.4499，使用4-Gram語言模型時可降至0.126

基於facebook/wav2vec2-base微調的語音識別模型，支持自動語音轉文本任務。

基於facebook/wav2vec2-base微調的語音識別模型，支持自動語音轉文本任務

基於facebook/wav2vec2-base微調的語音識別模型，在評估集上詞錯誤率(WER)為1.0

基於facebook/wav2vec2-base微調的語音識別模型，主要用於自動語音識別(ASR)任務

該模型是基於facebook/wav2vec2-base微調的語音識別模型，主要用於自動語音識別任務。

基於facebook/wav2vec2-base微調的語音識別模型，詞錯誤率(WER)為1.0

Wav2vec2 Base Demo Colab

基於facebook/wav2vec2-base模型微調的語音識別模型，在評估集上取得了31.42%的詞錯誤率

20220517 150219

該模型是基於facebook/wav2vec2-xls-r-300m微調的語音識別模型，支持自動語音識別(ASR)任務。

Wav2vec2 Base Timit Demo Colab9

該模型是基於facebook/wav2vec2-base在TIMIT數據集上微調的語音識別模型，主要用於英語語音轉文本任務。

Wav2vec2 Base Toy Train Data Augmented

基於facebook/wav2vec2-base模型微調的語音識別模型，在增強訓練數據上進行了優化。

Wav2vec2 Base Cv

基於facebook/wav2vec2-base在common_voice數據集上微調的語音識別模型

Wav2vec2 Base 1

基於facebook/wav2vec2-base在common_voice數據集上微調的語音識別模型

Wav2vec2 Base Demo Colab

該模型是基於facebook/wav2vec2-base進行微調的語音識別模型，在Colab環境下訓練完成

Wav2vec2 Base Demo Colab

基於facebook/wav2vec2-base微調的語音識別模型，在特定數據集上訓練，詞錯誤率(WER)為0.3391。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase