低資源語音處理

# 低資源語音處理

Whisper Small Ta

該模型是基於OpenAI的Whisper Small在泰米爾語Common Voice 17.0數據集上微調的語音識別模型，詞錯誤率(WER)為43.23%。

Transformers 其他

Whisper Fa Tinyyy

基於OpenAI Whisper-tiny微調的波斯語自動語音識別模型，在common_voice_11_0數據集上訓練

Transformers 其他

Mms 300m Arabic Dialect Identifier

該模型是基於MMS-300m微調的阿拉伯語方言語音識別模型，能夠識別現代標準阿拉伯語及四種主要阿拉伯方言。

Transformers 阿拉伯語

Xls R Greek Cretan

首個針對克里特方言的自動語音識別(ASR)模型，基於希臘語XLS-R模型微調訓練。

Arabic Alphabet Speech Classification

這是一個用於阿拉伯字母語音分類的transformers模型，能夠識別和分類阿拉伯語字母的發音。

Whisper Large V3 Taiwanese Hakka

基於Whisper-large-v3微調的臺灣客家話語音識別模型，支持多種客家話方言

Transformers 其他

Wav2vec2 Large Xls R 300m Albanian Colab

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice_albanian數據集上微調的語音處理模型，適用於阿爾巴尼亞語相關任務。

Viet Tones Model

基於wav2vec2-base-vietnamese-250h微調的越南語聲調識別模型，準確率59.72%

Vegam Whisper Medium Ml

這是將thennal/whisper-medium-ml轉換為CTranslate2模型格式的版本，用於馬拉雅拉姆語語音識別

語音識別其他

Exp W2v2t Th Hubert S533

基於facebook/hubert-large-ll60k微調的泰語語音識別模型，訓練數據來自Common Voice 7.0

Transformers 其他

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V3

基於wav2vec2-large-xlsr-53的自動語音識別模型，在GARY109/AI_LIGHT_DANCE數據集上微調

Asr Wav2vec2 Dvoice Amharic

這是一個針對阿姆哈拉語的自動語音識別模型，使用wav2vec 2.0架構和CTC/Attention機制訓練

語音識別其他

Wav2vec2 Xls R 300m Mrbrown Finetune1

基於facebook/wav2vec2-xls-r-300m預訓練模型，使用uob_singlish數據集進行微調的語音識別模型

Malaya Speech Mrbrown Finetune1

該模型是基於uob_singlish數據集對wav2vec2-xls-r-300m-mixed進行微調的版本，專注於新加坡英語語音識別。

One Simple Finetune Test

該模型是基於li_singlish數據集對RuiqianLi/wav2vec2-large-xls-r-300m-singlish-colab進行微調的版本，主要用於新加坡英語語音識別任務。

該模型是基於facebook/wav2vec2-large-xlsr-53在未知數據集上微調得到的語音識別模型，支持阿拉伯語方言(Arabizi)的識別。

Speech Processing Project Wav2vec2

該模型是基於kingabzpro/wav2vec2-urdu微調的語音處理模型，適用於特定語音識別任務。

Filipino Wav2vec2 L Xls R 300m Test

該模型是基於facebook/wav2vec2-xls-r-300m在filipino_voice數據集上微調的語音識別模型，支持菲律賓語。

Wav2vec2 Large 100h Lv60 Self

Wav2Vec2-Large-100h-Lv60是基於100小時Libri-Light和Librispeech語音數據預訓練和微調的大模型，採用自訓練目標訓練，適用於16kHz採樣率的語音識別任務。

Transformers 英語

Wav2vec2 Common Voice Tr Demo

該模型是基於facebook/wav2vec2-large-xlsr-53在土耳其語Common Voice數據集上微調的語音識別模型

Transformers 其他

DistilHuBERT是一種通過層級蒸餾HuBERT模型實現的輕量級語音表徵學習模型，在保持性能的同時顯著減小模型體積和計算成本。

Transformers 英語

Wav2vec2 Xls R 300m Lg

該模型是基於facebook/wav2vec2-xls-r-300m在COMMON_VOICE - LG數據集上進行微調的語音識別模型，支持盧幹達語(lg)的自動語音識別任務。

Transformers 其他

W2v Timit Ft 4001

基於Wav2Vec 2.0架構的語音識別模型，在TIMIT數據集上微調，適用於英語語音轉文本任務

Unispeech 1350 En 168 Es Ft 1h

UniSpeech是一個統一語音表徵學習模型，結合標註與無標註數據進行預訓練，特別針對西班牙語音素識別進行了微調。

Transformers 西班牙語

Wav2vec2 Large Xlsr 53 Turkish

這是一個基於Facebook的wav2vec2-large-xlsr-53模型在土耳其語Common Voice數據集上微調的自動語音識別(ASR)模型。

語音識別其他

Sew D Small 100k Ft Timit

基於asapp/sew-d-small-100k在TIMIT_ASR數據集上微調的自動語音識別模型

patrickvonplaten

Wav2vec2 Large Xls R 300m My Hindi Home Colab

該模型是基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的版本，適用於語音識別任務。

Wav2vec2 Large Xlsr 53 Ir

基於wav2vec2-large-xlsr-53微調的愛爾蘭蓋爾語自動語音識別模型，在Common Voice 7.0數據集上訓練

Wav2vec2 Xls R 300m W2V2 XLSR 300M YAKUT SMALL

這是一個基於facebook/wav2vec2-xls-r-300m模型在雅庫特語(薩哈語)語音數據集上微調的語音識別模型

Transformers 其他

Wav2vec2 Large Xls Ar

基於facebook/wav2vec2-large-xlsr-53模型微調的阿拉伯語自動語音識別模型，在Common Voice阿拉伯語數據集上測試WER為52%。

Transformers 阿拉伯語

Wav2vec2 Large 960h

Wav2Vec2是Facebook開發的語音識別模型，通過自監督學習從原始音頻中學習語音表示，並在LibriSpeech數據集上微調，實現高精度語音轉錄。

Transformers 英語

Wav2vec2 Base 10k Voxpopuli Ft Sk

基於VoxPopuli語料庫10K未標註數據預訓練，並在斯洛伐克語轉錄數據上微調的語音識別模型

Transformers 其他

Wav2vec2 Large Xlsr Upper Sorbian Mixed

這是一個基於facebook/wav2vec2-large-xlsr-53微調的上索布語語音識別模型，訓練數據來自通用語音數據集和在線索布語課程。

語音識別其他

Wav2vec2 XLS R 300m Konkani

基於 facebook/wav2vec2-xls-r-300m 在私有數據集上微調的自動語音識別模型，具備魯棒語音事件處理能力。

StephennFernandes

Wav2vec2 Large Xlsr Arabic Demo Colab

基於facebook/wav2vec2-large-xlsr-53模型在通用語音數據集上微調的阿拉伯語語音識別模型

Fb Youtube Vi Large

該模型是基於facebook/wav2vec2-large-xlsr-53在越南語YouTube非正式音頻數據集上微調的自動語音識別模型。

Wav2vec2 Large Xlsr 53 Arabic

基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語自動語音識別模型，支持16kHz採樣率的語音輸入

語音識別阿拉伯語

Arabic Speech Recognition

基於facebook/wav2vec2-large-xlsr-53模型微調的阿拉伯語自動語音識別模型，支持16kHz採樣率語音輸入

語音識別阿拉伯語

Xlrs 53 Finnish

XLSR-Wav2Vec2是一個多語言語音識別模型，通過跨語言預訓練學習共享語音表徵，支持53種語言。

語音識別其他

Wav2vec2 Large Xlsr 53 Sw

基於XLSR-53大模型微調的斯瓦希里語自動語音識別模型，支持16kHz採樣率語音輸入

語音識別其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase