16kHz音頻適配

# 16kHz音頻適配

Whisper Medium Vaani Telugu

基於OpenAI Whisper-small架構的泰盧固語自動語音識別模型，由ARTPARK-IISc團隊針對印度語言優化

語音識別其他

Viwav2vec2 Base 3k

該模型是基於3千小時越南語語音數據預訓練的Wav2Vec2基礎模型，適用於越南語語音識別任務，需在下游任務上微調後使用。

Transformers 其他

Data2vec Audio Large 100h

Data2Vec是一個通用的自監督學習框架，適用於語音、自然語言處理和計算機視覺任務。該模型是基於Librispeech語音音頻進行100小時預訓練和微調的大模型。

Transformers 英語

Wav2vec2 Large Xlsr 53 Sakha

基於XLSR-53大模型微調的雅庫特語語音識別模型，詞錯誤率32.23%

語音識別其他

Wav2vec2 Large Xlsr 53 Chuvash

基於facebook/wav2vec2-large-xlsr-53模型微調的楚瓦什語自動語音識別模型，在通用語音數據集上訓練，詞錯誤率為40.01%。

語音識別其他

Wav2vec2 Large Xlsr 53 German

這是一個針對德語語音識別任務微調的XLSR-53大模型，基於Facebook的wav2vec2-large-xlsr-53模型，在Common Voice 6.1德語數據集上進行了微調。

語音識別德語

Wav2vec2 Large Fr Voxpopuli French

基於facebook/wav2vec2-large-fr-voxpopuli微調的法語語音識別模型，在Common Voice 6.1法語數據集上訓練，支持16kHz音頻輸入

語音識別法語

Wav2vec2 Large El Voxpopuli V2

基於VoxPopuli語料庫預訓練的希臘語語音識別模型，使用17.7小時未標註數據

Transformers 其他

Wav2vec2 Large Superb Ks

基於Wav2Vec2-Large-LV60預訓練模型，在SUPERB關鍵詞檢測任務上微調的語音分類模型

Transformers 英語

Wav2vec2 Large Xlsr Bengali

基於facebook/wav2vec2-large-xlsr-53模型微調的孟加拉語自動語音識別模型，使用OpenSLR數據集訓練。

Wav2vec2 Large West Germanic Voxpopuli V2

Facebook的Wav2Vec2大型模型，僅在西日耳曼語系的VoxPopuli語料庫66.3無標註數據上進行預訓練。

Wav2vec2 Large Xlrs Estonian

這是一個基於facebook/wav2vec2-large-xlsr-53模型在愛沙尼亞語通用語音數據集上微調的自動語音識別(ASR)模型。

語音識別其他

Wav2vec2 Large Xlsr 53 Dhivehi V2

基於facebook/wav2vec2-large-xlsr-53模型，使用普通語音的迪維希語數據進行了微調的自動語音識別模型。

Transformers 其他

Sew D Base Plus 400k Ft Ls100h

SEW-D-base+ 是由 ASAPP Research 開發的高效語音識別模型，基於 16kHz 採樣的語音音頻進行預訓練，在 LibriSpeech 數據集上表現出色。

Transformers 英語

W2v Hf Commonvoice From Xlsr53 Pretrain 0329UTC1500

基於facebook/wav2vec2-large-xlsr-53在Common Voice日語數據集上微調的語音識別模型

Wav2vec2 Large 960h Lv60

Wav2Vec2是一個強大的語音識別模型，通過自監督學習從原始音頻中提取特徵，並在有限標記數據下實現高性能語音識別。

語音識別英語

Wav2vec2 Large Xlsr 53 Mongolian

基於facebook/wav2vec2-large-xlsr-53在蒙古語通用語音數據集上微調的自動語音識別模型

Transformers 其他

Wav2vec2 Base Hr Voxpopuli V2

基於Facebook Wav2Vec2架構的語音模型，使用克羅地亞語VoxPopuli語料庫預訓練

Transformers 其他

Wav2vec2 Xlsr Multilingual 53 Fa

基於wav2vec 2.0架構的多語言語音識別模型，專門針對波斯語進行微調，顯著降低詞錯誤率

Wav2vec2 Xlsr 53 Tamil

基於facebook/wav2vec2-large-xlsr-53模型微調的泰米爾語語音識別模型，在Common Voice泰米爾語數據集上訓練。

語音識別其他

Unispeech 1350 En 17h Ky Ft 1h

基於微軟UniSpeech架構的語音識別模型，專門針對吉爾吉斯語進行微調

Transformers 其他

Wav2vec2 Base Da Voxpopuli V2

基於Facebook Wav2Vec2架構的語音模型，專門針對丹麥語進行預訓練，使用VoxPopuli語料庫的13.6k未標註數據。

Transformers 其他

Viwav2vec2 Base 100h

基於VLSP數據集中100小時未標註越南語語音音頻預訓練的Wav2Vec2基礎模型，需在下游任務上微調使用。

Transformers 其他

Hubert Large Superb Ks

基於Hubert-Large架構的關鍵詞檢測模型，在SUPERB基準測試中表現優異

Transformers 英語

Wav2vec2 Large Xlsr 53 Vietnamese

基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型，支持16kHz採樣率的語音輸入。

Transformers 其他

Wav2vec2 Large Xlsr 53 Spanish

基於facebook/wav2vec2-large-xlsr-53模型微調的西班牙語語音識別模型，在Common Voice 6.1西班牙語數據集上訓練

語音識別西班牙語

Wav2vec2 Base Vn 270h

基於約270小時越南語標註數據微調的語音識別模型，支持越南語自動語音識別任務

語音識別其他

Wav2vec2 Large Xlsr 53 Hungarian

這是一個基於facebook/wav2vec2-large-xlsr-53模型微調的匈牙利語自動語音識別模型，使用通用語音數據集訓練。

語音識別其他

SEW-tiny是由ASAPP Research開發的壓縮高效型語音預訓練模型，基於16kHz採樣的語音音頻進行預訓練，適用於多種下游語音任務。

Transformers 支持多種語言

Wav2vec2 Large Xlsr 53 Estonian

基於Facebook的XLSR-53大模型微調的愛沙尼亞語語音識別模型，在通用語音數據集上達到30.74%詞錯誤率

語音識別其他

Wav2vec2 Large Xlsr Georgian

基於facebook/wav2vec2-large-xlsr-53模型微調的格魯吉亞語自動語音識別模型，支持16kHz採樣率語音輸入

Transformers 其他

Sew D Tiny 100k

SEW-D是由ASAPP Research開發的壓縮高效型語音預訓練模型，基於16kHz採樣的語音音頻進行預訓練，適用於多種下游語音任務。

Transformers 英語

Wav2vec2 Large Xlsr 53 Estonian

基於facebook/wav2vec2-large-xlsr-53模型，使用通用語音數據集對愛沙尼亞語進行微調的自動語音識別模型

Transformers 其他

Wav2vec2 Large Xlsr Hindi Marathi

基於Facebook的wav2vec2-large-xlsr-53模型微調，支持印地語和馬拉地語的自動語音識別任務

Transformers 其他

Wav2vec2 Large Xlsr 53 Breton

基於facebook/wav2vec2-large-xlsr-53在布列塔尼語上微調的語音識別模型

語音識別其他

Wav2vec2 Large Xlsr 53 Lithuanian

基於Facebook的XLSR-53大模型微調的立陶宛語語音識別模型，在Common Voice數據集上訓練，測試WER為56.55%。

語音識別其他

Wav2vec2 Large Xlsr Vietnamese

基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型

語音識別其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase