# 噪聲魯棒性

Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一個多模態語音大語言模型,能夠理解和處理語音輸入,支持多種語言和噪聲環境。
音頻生成文本 Transformers 支持多種語言
U
fixie-ai
1,240
0
Whisper Large V3 Turbo Atcosim Finetune
MIT
基於OpenAI Whisper Large V3 Turbo微調的模型,專門優化用於空中交通管制(ATC)通信的轉錄。
語音識別 Transformers 英語
W
tclin
28
1
AV HuBERT MuAViC Ru
AV-HuBERT是一種視聽語音識別模型,基於MuAViC多語言視聽語料庫訓練,結合音頻和視覺模態實現魯棒性能。
音頻生成文本 Transformers
A
nguyenvulebinh
91
1
Audiox South V1
Apache-2.0
AudioX是由Jivi AI開發的多語言自動語音識別模型,專門針對印度南方語言優化,支持泰米爾語、泰盧固語、卡納達語和馬拉雅拉姆語。
語音識別 其他
A
jiviai
148
1
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
基於Llama-3架構的多模態語言模型,支持音頻和文本輸入理解,具有噪聲魯棒性和多輪對話能力
文本生成音頻 英語
I
homebrewltd
486
19
Whisper Small Ita
Apache-2.0
基於OpenAI Whisper-small針對意大利語優化的語音識別模型,通過特殊標記增強元信息捕獲能力
語音識別 Transformers 支持多種語言
W
litus-ai
193
8
Whisper Medium.en Fine Tuned For ATC
MIT
基於OpenAI Whisper Medium EN模型微調,專門優化空中交通管制通信的語音識別,單詞錯誤率降低84%
語音識別 Safetensors 英語
W
jacktol
2,525
1
Wav2vec2 Xls R 300m En Atc Atcosim
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在ATCOSIM語料庫上微調的版本,專用於航空交通管制通信的自動語音識別任務。
語音識別 Transformers 英語
W
Jzuluaga
104
4
Wav2vec2 Base Toy Train Data Random Noise
Apache-2.0
該模型是基於facebook/wav2vec2-base在玩具訓練數據上微調的語音識別模型,主要用於處理隨機噪聲環境下的語音識別任務。
語音識別 Transformers
W
scasutt
22
0
Wav2vec2 Base Toy Train Data Random Noise 0.1
Apache-2.0
基於facebook/wav2vec2-base模型在隨機噪聲數據集上微調的語音識別模型
語音識別 Transformers
W
scasutt
22
0
Macbert Base Chinese Medical Collation
Apache-2.0
基於macbert微調的醫療文本拼寫檢查模型,在3億規模醫學數據集上訓練,準確率達96%
序列標註 Transformers 中文
M
9pinus
23
10
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase