Ultravox V0 6 Qwen 3 32b
MIT
Ultravox是一個多模態語音大語言模型,能夠理解和處理語音輸入,支持多種語言和噪聲環境。
音頻生成文本
Transformers 支持多種語言

U
fixie-ai
1,240
0
Whisper Large V3 Turbo Atcosim Finetune
MIT
基於OpenAI Whisper Large V3 Turbo微調的模型,專門優化用於空中交通管制(ATC)通信的轉錄。
語音識別
Transformers 英語

W
tclin
28
1
AV HuBERT MuAViC Ru
AV-HuBERT是一種視聽語音識別模型,基於MuAViC多語言視聽語料庫訓練,結合音頻和視覺模態實現魯棒性能。
音頻生成文本
Transformers

A
nguyenvulebinh
91
1
Audiox South V1
Apache-2.0
AudioX是由Jivi AI開發的多語言自動語音識別模型,專門針對印度南方語言優化,支持泰米爾語、泰盧固語、卡納達語和馬拉雅拉姆語。
語音識別 其他
A
jiviai
148
1
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
基於Llama-3架構的多模態語言模型,支持音頻和文本輸入理解,具有噪聲魯棒性和多輪對話能力
文本生成音頻 英語
I
homebrewltd
486
19
Whisper Small Ita
Apache-2.0
基於OpenAI Whisper-small針對意大利語優化的語音識別模型,通過特殊標記增強元信息捕獲能力
語音識別
Transformers 支持多種語言

W
litus-ai
193
8
Whisper Medium.en Fine Tuned For ATC
MIT
基於OpenAI Whisper Medium EN模型微調,專門優化空中交通管制通信的語音識別,單詞錯誤率降低84%
語音識別
Safetensors 英語
W
jacktol
2,525
1
Wav2vec2 Xls R 300m En Atc Atcosim
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在ATCOSIM語料庫上微調的版本,專用於航空交通管制通信的自動語音識別任務。
語音識別
Transformers 英語

W
Jzuluaga
104
4
Wav2vec2 Base Toy Train Data Random Noise
Apache-2.0
該模型是基於facebook/wav2vec2-base在玩具訓練數據上微調的語音識別模型,主要用於處理隨機噪聲環境下的語音識別任務。
語音識別
Transformers

W
scasutt
22
0
Wav2vec2 Base Toy Train Data Random Noise 0.1
Apache-2.0
基於facebook/wav2vec2-base模型在隨機噪聲數據集上微調的語音識別模型
語音識別
Transformers

W
scasutt
22
0
Macbert Base Chinese Medical Collation
Apache-2.0
基於macbert微調的醫療文本拼寫檢查模型,在3億規模醫學數據集上訓練,準確率達96%
序列標註
Transformers 中文

M
9pinus
23
10
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98