# 端到端ASR

Parakeet Tdt 0.6b V2 Onnx
NVIDIA Parakeet TDT 0.6B V2 是一個基於自動語音識別(ASR)任務的模型,適用於英語語音轉文本任務。
語音識別 英語
P
istupakov
129
3
Nue Asr
Apache-2.0
Nue ASR是一種端到端的日語語音識別模型,集成了預訓練的語音和語言模型,識別準確度高且速度快。
語音識別 Transformers 支持多種語言
N
rinna
722
24
Asr Wav2vec2 Commonvoice 14 Es
Apache-2.0
這是一個基於CommonVoice西班牙語數據集訓練的端到端自動語音識別系統,使用wav2vec 2.0預訓練模型結合CTC解碼器。
語音識別 西班牙語
A
speechbrain
22
3
Asr Whisper Medium Commonvoice Ar
Apache-2.0
基於CommonVoice阿拉伯語數據集微調的Whisper medium語音識別模型,由SpeechBrain團隊開發
語音識別 阿拉伯語
A
speechbrain
17
2
Asr Whisper Medium Commonvoice Fa
Apache-2.0
基於CommonVoice-14.0波斯語數據集微調的whisper medium模型,用於波斯語自動語音識別任務。
語音識別 其他
A
speechbrain
21
3
Faster Whisper Large V2 Japanese 5k Steps
MIT
基於Whisper Large V2模型的日語自動語音識別(ASR)模型,使用CTranslate2優化轉換,支持高效推理。
語音識別 Transformers 日語
F
zh-plus
280
18
Asr Conformer Transformerlm Librispeech
Apache-2.0
基於SpeechBrain框架的自動語音識別模型,使用Conformer編碼器和Transformer解碼器,在LibriSpeech數據集上訓練,支持英語語音識別。
語音識別 英語
A
speechbrain
984
7
Asr Whisper Large V2 Commonvoice Fa
Apache-2.0
這是一個基於whisper-large-v2架構的自動語音識別模型,專門針對波斯語在CommonVoice數據集上進行了微調。
語音識別 其他
A
speechbrain
103
15
Wav2vec2 Large Xlsr 53 Spanish Ep5 944h
適用於西班牙語自動語音識別的聲學模型,基於facebook/wav2vec2-large-xlsr-53微調5個週期,使用約944小時西班牙語數據。
語音識別 Transformers 西班牙語
W
carlosdanielhernandezmena
111
3
Whisper Tiny.en
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)模型,在68萬小時標註數據上訓練,具有強大的泛化能力。
語音識別 英語
W
openai
145.30k
103
Whisper Small
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的泛化能力。
語音識別 支持多種語言
W
openai
2.0M
381
Icefall Asr Gigaspeech Conformer Ctc
Icefall 是一個基於 k2 框架的自動語音識別(ASR)工具包,專注於高效和靈活的語音識別模型訓練與推理。
語音識別 英語
I
speechcolab
0
0
Asr Wav2vec2 Dvoice Wolof
Apache-2.0
這是一個針對沃洛夫語的自動語音識別模型,基於wav2vec 2.0架構,在DVoice數據集上訓練,支持沃洛夫語語音轉錄。
語音識別 其他
A
speechbrain
44
4
Asr Wav2vec2 Dvoice Amharic
Apache-2.0
這是一個針對阿姆哈拉語的自動語音識別模型,使用wav2vec 2.0架構和CTC/Attention機制訓練
語音識別 其他
A
speechbrain
96
9
Wav2vec2 Large Xlsr Turkish Demo Colab
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型在common_voice土耳其語數據集上微調的語音識別模型
語音識別 Transformers
W
masoumehb
21
0
Wav2vec2 Large Xls R 300m Turkish Colab
Apache-2.0
基於facebook/wav2vec2-xls-r-300m在common_voice土耳其語數據集上微調的語音識別模型
語音識別 Transformers
W
abhiGOAT
19
0
Ascend With English
基於timit_asr數據集對ascend模型進行微調的英語語音識別模型
語音識別 Transformers
A
GleamEyeBeast
23
0
Wav2vec2 Base Timit Demo Colab
Apache-2.0
基於facebook/wav2vec2-base在TIMIT數據集上微調的語音識別模型,詞錯誤率(WER)為0.3382
語音識別 Transformers
W
wasilkas
24
0
Wav2vec2 Large Xlsr Kyrgyz
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型在吉爾吉斯語通用語音數據集上微調的自動語音識別模型。
語音識別 其他
W
iarfmoose
22
2
Wav2vec2 Xls R 300m Bas CV8 V2
Apache-2.0
基於facebook/wav2vec2-xls-r-300m在Common Voice 8數據集上微調的自動語音識別模型,支持巴斯克語(bas)。
語音識別 Transformers 其他
W
emre
18
0
Wav2vec2 Random
基於TIMIT_ASR數據集對wav2vec2-base-random模型進行微調的自動語音識別模型
語音識別 Transformers
W
patrickvonplaten
16
0
Wav2vec2 Large Xls R 300m Hindi Colab
Apache-2.0
基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的印地語語音識別模型
語音識別 Transformers
W
nimrah
16
0
Wav2vec2 Large Xlsr 53 Turkish
Apache-2.0
這是一個基於Facebook的wav2vec2-large-xlsr-53模型在土耳其語Common Voice數據集上微調的自動語音識別(ASR)模型。
語音識別 其他
W
ceyda
54
1
Wav2vec2 Large Xlsr Mongolian
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53在蒙古語通用語音數據集上微調的自動語音識別模型
語音識別 其他
W
bayartsogt
16
1
Wav2vec2 Base 100h
Apache-2.0
基於LibriSpeech 100小時數據訓練的Wav2Vec2基礎版語音識別模型
語音識別 Transformers 英語
W
vuiseng9
26
0
Asr Transformer Aishell
Apache-2.0
基於SpeechBrain框架預訓練的AISHELL(普通話)端到端自動語音識別系統,採用Transformer編碼器+聯合解碼器結構
語音識別 英語
A
speechbrain
76
11
Wav2vec2 Large Xlsr 53 Lithuanian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型,使用Common Voice數據集對立陶宛語進行微調的自動語音識別模型。
語音識別 其他
W
anton-l
29
0
Asr Wav2vec2 Commonvoice Fr
Apache-2.0
基於CommonVoice法語數據集訓練的wav2vec 2.0語音識別模型,使用CTC/Attention架構,無需語言模型
語音識別 法語
A
speechbrain
250
10
XLS R Marathi
Apache-2.0
基於facebook/wav2vec2-xls-r-300m在馬拉地語數據集上微調的自動語音識別模型
語音識別 Transformers 其他
X
StephennFernandes
34
0
Asr Wav2vec2 Commonvoice En
Apache-2.0
這是一個基於CommonVoice英語數據集訓練的端到端自動語音識別系統,結合了wav2vec 2.0預訓練模型和CTC解碼器。
語音識別 英語
A
speechbrain
681
12
Wav2vec2 Large Xlsr Thai Demo
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在泰語通用語音數據集上微調的語音識別模型
語音識別 Transformers 其他
W
sakares
609
5
Wav2vec2 2 Bert Large No Adapter
基於LibriSpeech數據集訓練的自動語音識別(ASR)模型,用於將英語語音轉換為文本
語音識別 Transformers
W
speech-seq2seq
15
1
Asr Crdnn Commonvoice Fr
Apache-2.0
這是一個基於CommonVoice法語數據集訓練的端到端自動語音識別系統,採用CRDNN架構結合CTC和注意力機制。
語音識別 法語
A
speechbrain
167
7
Wav2vec2 Base Turkish Cv7
Apache-2.0
基於wav2vec2架構的土耳其語自動語音識別模型,在Common Voice 7.0土耳其語數據集上微調
語音識別 Transformers 其他
W
cahya
21
0
Wav2vec2 Base Vietnamese 250h
基於wav2vec 2.0架構的越南語自動語音識別模型,在13,000小時未標註音頻和250小時標註數據上訓練
語音識別 Transformers 其他
W
nguyenvulebinh
6,868
39
Wav2vec2 Large Xlsr Estonian
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型微調的愛沙尼亞語自動語音識別(ASR)模型,使用Common Voice數據集進行訓練。
語音識別 其他
W
m3hrdadfi
26
0
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase