# LibriSpeech優化

Speecht5 Asr
MIT
基於LibriSpeech數據集微調的SpeechT5自動語音識別模型,支持將語音轉換為文本。
語音識別 Transformers
S
microsoft
12.30k
41
Asr Wav2vec2 Librispeech
Apache-2.0
這是一個基於LibriSpeech數據集訓練的端到端自動語音識別系統,結合了wav2vec 2.0預訓練模型和CTC技術,在英語語音識別任務上表現出色。
語音識別 英語
A
speechbrain
1,667
9
Assignment1 Francesco
MIT
基於語音到文本轉換器(S2T)訓練的自動語音識別(ASR)模型,專為英語語音識別設計
語音識別 Transformers 英語
A
Classroom-workshop
22
0
Assignment1 Maria
MIT
s2t-small-librispeech-asr 是一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型,基於序列到序列的轉換器架構。
語音識別 Transformers 英語
A
Classroom-workshop
23
0
Assignment1 Joane
MIT
一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型
語音識別 Transformers 英語
A
Classroom-workshop
22
0
Assignment1 Jack
MIT
一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型,基於序列到序列轉換器架構
語音識別 Transformers 英語
A
Classroom-workshop
24
0
Assignment1 Jane
MIT
s2t-small-librispeech-asr 是一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型,基於序列到序列轉換器架構。
語音識別 Transformers 英語
A
Classroom-workshop
29
0
Xlsr English
Apache-2.0
基於facebook/wav2vec2-xls-r-300m在librispeech_asr數據集上微調的英語語音識別模型
語音識別 Transformers
X
ashesicsis1
18
0
Wav2vec2 Conformer Rope Large 960h Ft
Apache-2.0
該模型整合了旋轉位置嵌入技術,基於16kHz採樣的語音音頻,在960小時的LibriSpeech數據上進行了預訓練和精細調優,適用於英語語音識別任務。
語音識別 Transformers 英語
W
facebook
22.02k
10
Wav2vec2 Conformer Rel Pos Large 960h Ft
Apache-2.0
基於16kHz採樣語音音頻的Wav2Vec2-Conformer模型,採用相對位置嵌入技術,在960小時Librispeech數據上預訓練和微調
語音識別 Transformers 英語
W
facebook
1,038
5
Wav2vec2 Large 960h Lv60 Self 4 Gram
Apache-2.0
基於Facebook Wav2Vec2-Large-960h-lv60-self模型,增加了英語4-gram語言模型以提升語音識別準確率
語音識別 英語
W
patrickvonplaten
22
4
Wav2vec2 Base 960h 4 Gram
Apache-2.0
基於Facebook的Wav2Vec2-Base-960h模型,增加了英語4-gram語言模型,用於提高自動語音識別(ASR)的準確率。
語音識別 Transformers 英語
W
patrickvonplaten
19
0
Wav2vec2 Large 10min Lv60 Self
Apache-2.0
該模型是基於Wav2Vec2架構的大規模語音識別模型,在Libri-Light和Librispeech的10分鐘數據上進行了預訓練和微調,使用自訓練目標進行訓練,適用於16kHz採樣率的語音音頻。
語音識別 Transformers 英語
W
Splend1dchan
177
0
Wav2vec2 Large 100h Lv60 Self
Apache-2.0
Wav2Vec2-Large-100h-Lv60是基於100小時Libri-Light和Librispeech語音數據預訓練和微調的大模型,採用自訓練目標訓練,適用於16kHz採樣率的語音識別任務。
語音識別 Transformers 英語
W
Splend1dchan
17
0
Wav2vec2 2 Bart Large No Adapter
該模型是基於LibriSpeech ASR數據集訓練的自動語音識別(ASR)模型,能夠將英語語音轉換為文本。
語音識別 Transformers
W
sanchit-gandhi
22
0
Asr Transformer Transformerlm Librispeech
Apache-2.0
這是一個基於Transformer架構的自動語音識別(ASR)系統,結合了CTC和Transformer解碼器,在LibriSpeech英文數據集上訓練。
語音識別 英語
A
speechbrain
533
7
S2t Large Librispeech Asr
MIT
一個用於自動語音識別(ASR)的端到端序列到序列轉換器模型,基於LibriSpeech數據集訓練
語音識別 Transformers 英語
S
facebook
422
10
Wav2vec2 Base 100h
Apache-2.0
Wav2Vec2基礎版是在16kHz採樣的Librispeech語音音頻上進行了100小時預訓練和微調的自動語音識別模型。
語音識別 Transformers 英語
W
facebook
4,380
6
Wav2vec2 2 Bert Large No Adapter Frozen Enc
該模型是基於librispeech_asr數據集訓練的語音識別模型,在評估集上取得了2.0133的詞錯誤率(WER)。
語音識別 Transformers
W
speech-seq2seq
25
2
Wav2vec2 2 Roberta Large No Adapter Frozen Enc
該模型是基於LibriSpeech ASR數據集訓練的語音識別模型,能夠將語音轉換為文本。
語音識別 Transformers
W
speech-seq2seq
27
0
Wavlm Libri Clean 100h Base
基於microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型
語音識別 Transformers
W
patrickvonplaten
6,515
1
Sew D Base Plus 400k Ft Ls100h
Apache-2.0
SEW-D-base+ 是由 ASAPP Research 開發的高效語音識別模型,基於 16kHz 採樣的語音音頻進行預訓練,在 LibriSpeech 數據集上表現出色。
語音識別 Transformers 英語
S
asapp
66
4
S2t Medium Librispeech Asr
MIT
一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型,基於序列到序列轉換器架構
語音識別 Transformers 英語
S
facebook
1,086
9
Wav2vec2 2 Bert Large No Adapter
基於LibriSpeech數據集訓練的自動語音識別(ASR)模型,用於將英語語音轉換為文本
語音識別 Transformers
W
speech-seq2seq
15
1
Wavlm Libri Clean 100h Base Plus
基於microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型
語音識別 Transformers
W
patrickvonplaten
126.17k
3
Wav2vec2 Librispeech Clean 100h Demo Dist
Apache-2.0
基於facebook/wav2vec2-large-lv60在LIBRISPEECH_ASR-CLEAN數據集上微調的語音識別模型
語音識別 Transformers
W
patrickvonplaten
15
0
Wav2vec2 Base 960h
Apache-2.0
Wav2Vec2是一個基於自監督學習的語音識別模型,由Facebook開發,在LibriSpeech數據集上訓練,支持英語語音轉文本任務。
語音識別 Transformers 英語
W
tommy19970714
19
0
S2t Small Librispeech Asr
MIT
一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型,基於序列到序列轉換器架構
語音識別 Transformers 英語
S
facebook
10.92k
27
Wav2vec2 Base 960h
Apache-2.0
Facebook開發的Wav2Vec2基礎模型,在960小時的Librispeech語音音頻上進行了預訓練和微調,用於英語自動語音識別任務。
語音識別 Transformers 英語
W
facebook
2.1M
331
Wav2vec2 Xls R 300m English
Apache-2.0
XLS-R-300M是基於facebook/wav2vec2-xls-r-300m在librispeech_asr數據集上微調的英語自動語音識別模型,在LibriSpeech測試集上取得了12.29%的詞錯誤率。
語音識別 Transformers 英語
W
vitouphy
21
3
Sew D Tiny 100k
Apache-2.0
SEW-D是由ASAPP Research開發的壓縮高效型語音預訓練模型,基於16kHz採樣的語音音頻進行預訓練,適用於多種下游語音任務。
語音識別 Transformers 英語
S
asapp
1,074
2
Dprnntasnet Ks2 Libri1Mix Enhsingle 16k
基於Asteroid框架訓練的音頻增強模型,專為單通道語音增強任務設計,在Libri1Mix數據集上訓練。
音頻增強
D
JorisCos
4,859
1
Dcunet Libri1Mix Enhsingle 16k
基於Asteroid框架訓練的音頻增強模型,專門用於單聲道語音增強任務
音頻增強
D
JorisCos
69
5
Dptnet Libri1Mix Enhsingle 16k
基於Asteroid框架訓練的音頻增強模型,專注於單聲道語音增強任務
音頻增強
D
JorisCos
4,446
3
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase