Voice Activity Detection
MIT
基於pyannote.audio 2.1版本的語音活動檢測模型,用於識別音頻中的語音活動時間段
語音識別
V
pyannote
7.7M
181
Wav2vec2 Large Xlsr 53 Portuguese
Apache-2.0
這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型,基於Common Voice 6.1數據集訓練,支持葡萄牙語語音轉文本。
語音識別 其他
W
jonatasgrosman
4.9M
32
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
語音識別 支持多種語言
W
openai
4.6M
4,321
Whisper Large V3 Turbo
MIT
Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型,經過超過500萬小時標記數據的訓練,在零樣本設置下展現出強大的泛化能力。
語音識別
Transformers 支持多種語言

W
openai
4.0M
2,317
Wav2vec2 Large Xlsr 53 Russian
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 其他
W
jonatasgrosman
3.9M
54
Wav2vec2 Large Xlsr 53 Chinese Zh Cn
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 中文
W
jonatasgrosman
3.8M
110
Wav2vec2 Large Xlsr 53 Dutch
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型,在Common Voice和CSS10數據集上訓練,支持16kHz音頻輸入。
語音識別 其他
W
jonatasgrosman
3.0M
12
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型,支持16kHz採樣率的語音輸入
語音識別 日語
W
jonatasgrosman
2.9M
33
Mms 300m 1130 Forced Aligner
基於Hugging Face預訓練模型的文本與音頻強制對齊工具,支持多種語言,內存效率高
語音識別
Transformers 支持多種語言

M
MahmoudAshraf
2.5M
50
Wav2vec2 Large Xlsr 53 Arabic
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型,在Common Voice和阿拉伯語語音語料庫上訓練
語音識別 阿拉伯語
W
jonatasgrosman
2.3M
37
Whisper Base.en
Apache-2.0
Whisper是一個強大的自動語音識別模型,經過68萬小時的數據訓練,具備優異的泛化能力。
語音識別 英語
W
openai
2.2M
37
Wav2vec2 Base 960h
Apache-2.0
Facebook開發的Wav2Vec2基礎模型,在960小時的Librispeech語音音頻上進行了預訓練和微調,用於英語自動語音識別任務。
語音識別
Transformers 英語

W
facebook
2.1M
331
Whisper Small
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的泛化能力。
語音識別 支持多種語言
W
openai
2.0M
381
Wav2vec2 Large Xlsr Korean
Apache-2.0
基於Wav2Vec2 XLSR架構的韓語自動語音識別(ASR)模型,在Zeroth韓語數據集上表現出色
語音識別
Transformers 韓語

W
kresnik
1.7M
44
Wav2vec2 Large Xlsr Hindi
基於facebook/wav2vec2-large-xlsr-53在低資源印度語言數據集上微調的印地語自動語音識別模型
語音識別
Transformers 其他

W
theainerd
1.6M
7
Wav2vec2 Xls R 300m Ftspeech
其他
基於facebook/wav2vec2-xls-r-300m在丹麥議會語音數據集上微調的丹麥語自動語音識別模型
語音識別
Transformers 其他

W
saattrupdan
1.3M
0
Wav2vec2 Xls R 300m Hebrew
這是一個基於facebook/wav2vec2-xls-r-300m模型微調的希伯來語自動語音識別模型,通過兩階段訓練在小規模和大規模數據集上優化性能。
語音識別
Transformers 其他

W
imvladikon
1.2M
4
Filipino Wav2vec2 L Xls R 300m Official
Apache-2.0
基於facebook/wav2vec2-xls-r-300m在菲律賓語音數據集上微調的語音識別模型
語音識別
Transformers

F
Khalsuu
1.2M
1
Faster Whisper Base
MIT
這是OpenAI Whisper基礎模型的CTranslate2轉換版本,用於高效語音識別任務。
語音識別 支持多種語言
F
Systran
1.1M
13
Faster Whisper Large V2
MIT
Whisper large-v2是OpenAI開發的大規模自動語音識別(ASR)模型,支持多種語言的語音轉文字任務。
語音識別 支持多種語言
F
Systran
948.29k
34
Faster Whisper Tiny
MIT
基於OpenAI Whisper微型模型的CTranslate2轉換版本,用於高效語音識別
語音識別 支持多種語言
F
Systran
875.91k
10
Hubert Large Ls960 Ft
Apache-2.0
HuBERT-Large是基於LibriSpeech 960小時語音數據微調的自監督語音表示學習模型,用於自動語音識別任務。
語音識別
Transformers 英語

H
facebook
776.27k
66
Faster Whisper Large V3
MIT
Whisper large-v3是OpenAI開發的大規模多語言自動語音識別(ASR)模型,支持多種語言的語音轉文字任務。
語音識別 支持多種語言
F
Systran
713.48k
376
Wav2vec2 Xls R 300m Cv7 Turkish
基於facebook/wav2vec2-xls-r-300m在土耳其語上微調的自動語音識別模型
語音識別
Transformers 其他

W
mpoyraz
685.31k
11
Wavlm Base Plus
WavLM是由微軟開發的大規模自監督預訓練語音模型,基於16kHz採樣的語音音頻進行預訓練,適用於多種語音處理任務。
語音識別
Transformers 英語

W
microsoft
673.32k
31
Wav2vec2 Xls R 1b Portuguese
Apache-2.0
這是一個基於XLS-R 1B架構的葡萄牙語自動語音識別模型,在多個葡萄牙語語音數據集上進行了微調。
語音識別
Transformers 其他

W
jonatasgrosman
648.50k
12
Whisper Base
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的泛化能力。
語音識別 支持多種語言
W
openai
491.35k
216
W2v Bert 2.0
MIT
基於Conformer架構的語音編碼器,在450萬小時無標註音頻數據上預訓練,支持143種以上語言
語音識別
Transformers 支持多種語言

W
facebook
477.05k
170
Distil Large V3
MIT
Distil-Whisper是Whisper large-v3的知識蒸餾版本,專注於英語自動語音識別,提供更快的推理速度同時保持接近原始模型的準確性。
語音識別 英語
D
distil-whisper
417.11k
311
Wav2vec2 Large Xlsr 53 Polish
Apache-2.0
針對波蘭語優化的XLSR-53大模型語音識別系統,基於facebook/wav2vec2-large-xlsr-53微調,支持波蘭語自動語音識別
語音識別 其他
W
jonatasgrosman
412.13k
11
Hubert Base Ls960
Apache-2.0
HuBERT是一種自監督語音表示學習模型,通過類似BERT的預測損失學習語音特徵,適用於語音識別等任務。
語音識別
Transformers 英語

H
facebook
406.60k
55
Wavlm Large
WavLM是微軟開發的大規模自監督語音預訓練模型,支持全棧語音處理任務,在SUPERB基準測試中表現優異。
語音識別
Transformers 英語

W
microsoft
396.53k
74
Whisper Medium
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的跨領域泛化能力。
語音識別 支持多種語言
W
openai
394.31k
239
Faster Whisper Small
MIT
基於OpenAI Whisper小型模型的CTranslate2格式轉換版本,用於高效語音識別
語音識別 支持多種語言
F
Systran
376.48k
13
Faster Whisper Base.en
MIT
這是一個基於CTranslate2轉換的Whisper base.en模型,用於英語語音識別任務。
語音識別 英語
F
Systran
367.44k
4
Wav2vec2 Large Robust Ft Libritts Voxpopuli
基於wav2vec2-large的語音識別模型,專為生成帶標點符號的轉錄文本設計,適用於TTS模型構建。
語音識別
Transformers

W
jbetker
339.01k
8
Whisper Tiny
Apache-2.0
Whisper Tiny是OpenAI開發的自動語音識別(ASR)模型,屬於Whisper系列中最小的版本,參數規模為39M。
語音識別 支持多種語言
W
openai
328.82k
318
Wav2vec2 Xlsr 53 Espeak Cv Ft
Apache-2.0
該模型是基於wav2vec2-large-xlsr-53預訓練模型在CommonVoice數據集上微調的多語言音素識別模型,支持多種語言的音素標籤識別。
語音識別
Transformers

W
facebook
315.39k
31
Whisperkit Coreml
WhisperKit 是一款面向 Apple Silicon 的本地語音識別框架,支持高效的自動語音識別任務。
語音識別 其他
W
argmaxinc
296.02k
126
Wav2vec2 Large Xlsr 53 Persian
Apache-2.0
針對波斯語優化的XLSR-53大模型語音識別系統,基於facebook/wav2vec2-large-xlsr-53架構微調
語音識別 其他
W
jonatasgrosman
257.76k
22
Faster Whisper Large V3 Turbo Ct2
MIT
這是將Whisper large-v3 turbo模型轉換為CTranslate2格式的版本,用於高效的自動語音識別任務。
語音識別 支持多種語言
F
deepdml
254.96k
128
Wav2vec2 Large Xlsr 53 English
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的英語語音識別模型,在Common Voice 6.1數據集上訓練
語音識別 英語
W
jonatasgrosman
251.78k
471
- 1
- 2
- 3
- 4
- 5
- 6
- 10