Whisper Kurmanji
Apache-2.0
針對庫爾德語庫爾曼吉方言的自動語音識別模型,基於Whisper架構微調
語音識別
Safetensors 其他
W
amedcj
272
1
Nextvoice
Apache-2.0
NextVoice是由Lamapi開發的開源語音轉文字解決方案,支持高質量轉錄和即時處理。
語音識別
Transformers 其他

N
Lamapi
18
1
Medical Whisper Large V3
Apache-2.0
基於whisper-large-v3微調的醫療場景專用語音識別模型
語音識別
Transformers 英語

M
Na0s
270
5
Whisper Small Medical Speech Recognition
Apache-2.0
基於OpenAI Whisper-small微調的醫療領域語音識別模型,支持醫療場景下的語音轉文本任務
語音識別
Transformers

W
hap20
20
3
Parakeet Rnnt 1.1b
Parakeet RNNT 1.1B是由NVIDIA NeMo和Suno.ai聯合開發的自動語音識別模型,基於FastConformer Transducer架構,參數約11億,支持英語語音轉錄。
語音識別 英語
P
nvidia
13.18k
124
Stt En Fastconformer Transducer Xlarge
NVIDIA FastConformer-Transducer 是一個用於英語自動語音識別(ASR)的高性能模型,採用優化的FastConformer架構和Transducer解碼器,參數規模約6.18億。
語音識別 英語
S
nvidia
106
24
Stt En Fastconformer Ctc Xlarge
NVIDIA FastConformer-CTC XLarge是一個約6億參數的自動語音識別(ASR)模型,專為英語語音轉錄設計,採用FastConformer架構和CTC損失訓練。
語音識別 英語
S
nvidia
216
2
Stt En Fastconformer Ctc Large
這是一個基於FastConformer架構的大型自動語音識別(ASR)模型,專門用於將英語語音轉錄為文本。
語音識別 英語
S
nvidia
1,001
12
Stt En Fastconformer Transducer Large
這是一個基於FastConformer架構的大型自動語音識別(ASR)模型,專門用於將英語語音轉錄為文本。
語音識別 英語
S
nvidia
1,398
7
Whisper Large V2 Japanese 5k Steps
Apache-2.0
基於OpenAI的whisper-large-v2模型在日語CommonVoice數據集上微調的語音識別模型,訓練5000步,詞錯誤率0.7449
語音識別
Transformers 日語

W
clu-ling
144
20
Wav2vec2 Large Tedlium
Apache-2.0
基於TEDLIUM語料庫微調的Wav2Vec2大型語音識別模型,支持英語語音轉文本
語音識別 英語
W
sanchit-gandhi
58
1
Stt En Conformer Transducer Xlarge
這是一個由NVIDIA開發的自動語音識別(ASR)模型,基於Conformer-Transducer架構,擁有約6億參數,專門用於英語語音轉錄。
語音識別 英語
S
nvidia
496
54
Asr Wav2vec2 Librispeech
Apache-2.0
這是一個基於LibriSpeech數據集訓練的端到端自動語音識別系統,結合了wav2vec 2.0預訓練模型和CTC技術,在英語語音識別任務上表現出色。
語音識別 英語
A
speechbrain
1,667
9
Wav2vec2 Large 960h Lv60 Self With Wikipedia Lm
基於Facebook的wav2vec2-large-960h-lv60-self模型,通過增強維基百科語言模型改進的自動語音識別(ASR)系統
語音識別
Transformers

W
gxbag
15
2
Wav2vec2 Conformer Rope Large 100h Ft
Apache-2.0
基於Librispeech 100小時語音數據微調的Wav2Vec2 Conformer模型,採用旋轉位置嵌入技術
語音識別
Transformers 英語

W
facebook
99
0
Wav2vec2 Conformer Rope Large 960h Ft
Apache-2.0
該模型整合了旋轉位置嵌入技術,基於16kHz採樣的語音音頻,在960小時的LibriSpeech數據上進行了預訓練和精細調優,適用於英語語音識別任務。
語音識別
Transformers 英語

W
facebook
22.02k
10
Wav2vec2 Conformer Rel Pos Large 100h Ft
Apache-2.0
採用相對位置嵌入技術的Wav2Vec2-Conformer大型語音識別模型,基於Librispeech 100小時語音數據微調
語音識別
Transformers 英語

W
facebook
99
0
Wav2vec2 Conformer Rel Pos Large 960h Ft
Apache-2.0
基於16kHz採樣語音音頻的Wav2Vec2-Conformer模型,採用相對位置嵌入技術,在960小時Librispeech數據上預訓練和微調
語音識別
Transformers 英語

W
facebook
1,038
5
Wav2vec2 Large 960h Lv60 Self 4 Gram
Apache-2.0
基於Facebook Wav2Vec2-Large-960h-lv60-self模型,增加了英語4-gram語言模型以提升語音識別準確率
語音識別 英語
W
patrickvonplaten
22
4
Wav2vec2 Base 960h 4 Gram
Apache-2.0
基於Facebook的Wav2Vec2-Base-960h模型,增加了英語4-gram語言模型,用於提高自動語音識別(ASR)的準確率。
語音識別
Transformers 英語

W
patrickvonplaten
19
0
Wav2vec2 Large Xlsr 300m Nepali
這是一個基於Wav2Vec2架構的尼泊爾語語音識別模型,支持將尼泊爾語語音轉換為文本。
語音識別
Transformers

W
shniranjan
15
0
Stt En Conformer Ctc Large
這是一個基於Conformer架構的大型自動語音識別(ASR)模型,支持英語語音轉錄,使用CTC損失函數進行訓練。
語音識別 英語
S
nvidia
3,740
24
Data2vec Audio Large 960h
Apache-2.0
Data2Vec是一個通用自監督學習框架,適用於語音、視覺和語言任務。該音頻大模型基於LibriSpeech的960小時語音數據預訓練和微調,專為自動語音識別任務優化。
語音識別
Transformers 英語

D
facebook
2,531
7
Iwslt Asr Wav2vec Large 4500h
基於Wav2Vec2架構的大規模英語自動語音識別模型,在4500小時多源語音數據上微調,支持帶語言模型的解碼
語音識別
Transformers 英語

I
nguyenvulebinh
27
2
Wav2vec2 Dogri Stt
這是一個基於Wav2Vec2架構的自動語音識別(ASR)模型,專門用於識別多格拉語(Dogri)的語音內容。
語音識別
Transformers

W
addy88
30
1
Wav2vec2 Large 960h Lv60 Self
Apache-2.0
Facebook開發的Wav2Vec2大模型,基於960小時Libri-Light和Librispeech語音數據預訓練和微調,採用自訓練目標,在LibriSpeech測試集上達到SOTA效果。
語音識別 英語
W
facebook
56.00k
146
Wavlm Libri Clean 100h Base
基於microsoft/wavlm-base在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型
語音識別
Transformers

W
patrickvonplaten
6,515
1
Hubert Xlarge Ls960 Ft
Apache-2.0
基於Librispeech 960小時語音數據微調的Hubert超大規模語音識別模型,在LibriSpeech測試集上WER僅為1.8
語音識別
Transformers 英語

H
facebook
8,160
14
Personal Speech To Text Model
基於facebook/wav2vec2-large-robust-ft-swbd-300h模型微調的個人語音轉文字模型,針對特定口音優化。
語音識別
Transformers

P
fractalego
75
6
Hubert Large Ls960 Ft
Apache-2.0
HuBERT-Large是基於LibriSpeech 960小時語音數據微調的自監督語音表示學習模型,用於自動語音識別任務。
語音識別
Transformers 英語

H
facebook
776.27k
66
Wav2vec2 Large 960h
Apache-2.0
Wav2Vec2是Facebook開發的語音識別模型,通過自監督學習從原始音頻中學習語音表示,並在LibriSpeech數據集上微調,實現高精度語音轉錄。
語音識別
Transformers 英語

W
facebook
77.59k
29
Wav2vec Odia Stt
這是一個基於Wav2Vec2架構的奧里亞語(Odia)語音識別模型,能夠將奧里亞語語音轉換為文本。
語音識別
Transformers

W
addy88
15
0
Wav2vec2 Large 960h Lv60
Apache-2.0
Wav2Vec2是一個強大的語音識別模型,通過自監督學習從原始音頻中提取特徵,並在有限標記數據下實現高性能語音識別。
語音識別 英語
W
facebook
7,011
6
Wavlm Libri Clean 100h Large
基於microsoft/wavlm-large在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型
語音識別
Transformers

W
patrickvonplaten
8,171
3
Data2vec Audio Base 960h
Apache-2.0
Data2Vec是一個通用的自監督學習框架,適用於語音、視覺和語言處理。該模型是基於LibriSpeech 960小時語音數據預訓練和微調的語音識別模型。
語音識別
Transformers 英語

D
facebook
10.61k
12
Wavlm Libri Clean 100h Base Plus
基於microsoft/wavlm-base-plus在LIBRISPEECH_ASR - CLEAN數據集上微調的自動語音識別模型
語音識別
Transformers

W
patrickvonplaten
126.17k
3
Wav2vec2 Base 960h
Apache-2.0
Wav2Vec2是一個基於自監督學習的語音識別模型,由Facebook開發,在LibriSpeech數據集上訓練,支持英語語音轉文本任務。
語音識別
Transformers 英語

W
tommy19970714
19
0
Wav2vec2 Base 960h
Apache-2.0
Facebook開發的Wav2Vec2基礎模型,在960小時的Librispeech語音音頻上進行了預訓練和微調,用於英語自動語音識別任務。
語音識別
Transformers 英語

W
facebook
2.1M
331
Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp
基於ESPnet框架訓練的自動語音識別(ASR)模型,使用Conformer架構和WavLM大型預訓練模型,在LibriSpeech數據集上訓練。
語音識別 英語
S
espnet
66
1
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98