# 16kHz採樣率

Vits Icelandic Rosa Female Monospeaker
這是一個基於facebook/mms-tts-isl微調的冰島語文本轉語音模型,使用Talrómur數據集訓練,專注於女性聲音合成。
語音合成 Transformers 其他
V
Sigurdur
22
0
Whisper Medium Cv11 German Ct2
Apache-2.0
基於OpenAI的whisper-medium模型在Common Voice 11.0德語數據集上微調的自動語音識別模型
語音識別 Transformers 德語
W
mkenfenheuer
21
1
Whisper Medium Medical De AUT
基於Whisper Medium架構微調的德語醫療領域語音識別模型,特別針對奧地利標準德語發音優化
語音識別 Transformers 德語
W
valhofec
20
2
Vits Eng
MIT
基於VITS架構的英文文本轉語音模型,由Kakao Enterprise訓練,支持高質量語音合成
語音合成 Transformers 英語
V
BricksDisplay
28
4
Whisper Small Japanese
Apache-2.0
該模型是基於openai/whisper-small微調的日語語音識別模型,支持日語語音轉文本任務。
語音識別 Transformers 日語
W
Ivydata
356
5
Whisper Base Japanese
Apache-2.0
本模型使用Common Voice、JVS和JSUT數據集對openai/whisper-base進行日語微調,適用於日語語音識別任務。
語音識別 Transformers 日語
W
Ivydata
137
3
Wav2vec2 Large Xlsr 53 Japanese
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53微調的日語語音識別模型,支持16kHz採樣率音頻輸入
語音識別 Transformers 日語
W
Ivydata
19
4
Whisper Large V2 Cv11 German
Apache-2.0
基於openai/whisper-large-v2在Common Voice 11.0德語數據集上微調的自動語音識別模型,支持德語語音轉文字,詞錯誤率5.76
語音識別 Transformers 德語
W
bofenghuang
179
16
Wav2vec2 Large Chinese Zh Cn
Apache-2.0
基於XLSR-53大模型微調的中文語音識別模型,支持16kHz採樣率的語音輸入
語音識別 Transformers 中文
W
wbbbbb
585
40
Exp W2v2t Zh Cn Wavlm S596
Apache-2.0
基於microsoft/wavlm-large模型微調的中文語音識別模型,支持簡體中文,使用Common Voice 7.0 (zh-CN)數據集訓練。
語音識別 Transformers
E
jonatasgrosman
22
1
Exp W2v2t Fa Hubert S801
Apache-2.0
基於facebook/hubert-large-ll60k模型微調的波斯語自動語音識別模型,使用Common Voice 7.0波斯語數據集訓練。
語音識別 Transformers 其他
E
jonatasgrosman
16
0
Exp W2v2t Sv Se Vp Nl S842
Apache-2.0
這是一個基於facebook/wav2vec2-large-nl-voxpopuli模型微調的瑞典語自動語音識別模型,使用Common Voice 7.0 (sv-SE)數據集進行訓練。
語音識別 Transformers
E
jonatasgrosman
16
0
Exp W2v2t Sv Se Wavlm S42
Apache-2.0
基於microsoft/wavlm-large微調的瑞典語自動語音識別模型,適用於16kHz採樣率的語音輸入。
語音識別 Transformers
E
jonatasgrosman
20
0
Exp W2v2t Fr Xls R S250
Apache-2.0
基於facebook/wav2vec2-xls-r-300m模型,使用Common Voice 7.0法語數據集微調的自動語音識別模型
語音識別 Transformers 法語
E
jonatasgrosman
20
0
Exp W2v2t Fr Vp Fr S438
Apache-2.0
基於facebook/wav2vec2-large-fr-voxpopuli模型微調的法語自動語音識別模型,使用Common Voice 7.0法語數據集訓練。
語音識別 Transformers 法語
E
jonatasgrosman
20
0
Exp W2v2t Fr Unispeech S42
Apache-2.0
基於microsoft/unispeech-large-1500h-cv模型,使用Common Voice 7.0(法語)數據集微調的語音識別模型
語音識別 Transformers 法語
E
jonatasgrosman
20
0
Exp W2v2t It No Pretraining S842
Apache-2.0
基於隨機初始化的wav2vec2模型進行微調,用於意大利語語音識別任務,訓練數據採用Common Voice 7.0(意大利語)的訓練集分割部分。
語音識別 Transformers 其他
E
jonatasgrosman
18
0
Exp W2v2t It Xlsr 53 S387
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的意大利語自動語音識別模型,使用Common Voice 7.0意大利語數據集訓練。
語音識別 Transformers 其他
E
jonatasgrosman
18
0
Exp W2v2t It Vp 100k S449
Apache-2.0
基於facebook/wav2vec2-large-100k-voxpopuli模型微調的意大利語自動語音識別模型,使用Common Voice 7.0意大利語數據集訓練。
語音識別 Transformers 其他
E
jonatasgrosman
17
0
Exp W2v2t It Wav2vec2 S609
Apache-2.0
基於facebook/wav2vec2-large-lv60模型微調的意大利語自動語音識別模型,使用Common Voice 7.0意大利語數據集訓練。
語音識別 Transformers 其他
E
jonatasgrosman
18
0
Exp W2v2t Ja Vp It S544
Apache-2.0
基於facebook/wav2vec2-large-it-voxpopuli模型,使用Common Voice 7.0 (日語版)的訓練集進行語音識別微調的日語自動語音識別模型。
語音識別 Transformers 日語
E
jonatasgrosman
18
0
Exp W2v2t Ja Unispeech Sat S884
Apache-2.0
基於microsoft/unispeech-sat-large模型微調的日語自動語音識別模型,使用Common Voice 7.0日語數據集訓練。
語音識別 Transformers 日語
E
jonatasgrosman
19
0
Exp W2v2t Ja Wavlm S729
Apache-2.0
基於microsoft/wavlm-large模型微調的日語自動語音識別模型,使用Common Voice 7.0日語數據集訓練
語音識別 Transformers 日語
E
jonatasgrosman
15
2
Exp W2v2t Ja Unispeech S569
Apache-2.0
基於microsoft/unispeech-large-1500h-cv模型,使用Common Voice 7.0 (日語)數據集進行語音識別微調的日語自動語音識別模型
語音識別 Transformers 日語
E
jonatasgrosman
14
0
Exp W2v2t Ja Xlsr 53 S109
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53模型微調的日語自動語音識別模型,使用Common Voice 7.0日語數據集訓練
語音識別 Transformers 日語
E
jonatasgrosman
20
0
Exp W2v2t Th Hubert S533
Apache-2.0
基於facebook/hubert-large-ll60k微調的泰語語音識別模型,訓練數據來自Common Voice 7.0
語音識別 Transformers 其他
E
jonatasgrosman
19
0
Exp W2v2t Th Wav2vec2 S664
Apache-2.0
基於facebook/wav2vec2-large-lv60模型微調的泰語語音識別模型,使用Common Voice 7.0數據集訓練
語音識別 Transformers 其他
E
jonatasgrosman
14
0
Exp W2v2t En Unispeech Sat S459
Apache-2.0
基於微軟UniSpeech-SAT-Large模型微調的英語語音識別模型,支持16kHz採樣率的語音輸入。
語音識別 Transformers 英語
E
jonatasgrosman
22
0
Exp W2v2t En Vp Nl S281
Apache-2.0
基於facebook/wav2vec2-large-nl-voxpopuli模型微調的英語語音識別模型,使用Common Voice 7.0訓練集進行訓練。
語音識別 Transformers 英語
E
jonatasgrosman
18
0
Exp W2v2t En No Pretraining S289
Apache-2.0
這是一個針對英語語音識別任務的模型,基於隨機初始化的wav2vec2架構,使用Common Voice 7.0數據集進行微調。
語音識別 Transformers 英語
E
jonatasgrosman
18
0
Wav2vec2 Large Tedlium
Apache-2.0
基於TEDLIUM語料庫微調的Wav2Vec2大型語音識別模型,支持英語語音轉文本
語音識別 英語
W
sanchit-gandhi
58
1
Sharif Wav2vec2
MIT
Sharif Wav2vec2針對波斯語的微調版本,基於Common Voice波斯語樣本訓練,支持自動語音識別任務。
語音識別 Transformers 其他
S
SLPL
88
16
Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在中文AISHELL-1數據集上微調的語音識別模型,支持中文語音識別任務。
語音識別 Transformers 中文
W
qinyue
22
6
Wav2vec2 Large Xlsr 53 Chinese Zh Cn Gpt
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在中文(zh-CN)上使用Common Voice數據集進行微調的語音識別模型
語音識別 Transformers 中文
W
ydshieh
127
32
Data2vec Audio Large 960h
Apache-2.0
Data2Vec是一個通用自監督學習框架,適用於語音、視覺和語言任務。該音頻大模型基於LibriSpeech的960小時語音數據預訓練和微調,專為自動語音識別任務優化。
語音識別 Transformers 英語
D
facebook
2,531
7
Wav2vec2 Base Da Ft Nst
Apache-2.0
基於NST數據集微調的丹麥語語音識別模型,支持16kHz採樣率音頻輸入
語音識別 Transformers 其他
W
Alvenir
15
3
Wav2vec2 Large Xlsr Persian V3
基於Facebook的wav2vec2-large-xlsr-53模型在波斯語通用語音庫上微調的自動語音識別(ASR)模型
語音識別 Transformers 其他
W
m3hrdadfi
1,888
37
Wav2vec2 Xls R 1b English
Apache-2.0
這是一個基於XLS-R 1B架構的英語語音識別模型,在多個英語語音數據集上進行了微調。
語音識別 Transformers 英語
W
jonatasgrosman
1,896
9
Wav2vec2 Large Xlsr 53 Spanish
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型在西班牙語Common Voice數據集上微調的自動語音識別(ASR)模型。
語音識別 西班牙語
W
mrm8488
38
2
Wav2vec2 Large Xlsr Polish
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在Common Voice波蘭語數據集上微調的語音識別模型,測試集詞錯誤率23.01%
語音識別 其他
W
mbien
40
1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase