# 多語言語音處理

Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instruct是一個輕量級開源多模態基礎模型,支持文本、圖像和音頻輸入,生成文本輸出,具備128K標記的上下文長度。
多模態融合 Transformers 支持多種語言
P
mjtechguy
18
0
Whisper Uz
Apache-2.0
基於Whisper Base微調的烏茲別克語語音識別模型,在Common Voice數據集上訓練
語音識別 Transformers 其他
W
jamshidahmadov
1,179
3
Wav2vec2 Large Xlsr 53 Tr Fine Tuning Deprecated
Apache-2.0
該模型是基於facebook/wav2vec2-large-xlsr-53在common_voice土耳其語數據集上微調的語音識別模型
語音識別 Transformers
W
bekirbakar
17
0
English Filipino Wav2vec2 L Xls R Test 07
Apache-2.0
該模型是基於jonatasgrosman/wav2vec2-large-xlsr-53-english在菲律賓語音數據集上微調的版本,主要用於英語到菲律賓語的語音識別任務。
語音識別 Transformers
E
Khalsuu
24
0
Wav2vec2 Xlsr Nepali
Apache-2.0
該模型是基於facebook/wav2vec2-large-xlsr-53在尼泊爾語數據集上微調的語音識別模型。
語音識別
W
shishirAI
22
2
Wav2vec2 Large Xls R 300m Irish Colab Test
Apache-2.0
這是一個基於facebook/wav2vec2-xls-r-300m模型在common_voice愛爾蘭語數據集上微調的語音識別模型,主要用於愛爾蘭語的自動語音識別任務。
語音識別 Transformers
W
jfealko
24
0
Wav2vec2 Large Xls R 300m Welsh
Apache-2.0
這是一個基於facebook/wav2vec2-xls-r-300m在威爾士語數據集上微調的自動語音識別模型,在Common Voice 7威爾士語測試集上取得了31.003%的詞錯誤率和7.775%的字錯誤率。
語音識別 Transformers 其他
W
infinitejoy
89
0
S2t Small Covost2 En Et St
MIT
這是一個基於Transformer的端到端語音翻譯模型,專門用於將英語語音轉換為愛沙尼亞語文本。
語音識別 Transformers 支持多種語言
S
facebook
15
0
Wav2vec2 Xls R 300m Turkish Tr Med
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在常見語音數據集上微調的土耳其語語音識別模型
語音識別 Transformers
W
emre
22
0
S2t Small Covost2 En Ca St
MIT
這是一個基於Transformer的端到端語音翻譯模型,專門用於將英語語音翻譯成加泰羅尼亞語文本。
語音識別 Transformers 支持多種語言
S
facebook
15
0
Xls R Et V 3
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-1b在愛沙尼亞語數據集上微調的自動語音識別模型
語音識別 Transformers 其他
X
vasilis
41
0
Wav2vec2 Large El Voxpopuli V2
基於VoxPopuli語料庫預訓練的希臘語語音識別模型,使用17.7小時未標註數據
語音識別 Transformers 其他
W
facebook
24
0
Wav2vec2 Base 10k Voxpopuli Ft Hr
基於Facebook Wav2Vec2架構的語音識別模型,使用VoxPopuli語料庫預訓練並在克羅地亞語數據上微調
語音識別 Transformers 其他
W
facebook
20
0
Wav2vec2 Large West Germanic Voxpopuli V2
Facebook的Wav2Vec2大型模型,僅在西日耳曼語系的VoxPopuli語料庫66.3無標註數據上進行預訓練。
語音識別 Transformers
W
facebook
25
1
Wav2vec2 Large Xlsr Rm Sursilv
Apache-2.0
這是一個基於facebook/wav2vec2-large-xlsr-53模型微調的自動語音識別模型,專門用於識別羅曼什語的蘇塞爾瓦方言。
語音識別
W
gchhablani
27
0
S2t Wav2vec2 Large En Tr
MIT
一個基於Transformer的端到端語音翻譯模型,用於英語到土耳其語的語音轉文本任務
語音識別 Transformers 支持多種語言
S
facebook
55
3
Output
該模型是在阿布哈茲語數據集上微調的自動語音識別模型,基於XLS-R架構
語音識別 Transformers 其他
O
deepdml
25
0
Wav2vec2 Large North Germanic Voxpopuli V2
基於北日耳曼語系VoxPopuli語料庫預訓練的大型語音模型
語音識別 Transformers
W
facebook
25
0
Wav2vec2 Large Xlsr Slovene
Apache-2.0
這是一個基於Facebook的wav2vec2-large-xlsr-53模型進行微調的斯洛文尼亞語語音識別模型,使用Common Voice數據集訓練。
語音識別 其他
W
mrshu
23
2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase