語音轉文本

# 語音轉文本

Whisper Finetuned Amharic

基於openai/whisper-small微調的阿姆哈拉語語音識別模型，在評估集上詞錯誤率為2.0538%

Wav2vec2 Large Xls R 300m Ru

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice_17_0數據集上微調的俄語自動語音識別(ASR)模型，詞錯誤率(WER)為0.195。

Whisper Hindi2Hinglish Swift

基於Whisper架構優化的印地語-印地英語混合語音識別模型，專為印度口音和噪聲環境優化

Transformers 支持多種語言

Moonshine Base ONNX

基於Moonshine基礎模型的ONNX格式自動語音識別模型，支持高效推理

Whisper Large V3 Turbo Arabic

基於transformers庫，在common_voice_11_0數據集上對openai/whisper-large-v3-turbo進行微調後的版本，專為阿拉伯語語音識別優化。

Whisper Large V3 Turbo

基於ONNX格式優化的Whisper大型語音識別模型，專為網頁端部署設計

W2V2 BERT Withlm Malayalam

基於facebook/w2v-bert-2.0微調的馬拉雅拉姆語自動語音識別模型，在多個馬拉雅拉姆語數據集上訓練，並使用了KENLM庫訓練的三元語言模型。

Transformers 其他

Whisper是一個自動語音識別(ASR)系統，由OpenAI訓練，支持多語言語音轉錄。

Faster Distil Whisper Large V3

Whisper Large v3的蒸餾版本，用於高效自動語音識別(ASR)

語音識別英語

Distil Whisper Large V3

該模型是從GGML格式的distil-whisper/distil-large-v3-ggml轉換至Ratchet自定義格式的版本，主要用於語音識別任務。

這是將openai/whisper-tiny的GGML格式轉換為Ratchet自定義格式的版本

Language Detector

基於openai/whisper-small微調的語言檢測模型，在評估集上準確率達96.47%

Audio Transcribe

這是一個基於Transformers的自動語音識別(ASR)模型，用於將音頻文件轉錄為文本。

Audiosangraha Audio To Text

基於openai/whisper-small微調的語音轉文本模型，支持音頻翻譯和文本生成任務。

Whisper Large V3 Ft Cv16 Mn

基於OpenAI Whisper Large V3模型在Common Voice 16.0數據集上微調的語音識別模型

Whisper Large V3

Whisper-large-v3是OpenAI開源的自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

Speecht5 Tts Marathi

這是一個用於馬拉地語語音處理的模型，可能涉及語音識別或語音合成任務。

Whisper Large V2 Spanish

基於OpenAI Whisper-large-v2模型在Common Voice 13.0西班牙語數據集上微調的語音識別模型

Whisper Medium 是 OpenAI 開發的中等規模語音識別模型，支持多種語言的自動語音識別（ASR）任務。

Whisper Small 是 OpenAI 開發的一個小型自動語音識別（ASR）模型，能夠將語音轉換為文本。

Whisper是一個自動語音識別(ASR)系統，由OpenAI訓練，支持多種語言的語音轉文本任務。

Whisper Tiny 是 OpenAI 開源的輕量級語音識別模型，適用於網頁端部署。

Faster Whisper Tiny

這是OpenAI Whisper-tiny模型的CTranslate2轉換版本，用於高效的語音識別任務。

語音識別支持多種語言

基於LibriSpeech數據集微調的SpeechT5自動語音識別模型，支持將語音轉換為文本。

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，經過68萬小時標註數據訓練，具有強大的泛化能力。

語音識別支持多種語言

Wav2vec2 Large 960h Lv60 Self 4 Gram Fine Tune Real 29 Jun

該模型是基於facebook/wav2vec2-large-960h-lv60-self在uob_singlish數據集上微調的語音識別模型，支持新加坡英語識別。

Wav2vec2 Large Xls R 300m Bn Colab

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice_9_0數據集上微調的語音識別模型，支持孟加拉語。

Wav2vec2 Xls R 300m Mrbrown Finetune1

基於facebook/wav2vec2-xls-r-300m預訓練模型，使用uob_singlish數據集進行微調的語音識別模型

Wav2vec2 Large Multilang Cv Ru

該模型是基於facebook/wav2vec2-large-xlsr-53在common_voice數據集上微調的版本，主要用於俄語語音識別任務。

Wav2vec2 Large Xls R 300m Ta Colab

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的版本，主要用於泰米爾語的語音識別任務。

84rry Xlsr 53 Arabic

該模型是基於facebook/wav2vec2-large-xlsr-53在通用語音數據集上微調的阿拉伯語語音識別模型

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 6

這是一個基於wav2vec2架構的土耳其語語音識別模型，在common_voice數據集上微調得到

Wav2vec2 Large Xls R 300m Turkish Colab Common Voice 8 4

該模型是基於Facebook的wav2vec2-xls-r-300m模型，在common_voice土耳其語數據集上微調的語音識別模型。

Dansk Wav2vec21

該模型是基於Siyam/SKYLy在common_voice數據集上微調得到的丹麥語語音識別模型

Wav2vec2 Vorarlbergerisch

基於facebook/wav2vec2-base-960h微調的德語方言語音識別模型，支持奧地利福拉爾貝格地區方言識別

Wav2vec2 Base MIR ST500 ASR 109

基於facebook/wav2vec2-base在MIR_ST500數據集上微調的自動語音識別模型

Wav2vec2 Large Xls R 300m Turkish Colab

這是一個基於Facebook的wav2vec2-xls-r-300m模型在通用語音數據集上微調的土耳其語語音識別模型。

2nd Wav2vec2 L Xls R 300m Turkish Test

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice土耳其語數據集上微調的語音識別模型，在評估集上取得了0.4444的詞錯誤率。

Wav2vec2 Large Xls R 300m Turkish Colab

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice土耳其語數據集上微調的語音識別模型，在評估集上取得了30.95%的詞錯誤率。

Wav2vec2 Common Voice Accents Scotland

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的版本，專注於蘇格蘭口音的語音識別。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase