高精度ASR

# 高精度ASR

Gigaam Ctc With Lm

俄語自動語音識別模型，支持外部ngram語言模型和束搜索解碼，可提取詞級時間戳

Transformers 其他

waveletdeboshir

Quantum_STT 是一種先進的自動語音識別（ASR）和語音翻譯模型，基於大規模弱監督訓練，支持多種語言和任務。

Transformers 支持多種語言

GigaAM-v2-RNNT 是一個俄語自動語音識別（ASR）模型，基於RNNT架構，適用於語音轉文本任務。

Transformers 其他

waveletdeboshir

GigaAM-v2-CTC 是一個俄語自動語音識別(ASR)模型，基於CTC損失函數訓練，可通過Hugging Face transformers庫使用。

Transformers 其他

waveletdeboshir

Whisper Large V3 Persian Common Voice 17

基於 Whisper Large v3 微調的波斯語自動語音識別模型，在 Common Voice 17 數據集上訓練，包含超過 250,000 個波斯語音頻樣本，顯著提升了識別準確性和魯棒性。

MohammadGholizadeh

Canary 1b Flash

NVIDIA NeMo Canary Flash 是一個多語言多任務模型家族，在多個語音基準測試中實現了最先進的性能。支持四種語言的自動語音識別和翻譯任務。

語音識別支持多種語言

Phi 4 Multimodal Instruct Ko Asr

基於microsoft/Phi-4-multimodal-instruct微調的韓語自動語音識別(ASR)和語音翻譯(AST)模型，在zeroth-korean和fleurs數據集上表現優異。

文本生成音頻

Transformers 韓語

Whisper Large V3

基於OpenAI Whisper Large v3模型針對希伯來語進行的微調版本，專注於希伯來語音頻轉錄任務

Transformers 其他

Artst Asr V3 Qasr

基於QASR數據集微調的阿拉伯語自動語音識別模型，特別適配方言變體

Transformers 支持多種語言

Vi Whisper Large V3 Turbo V1

針對越南語自動語音識別(ASR)任務優化的Whisper-V3-Turbo模型，使用多個越南語數據集微調

Transformers 其他

Asr Streaming Conformer Gigaspeech

基於GigaSpeech數據集預訓練的英文自動語音識別模型，支持流式和非流式轉錄

語音識別英語

Ja Cascaded S2t Translation

這是一個基於級聯方法的日語語音到任意目標語言文本的翻譯流水線，由自動語音識別（ASR）和文本翻譯兩部分組成。

Parakeet Tdt Ctc 110m

由NVIDIA NeMo和Suno.ai聯合開發的英語語音識別模型，支持標點符號和大小寫轉換，採用FastConformer-TDT-CTC架構

語音識別英語

Indicconformer Stt Gu Hybrid Ctc Rnnt Large

IndicConformer 是一個基於混合 CTC-RNNT 架構的 Conformer 自動語音識別（ASR）模型，專門用於古吉拉特語的語音轉錄。

語音識別其他

Whisper Large V3 Ca 3catparla

這是一個針對加泰羅尼亞語優化的自動語音識別模型，基於OpenAI的Whisper-large-v3微調，由巴塞羅那超級計算中心開發。

Transformers 其他

Parakeet Tdt Ctc 0.6b Ja

Parakeet TDT-CTC 0.6B是一個能夠轉錄帶標點符號的日語語音的自動語音識別(ASR)模型，由NVIDIA NeMo團隊開發。

語音識別日語

Asr Streaming Conformer Librispeech

這是一個基於LibriSpeech數據集預訓練的端到端自動語音識別系統，支持流式和非流式模式，適用於英文語音識別。

語音識別英語

Canary-1B是NVIDIA NeMo開發的多語言多任務模型，支持英語、德語、法語和西班牙語的自動語音識別和語音翻譯任務。

語音識別支持多種語言

Nb Whisper Large Verbatim

基於OpenAI Whisper開發的挪威語自動語音識別模型，經過額外訓練實現全小寫無標點的逐字轉錄

語音識別支持多種語言

Whisper Large V3

Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型，在超過500萬小時的標註數據上訓練，具有強大的跨數據集和跨領域泛化能力。

語音識別支持多種語言

Indicwav2vec Odia

基於Wav2Vec2架構的印地語自動語音識別(ASR)模型，由AI4Bharat開發

Transformers 其他

Stt Ua Fastconformer Hybrid Large Pc

NVIDIA FastConformer-Hybrid Large (ua) 是一個用於烏克蘭語語音識別的混合模型，結合了Transducer和CTC兩種損失函數訓練，參數約1.15億。

基於LibriSpeech數據集微調的SpeechT5自動語音識別模型，支持將語音轉換為文本。

Whisper Th Medium Combined

基於openai/whisper-medium在增強版的泰語數據集上進行微調，用於泰語自動語音識別

Whisper Medium Ko Zeroth

基於OpenAI Whisper Medium模型在Zeroth韓語數據集上微調的語音識別模型，詞錯誤率3.64%

Transformers 韓語

Whisper Medium.en

Whisper是OpenAI開發的自動語音識別(ASR)模型，經過68萬小時標註語音數據訓練，具有強大的泛化能力。

語音識別英語

Exp W2v2t Zh Cn Wavlm S596

基於microsoft/wavlm-large模型微調的中文語音識別模型，支持簡體中文，使用Common Voice 7.0 (zh-CN)數據集訓練。

Exp W2v2t Fr Unispeech S42

基於microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0（法語）數據集微調的語音識別模型

Transformers 法語

Exp W2v2t It Vp 100k S449

基於facebook/wav2vec2-large-100k-voxpopuli模型微調的意大利語自動語音識別模型，使用Common Voice 7.0意大利語數據集訓練。

Transformers 其他

Exp W2v2t It Wav2vec2 S609

基於facebook/wav2vec2-large-lv60模型微調的意大利語自動語音識別模型，使用Common Voice 7.0意大利語數據集訓練。

Transformers 其他

Exp W2v2t Ja Vp It S544

基於facebook/wav2vec2-large-it-voxpopuli模型，使用Common Voice 7.0 (日語版)的訓練集進行語音識別微調的日語自動語音識別模型。

Transformers 日語

Exp W2v2t Ja Unispeech Sat S884

基於microsoft/unispeech-sat-large模型微調的日語自動語音識別模型，使用Common Voice 7.0日語數據集訓練。

Transformers 日語

Exp W2v2t Ja Wavlm S729

基於microsoft/wavlm-large模型微調的日語自動語音識別模型，使用Common Voice 7.0日語數據集訓練

Transformers 日語

Exp W2v2t En Unispeech Sat S459

基於微軟UniSpeech-SAT-Large模型微調的英語語音識別模型，支持16kHz採樣率的語音輸入。

Transformers 英語

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

該模型是基於wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2數據集上微調的自動語音識別模型，主要用於歌唱語音識別任務。

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的語音識別模型，在評估集上取得了較低的詞錯誤率。

Wav2vec2 Large Xlsr 53 Dutch

Facebook開發的基於Wav2Vec 2.0架構的荷蘭語自動語音識別(ASR)模型，採用XLSR-53多語言預訓練模型微調

語音識別其他

這是一個基於facebook/wav2vec2-xls-r-300m模型在Common Voice 8迪維希語數據集上微調的自動語音識別模型

Transformers 其他

Wav2vec2 Large Xlsr 53 Portuguese

Facebook開發的基於Wav2Vec 2.0架構的大規模葡萄牙語自動語音識別(ASR)模型，支持葡萄牙語語音轉文本任務。

語音識別其他

Wav2vec2 Xls R 300m Bangla Command

這是一個基於wav2vec2 XLS-R架構的300M參數孟加拉語語音識別模型，專門優化用於指令識別任務。

Transformers 其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase