端到端ASR

# 端到端ASR

Parakeet Tdt 0.6b V2 Onnx

NVIDIA Parakeet TDT 0.6B V2 是一個基於自動語音識別（ASR）任務的模型，適用於英語語音轉文本任務。

語音識別英語

Nue ASR是一種端到端的日語語音識別模型，集成了預訓練的語音和語言模型，識別準確度高且速度快。

Transformers 支持多種語言

Asr Wav2vec2 Commonvoice 14 Es

這是一個基於CommonVoice西班牙語數據集訓練的端到端自動語音識別系統，使用wav2vec 2.0預訓練模型結合CTC解碼器。

語音識別西班牙語

Asr Whisper Medium Commonvoice Ar

基於CommonVoice阿拉伯語數據集微調的Whisper medium語音識別模型，由SpeechBrain團隊開發

語音識別阿拉伯語

Asr Whisper Medium Commonvoice Fa

基於CommonVoice-14.0波斯語數據集微調的whisper medium模型，用於波斯語自動語音識別任務。

語音識別其他

Faster Whisper Large V2 Japanese 5k Steps

基於Whisper Large V2模型的日語自動語音識別(ASR)模型，使用CTranslate2優化轉換，支持高效推理。

Transformers 日語

Asr Conformer Transformerlm Librispeech

基於SpeechBrain框架的自動語音識別模型，使用Conformer編碼器和Transformer解碼器，在LibriSpeech數據集上訓練，支持英語語音識別。

語音識別英語

Asr Whisper Large V2 Commonvoice Fa

這是一個基於whisper-large-v2架構的自動語音識別模型，專門針對波斯語在CommonVoice數據集上進行了微調。

語音識別其他

Wav2vec2 Large Xlsr 53 Spanish Ep5 944h

適用於西班牙語自動語音識別的聲學模型，基於facebook/wav2vec2-large-xlsr-53微調5個週期，使用約944小時西班牙語數據。

Transformers 西班牙語

carlosdanielhernandezmena

Whisper Tiny.en

Whisper是一個預訓練的自動語音識別(ASR)模型，在68萬小時標註數據上訓練，具有強大的泛化能力。

語音識別英語

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，經過68萬小時標註數據訓練，具有強大的泛化能力。

語音識別支持多種語言

Icefall Asr Gigaspeech Conformer Ctc

Icefall 是一個基於 k2 框架的自動語音識別（ASR）工具包，專注於高效和靈活的語音識別模型訓練與推理。

語音識別英語

Asr Wav2vec2 Dvoice Wolof

這是一個針對沃洛夫語的自動語音識別模型，基於wav2vec 2.0架構，在DVoice數據集上訓練，支持沃洛夫語語音轉錄。

語音識別其他

Asr Wav2vec2 Dvoice Amharic

這是一個針對阿姆哈拉語的自動語音識別模型，使用wav2vec 2.0架構和CTC/Attention機制訓練

語音識別其他

Wav2vec2 Large Xlsr Turkish Demo Colab

基於facebook/wav2vec2-large-xlsr-53模型在common_voice土耳其語數據集上微調的語音識別模型

Wav2vec2 Large Xls R 300m Turkish Colab

基於facebook/wav2vec2-xls-r-300m在common_voice土耳其語數據集上微調的語音識別模型

Ascend With English

基於timit_asr數據集對ascend模型進行微調的英語語音識別模型

Wav2vec2 Base Timit Demo Colab

基於facebook/wav2vec2-base在TIMIT數據集上微調的語音識別模型，詞錯誤率(WER)為0.3382

Wav2vec2 Large Xlsr Kyrgyz

這是一個基於facebook/wav2vec2-large-xlsr-53模型在吉爾吉斯語通用語音數據集上微調的自動語音識別模型。

語音識別其他

Wav2vec2 Random

基於TIMIT_ASR數據集對wav2vec2-base-random模型進行微調的自動語音識別模型

patrickvonplaten

Wav2vec2 Xls R 300m Bas CV8 V2

基於facebook/wav2vec2-xls-r-300m在Common Voice 8數據集上微調的自動語音識別模型，支持巴斯克語(bas)。

Transformers 其他

Wav2vec2 Large Xlsr 53 Turkish

這是一個基於Facebook的wav2vec2-large-xlsr-53模型在土耳其語Common Voice數據集上微調的自動語音識別(ASR)模型。

語音識別其他

Wav2vec2 Large Xlsr Mongolian

這是一個基於facebook/wav2vec2-large-xlsr-53在蒙古語通用語音數據集上微調的自動語音識別模型

語音識別其他

Wav2vec2 Large Xls R 300m Hindi Colab

基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的印地語語音識別模型

Wav2vec2 Base 100h

基於LibriSpeech 100小時數據訓練的Wav2Vec2基礎版語音識別模型

Transformers 英語

Asr Transformer Aishell

基於SpeechBrain框架預訓練的AISHELL（普通話）端到端自動語音識別系統，採用Transformer編碼器+聯合解碼器結構

語音識別英語

Wav2vec2 Large Xlsr 53 Lithuanian

基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice數據集對立陶宛語進行微調的自動語音識別模型。

語音識別其他

Asr Wav2vec2 Commonvoice Fr

基於CommonVoice法語數據集訓練的wav2vec 2.0語音識別模型，使用CTC/Attention架構，無需語言模型

語音識別法語

基於facebook/wav2vec2-xls-r-300m在馬拉地語數據集上微調的自動語音識別模型

Transformers 其他

StephennFernandes

Asr Wav2vec2 Commonvoice En

這是一個基於CommonVoice英語數據集訓練的端到端自動語音識別系統，結合了wav2vec 2.0預訓練模型和CTC解碼器。

語音識別英語

Wav2vec2 Large Xlsr Thai Demo

基於facebook/wav2vec2-large-xlsr-53在泰語通用語音數據集上微調的語音識別模型

Transformers 其他

Wav2vec2 2 Bert Large No Adapter

基於LibriSpeech數據集訓練的自動語音識別(ASR)模型，用於將英語語音轉換為文本

Asr Crdnn Commonvoice Fr

這是一個基於CommonVoice法語數據集訓練的端到端自動語音識別系統，採用CRDNN架構結合CTC和注意力機制。

語音識別法語

Wav2vec2 Base Turkish Cv7

基於wav2vec2架構的土耳其語自動語音識別模型，在Common Voice 7.0土耳其語數據集上微調

Transformers 其他

Wav2vec2 Base Vietnamese 250h

基於wav2vec 2.0架構的越南語自動語音識別模型，在13,000小時未標註音頻和250小時標註數據上訓練

Transformers 其他

Wav2vec2 Large Xlsr Estonian

這是一個基於facebook/wav2vec2-large-xlsr-53模型微調的愛沙尼亞語自動語音識別(ASR)模型，使用Common Voice數據集進行訓練。

語音識別其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase