英語語音識別

# 英語語音識別

輕量級音頻模型，擅長語音識別、音頻理解及執行音頻指令等多元任務

音頻生成文本

Transformers 英語

Whisper Custom Small

基於 OpenAI Whisper 架構的小型語音識別模型，專注於英語語音轉文本任務。

語音識別英語

Wav2vec2 Tellmate

專為國際象棋座標識別優化的語音識別模型，基於近2,500個英語象棋座標音頻文件微調

Transformers 支持多種語言

Whisper Base.en

Whisper是一個通用的語音識別模型，由OpenAI訓練。該模型基於大規模弱監督訓練，支持多種語言的語音轉錄。

Deepfake Audio Detection

基於facebook/wav2vec2-base微調的深度偽造音頻檢測模型，在評估集上準確率達95.45%

Parakeet Tdt Ctc 1.1b

Parakeet TDT-CTC 1.1B 是一個自動語音識別模型，能夠轉錄帶有標點和大小寫的英文語音，由NVIDIA NeMo和Suno.ai聯合開發。

語音識別英語

Whisper Medicalv1

Distil-Whisper是Whisper large-v3的知識蒸餾版本，專注於英語語音識別，提供更快的推理速度同時保持接近原始模型的準確性。

語音識別英語

Wav2vec2 Bert CV16 En

基於w2v-bert-2.0在Common Voice 16.0英文數據集上微調的自動語音識別(ASR)模型

Transformers 英語

Distil Small.en

Distil-Whisper是Whisper模型的蒸餾版本，速度快6倍，體積縮小49%，在非分佈評估集上表現接近1% WER。

Transformers 英語

Faster Whisper Small.en

基於OpenAI Whisper small.en模型的CTranslate2轉換版本，用於高效語音識別

語音識別英語

Faster Whisper Medium.en

這是OpenAI Whisper medium.en模型的CTranslate2轉換版本，用於高效的自動語音識別任務。

語音識別英語

Distil Medium.en

Distil-Whisper是Whisper模型的蒸餾版本，速度比原版快6倍，體積縮小49%，在英語語音識別任務上保持接近原版的性能。

語音識別英語

Distil Large V2

Distil-Whisper是Whisper模型的蒸餾版本，速度提升6倍，體積縮小49%，在非分佈評估集上的表現僅相差1% WER。

語音識別英語

Wav2vec2 Base 960h

基於Facebook wav2vec2-base-960h模型的ONNX格式轉換版本，專為Transformers.js設計，支持瀏覽器端語音識別

Wav2vec2 Large Xlsr 53 English

基於wav2vec 2.0架構的大規模語音識別模型，支持英語語音轉文本

一個支持英語自動語音識別(ASR)的序列到序列模型，能夠輸出規範化文本、標註時間戳以及多說話人分段。

Transformers 英語

Whisper Medium.en

Whisper是OpenAI開發的自動語音識別(ASR)模型，經過68萬小時標註語音數據訓練，具有強大的泛化能力。

語音識別英語

Whisper Small.en

Whisper是一個預訓練的自動語音識別(ASR)模型，在68萬小時的標註數據上訓練，展現出強大的泛化能力。

語音識別英語

Whisper Base.en

Whisper是一個強大的自動語音識別模型，經過68萬小時的數據訓練，具備優異的泛化能力。

語音識別英語

Whisper Tiny.en

Whisper是一個預訓練的自動語音識別(ASR)模型，在68萬小時標註數據上訓練，具有強大的泛化能力。

語音識別英語

Exp W2v2t En Unispeech Sat S459

基於微軟UniSpeech-SAT-Large模型微調的英語語音識別模型，支持16kHz採樣率的語音輸入。

Transformers 英語

Exp W2v2t En Vp Nl S281

基於facebook/wav2vec2-large-nl-voxpopuli模型微調的英語語音識別模型，使用Common Voice 7.0訓練集進行訓練。

Transformers 英語

Exp W2v2t En No Pretraining S289

這是一個針對英語語音識別任務的模型，基於隨機初始化的wav2vec2架構，使用Common Voice 7.0數據集進行微調。

Transformers 英語

Wav2vec2 Large Xlsr 53 Enlgish FT ASCEND Colab

該模型是基於jonatasgrosman/wav2vec2-large-xlsr-53-english在ascend數據集上微調的語音識別模型。

Assignment1 Omar

Wav2Vec2是一個基於自監督學習的語音識別模型，在LibriSpeech 960小時語音數據上預訓練和微調，支持英語語音轉錄。

Transformers 英語

Classroom-workshop

Xtreme S Xlsr 300m Voxpopuli En

該模型是基於facebook/wav2vec2-xls-r-300m在GOOGLE/XTREME_S - VOXPOPULI.EN數據集上微調的語音識別模型，支持英語語音轉文本任務。

Transformers 英語

Ascend With English

基於timit_asr數據集對ascend模型進行微調的英語語音識別模型

Wav2vec2 2 Gpt2 Regularisation

這是一個基於 LibriSpeech 數據集訓練的自動語音識別(ASR)模型，能夠將英語語音轉換為文本。

Wav2vec2 2 Bart Large No Adapter

該模型是基於LibriSpeech ASR數據集訓練的自動語音識別(ASR)模型，能夠將英語語音轉換為文本。

基於facebook/wav2vec2-large-xlsr-53在英語通用語音數據集上微調的自動語音識別模型，支持16kHz採樣率的英語語音輸入。

語音識別英語

基於 LibriSpeech ASR 數據集訓練的自動語音識別模型，用於將英語語音轉換為文本。

Wav2vec2 Xls R 1b English

這是一個基於XLS-R 1B架構的英語語音識別模型，在多個英語語音數據集上進行了微調。

Transformers 英語

Wav2vec2 Random

基於TIMIT_ASR數據集對wav2vec2-base-random模型進行微調的自動語音識別模型

patrickvonplaten

Unispeech Large 1500h Cv Timit

該模型是基於microsoft/unispeech-large-1500h-cv在TIMIT_ASR數據集上微調得到的自動語音識別模型，在評估集上取得了21.96%的詞錯誤率(WER)。

patrickvonplaten

Wav2vec2 Base Timit Asr

基於facebook/wav2vec2-base在timit_asr數據集上微調的語音識別模型，支持16kHz採樣率的語音輸入

Transformers 英語

W2v Timit Ft 4001

基於Wav2Vec 2.0架構的語音識別模型，在TIMIT數據集上微調，適用於英語語音轉文本任務

Wav2vec2 2 Bert Large No Adapter Frozen Enc

該模型是基於librispeech_asr數據集訓練的語音識別模型，在評估集上取得了2.0133的詞錯誤率(WER)。

Wav2vec2 Base Repro Timit

該模型是基於patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps在TIMIT_ASR - NA數據集上微調的自動語音識別模型。

patrickvonplaten

Wav2vec2 2 Roberta Large No Adapter Frozen Enc

該模型是基於LibriSpeech ASR數據集訓練的語音識別模型，能夠將語音轉換為文本。

Wav2vec2 Base 100h

基於LibriSpeech 100小時數據訓練的Wav2Vec2基礎版語音識別模型

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase