Aero 1 Audio
MIT
輕量級音頻模型,擅長語音識別、音頻理解及執行音頻指令等多元任務
音頻生成文本
Transformers 英語

A
lmms-lab
1,348
74
Whisper Custom Small
Apache-2.0
基於 OpenAI Whisper 架構的小型語音識別模型,專注於英語語音轉文本任務。
語音識別 英語
W
gyrroa
15
1
Wav2vec2 Tellmate
Apache-2.0
專為國際象棋座標識別優化的語音識別模型,基於近2,500個英語象棋座標音頻文件微調
語音識別
Transformers 支持多種語言

W
leomino
27
1
Whisper Base.en
Whisper是一個通用的語音識別模型,由OpenAI訓練。該模型基於大規模弱監督訓練,支持多種語言的語音轉錄。
語音識別
Transformers

W
onnx-community
76
1
Deepfake Audio Detection
Apache-2.0
基於facebook/wav2vec2-base微調的深度偽造音頻檢測模型,在評估集上準確率達95.45%
音頻分類
Transformers

D
Heem2
246
0
Parakeet Tdt Ctc 1.1b
Parakeet TDT-CTC 1.1B 是一個自動語音識別模型,能夠轉錄帶有標點和大小寫的英文語音,由NVIDIA NeMo和Suno.ai聯合開發。
語音識別 英語
P
nvidia
35.19k
18
Whisper Medicalv1
MIT
Distil-Whisper是Whisper large-v3的知識蒸餾版本,專注於英語語音識別,提供更快的推理速度同時保持接近原始模型的準確性。
語音識別 英語
W
Crystalcareai
348
11
Wav2vec2 Bert CV16 En
基於w2v-bert-2.0在Common Voice 16.0英文數據集上微調的自動語音識別(ASR)模型
語音識別
Transformers 英語

W
hf-audio
1,700
8
Distil Small.en
MIT
Distil-Whisper是Whisper模型的蒸餾版本,速度快6倍,體積縮小49%,在非分佈評估集上表現接近1% WER。
語音識別
Transformers 英語

D
distil-whisper
33.51k
97
Faster Whisper Small.en
MIT
基於OpenAI Whisper small.en模型的CTranslate2轉換版本,用於高效語音識別
語音識別 英語
F
Systran
129.26k
4
Faster Whisper Medium.en
MIT
這是OpenAI Whisper medium.en模型的CTranslate2轉換版本,用於高效的自動語音識別任務。
語音識別 英語
F
Systran
65.17k
3
Distil Medium.en
MIT
Distil-Whisper是Whisper模型的蒸餾版本,速度比原版快6倍,體積縮小49%,在英語語音識別任務上保持接近原版的性能。
語音識別 英語
D
distil-whisper
186.85k
120
Distil Large V2
MIT
Distil-Whisper是Whisper模型的蒸餾版本,速度提升6倍,體積縮小49%,在非分佈評估集上的表現僅相差1% WER。
語音識別 英語
D
distil-whisper
42.65k
508
Wav2vec2 Base 960h
基於Facebook wav2vec2-base-960h模型的ONNX格式轉換版本,專為Transformers.js設計,支持瀏覽器端語音識別
語音識別
Transformers

W
Xenova
117
3
Wav2vec2 Large Xlsr 53 English
基於wav2vec 2.0架構的大規模語音識別模型,支持英語語音轉文本
語音識別
Transformers

W
Xenova
14
2
Wavlm Bart
一個支持英語自動語音識別(ASR)的序列到序列模型,能夠輸出規範化文本、標註時間戳以及多說話人分段。
語音識別
Transformers 英語

W
nguyenvulebinh
24
2
Whisper Medium.en
Apache-2.0
Whisper是OpenAI開發的自動語音識別(ASR)模型,經過68萬小時標註語音數據訓練,具有強大的泛化能力。
語音識別 英語
W
openai
36.92k
53
Whisper Small.en
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)模型,在68萬小時的標註數據上訓練,展現出強大的泛化能力。
語音識別 英語
W
openai
20.50k
47
Whisper Base.en
Apache-2.0
Whisper是一個強大的自動語音識別模型,經過68萬小時的數據訓練,具備優異的泛化能力。
語音識別 英語
W
openai
2.2M
37
Whisper Tiny.en
Apache-2.0
Whisper是一個預訓練的自動語音識別(ASR)模型,在68萬小時標註數據上訓練,具有強大的泛化能力。
語音識別 英語
W
openai
145.30k
103
Exp W2v2t En Unispeech Sat S459
Apache-2.0
基於微軟UniSpeech-SAT-Large模型微調的英語語音識別模型,支持16kHz採樣率的語音輸入。
語音識別
Transformers 英語

E
jonatasgrosman
22
0
Exp W2v2t En Vp Nl S281
Apache-2.0
基於facebook/wav2vec2-large-nl-voxpopuli模型微調的英語語音識別模型,使用Common Voice 7.0訓練集進行訓練。
語音識別
Transformers 英語

E
jonatasgrosman
18
0
Exp W2v2t En No Pretraining S289
Apache-2.0
這是一個針對英語語音識別任務的模型,基於隨機初始化的wav2vec2架構,使用Common Voice 7.0數據集進行微調。
語音識別
Transformers 英語

E
jonatasgrosman
18
0
Wav2vec2 Large Xlsr 53 Enlgish FT ASCEND Colab
Apache-2.0
該模型是基於jonatasgrosman/wav2vec2-large-xlsr-53-english在ascend數據集上微調的語音識別模型。
語音識別
Transformers

W
Ryna
16
0
Assignment1 Omar
Apache-2.0
Wav2Vec2是一個基於自監督學習的語音識別模型,在LibriSpeech 960小時語音數據上預訓練和微調,支持英語語音轉錄。
語音識別
Transformers 英語

A
Classroom-workshop
28
0
Xtreme S Xlsr 300m Voxpopuli En
Apache-2.0
該模型是基於facebook/wav2vec2-xls-r-300m在GOOGLE/XTREME_S - VOXPOPULI.EN數據集上微調的語音識別模型,支持英語語音轉文本任務。
語音識別
Transformers 英語

X
anton-l
28
0
Ascend With English
基於timit_asr數據集對ascend模型進行微調的英語語音識別模型
語音識別
Transformers

A
GleamEyeBeast
23
0
Wav2vec2 2 Gpt2 Regularisation
這是一個基於 LibriSpeech 數據集訓練的自動語音識別(ASR)模型,能夠將英語語音轉換為文本。
語音識別
Transformers

W
sanchit-gandhi
20
0
Wav2vec2 2 Bart Large No Adapter
該模型是基於LibriSpeech ASR數據集訓練的自動語音識別(ASR)模型,能夠將英語語音轉換為文本。
語音識別
Transformers

W
sanchit-gandhi
22
0
Speech Text
Apache-2.0
基於facebook/wav2vec2-large-xlsr-53在英語通用語音數據集上微調的自動語音識別模型,支持16kHz採樣率的英語語音輸入。
語音識別 英語
S
abidlabs
25
0
Wav2vec2 2 Rnd
基於 LibriSpeech ASR 數據集訓練的自動語音識別模型,用於將英語語音轉換為文本。
語音識別
Transformers

W
sanchit-gandhi
16
0
Wav2vec2 Xls R 1b English
Apache-2.0
這是一個基於XLS-R 1B架構的英語語音識別模型,在多個英語語音數據集上進行了微調。
語音識別
Transformers 英語

W
jonatasgrosman
1,896
9
Wav2vec2 Random
基於TIMIT_ASR數據集對wav2vec2-base-random模型進行微調的自動語音識別模型
語音識別
Transformers

W
patrickvonplaten
16
0
Unispeech Large 1500h Cv Timit
該模型是基於microsoft/unispeech-large-1500h-cv在TIMIT_ASR數據集上微調得到的自動語音識別模型,在評估集上取得了21.96%的詞錯誤率(WER)。
語音識別
Transformers

U
patrickvonplaten
536
0
Wav2vec2 Base Timit Asr
Apache-2.0
基於facebook/wav2vec2-base在timit_asr數據集上微調的語音識別模型,支持16kHz採樣率的語音輸入
語音識別
Transformers 英語

W
elgeish
174
0
W2v Timit Ft 4001
基於Wav2Vec 2.0架構的語音識別模型,在TIMIT數據集上微調,適用於英語語音轉文本任務
語音識別
Transformers

W
devin132
22
0
Wav2vec2 2 Bert Large No Adapter Frozen Enc
該模型是基於librispeech_asr數據集訓練的語音識別模型,在評估集上取得了2.0133的詞錯誤率(WER)。
語音識別
Transformers

W
speech-seq2seq
25
2
Wav2vec2 Base Repro Timit
該模型是基於patrickvonplaten/wav2vec2-base-repro-960h-libri-85k-steps在TIMIT_ASR - NA數據集上微調的自動語音識別模型。
語音識別
Transformers

W
patrickvonplaten
20
0
Wav2vec2 2 Roberta Large No Adapter Frozen Enc
該模型是基於LibriSpeech ASR數據集訓練的語音識別模型,能夠將語音轉換為文本。
語音識別
Transformers

W
speech-seq2seq
27
0
Wav2vec2 Base 100h
Apache-2.0
基於LibriSpeech 100小時數據訓練的Wav2Vec2基礎版語音識別模型
語音識別
Transformers 英語

W
vuiseng9
26
0
- 1
- 2
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98