語音識別

2025年最佳 1878 款語音識別工具

Voice Activity Detection

基於pyannote.audio 2.1版本的語音活動檢測模型，用於識別音頻中的語音活動時間段

Wav2vec2 Large Xlsr 53 Portuguese

這是一個針對葡萄牙語語音識別任務微調的XLSR-53大模型，基於Common Voice 6.1數據集訓練，支持葡萄牙語語音轉文本。

語音識別其他

Whisper Large V3

Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型，在超過500萬小時的標註數據上訓練，具有強大的跨數據集和跨領域泛化能力。

語音識別支持多種語言

Whisper Large V3 Turbo

Whisper是由OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，經過超過500萬小時標記數據的訓練，在零樣本設置下展現出強大的泛化能力。

Transformers 支持多種語言

Wav2vec2 Large Xlsr 53 Russian

基於facebook/wav2vec2-large-xlsr-53模型微調的俄語語音識別模型，支持16kHz採樣率的語音輸入

語音識別其他

Wav2vec2 Large Xlsr 53 Chinese Zh Cn

基於facebook/wav2vec2-large-xlsr-53模型微調的中文語音識別模型，支持16kHz採樣率的語音輸入。

語音識別中文

Wav2vec2 Large Xlsr 53 Dutch

基於facebook/wav2vec2-large-xlsr-53微調的荷蘭語語音識別模型，在Common Voice和CSS10數據集上訓練，支持16kHz音頻輸入。

語音識別其他

Wav2vec2 Large Xlsr 53 Japanese

基於facebook/wav2vec2-large-xlsr-53模型微調的日語語音識別模型，支持16kHz採樣率的語音輸入

語音識別日語

Mms 300m 1130 Forced Aligner

基於Hugging Face預訓練模型的文本與音頻強制對齊工具，支持多種語言，內存效率高

Transformers 支持多種語言

Wav2vec2 Large Xlsr 53 Arabic

基於facebook/wav2vec2-large-xlsr-53微調的阿拉伯語語音識別模型，在Common Voice和阿拉伯語語音語料庫上訓練

語音識別阿拉伯語

Whisper Base.en

Whisper是一個強大的自動語音識別模型，經過68萬小時的數據訓練，具備優異的泛化能力。

語音識別英語

Wav2vec2 Base 960h

Facebook開發的Wav2Vec2基礎模型，在960小時的Librispeech語音音頻上進行了預訓練和微調，用於英語自動語音識別任務。

Transformers 英語

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，經過68萬小時標註數據訓練，具有強大的泛化能力。

語音識別支持多種語言

Wav2vec2 Large Xlsr Korean

基於Wav2Vec2 XLSR架構的韓語自動語音識別(ASR)模型，在Zeroth韓語數據集上表現出色

Transformers 韓語

Wav2vec2 Large Xlsr Hindi

基於facebook/wav2vec2-large-xlsr-53在低資源印度語言數據集上微調的印地語自動語音識別模型

Transformers 其他

Wav2vec2 Xls R 300m Ftspeech

基於facebook/wav2vec2-xls-r-300m在丹麥議會語音數據集上微調的丹麥語自動語音識別模型

Transformers 其他

Wav2vec2 Xls R 300m Hebrew

這是一個基於facebook/wav2vec2-xls-r-300m模型微調的希伯來語自動語音識別模型，通過兩階段訓練在小規模和大規模數據集上優化性能。

Transformers 其他

Filipino Wav2vec2 L Xls R 300m Official

基於facebook/wav2vec2-xls-r-300m在菲律賓語音數據集上微調的語音識別模型

Faster Whisper Base

這是OpenAI Whisper基礎模型的CTranslate2轉換版本，用於高效語音識別任務。

語音識別支持多種語言

Faster Whisper Large V2

Whisper large-v2是OpenAI開發的大規模自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

語音識別支持多種語言

Faster Whisper Tiny

基於OpenAI Whisper微型模型的CTranslate2轉換版本，用於高效語音識別

語音識別支持多種語言

Hubert Large Ls960 Ft

HuBERT-Large是基於LibriSpeech 960小時語音數據微調的自監督語音表示學習模型，用於自動語音識別任務。

Transformers 英語

Faster Whisper Large V3

Whisper large-v3是OpenAI開發的大規模多語言自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

語音識別支持多種語言

Wav2vec2 Xls R 300m Cv7 Turkish

基於facebook/wav2vec2-xls-r-300m在土耳其語上微調的自動語音識別模型

Transformers 其他

Wavlm Base Plus

WavLM是由微軟開發的大規模自監督預訓練語音模型，基於16kHz採樣的語音音頻進行預訓練，適用於多種語音處理任務。

Transformers 英語

Wav2vec2 Xls R 1b Portuguese

這是一個基於XLS-R 1B架構的葡萄牙語自動語音識別模型，在多個葡萄牙語語音數據集上進行了微調。

Transformers 其他

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，經過68萬小時標註數據訓練，具有強大的泛化能力。

語音識別支持多種語言

基於Conformer架構的語音編碼器，在450萬小時無標註音頻數據上預訓練，支持143種以上語言

Transformers 支持多種語言

Distil Large V3

Distil-Whisper是Whisper large-v3的知識蒸餾版本，專注於英語自動語音識別，提供更快的推理速度同時保持接近原始模型的準確性。

語音識別英語

Wav2vec2 Large Xlsr 53 Polish

針對波蘭語優化的XLSR-53大模型語音識別系統，基於facebook/wav2vec2-large-xlsr-53微調，支持波蘭語自動語音識別

語音識別其他

Hubert Base Ls960

HuBERT是一種自監督語音表示學習模型，通過類似BERT的預測損失學習語音特徵，適用於語音識別等任務。

Transformers 英語

WavLM是微軟開發的大規模自監督語音預訓練模型，支持全棧語音處理任務，在SUPERB基準測試中表現優異。

Transformers 英語

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，經過68萬小時標註數據訓練，具有強大的跨領域泛化能力。

語音識別支持多種語言

Faster Whisper Small

基於OpenAI Whisper小型模型的CTranslate2格式轉換版本，用於高效語音識別

語音識別支持多種語言

Faster Whisper Base.en

這是一個基於CTranslate2轉換的Whisper base.en模型，用於英語語音識別任務。

語音識別英語

Wav2vec2 Large Robust Ft Libritts Voxpopuli

基於wav2vec2-large的語音識別模型，專為生成帶標點符號的轉錄文本設計，適用於TTS模型構建。

Whisper Tiny是OpenAI開發的自動語音識別(ASR)模型，屬於Whisper系列中最小的版本，參數規模為39M。

語音識別支持多種語言

Wav2vec2 Xlsr 53 Espeak Cv Ft

該模型是基於wav2vec2-large-xlsr-53預訓練模型在CommonVoice數據集上微調的多語言音素識別模型，支持多種語言的音素標籤識別。

Whisperkit Coreml

WhisperKit 是一款面向 Apple Silicon 的本地語音識別框架，支持高效的自動語音識別任務。

語音識別其他

Wav2vec2 Large Xlsr 53 Persian

針對波斯語優化的XLSR-53大模型語音識別系統，基於facebook/wav2vec2-large-xlsr-53架構微調

語音識別其他

Faster Whisper Large V3 Turbo Ct2

這是將Whisper large-v3 turbo模型轉換為CTranslate2格式的版本，用於高效的自動語音識別任務。

語音識別支持多種語言

Wav2vec2 Large Xlsr 53 English

基於facebook/wav2vec2-large-xlsr-53模型微調的英語語音識別模型，在Common Voice 6.1數據集上訓練

語音識別英語

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase