高精度轉錄

# 高精度轉錄

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，通過68萬小時標註數據訓練，具有強大的泛化能力。

Safetensors 支持多種語言

Whisper Large V3

Whisper是OpenAI開發的最先進的自動語音識別(ASR)和語音翻譯模型，支持多種語言

Safetensors 支持多種語言

Parakeet Tdt Ctc 0.6b Ja

該模型是基於FastConformer架構的日語自動語音識別(ASR)模型，由NVIDIA開發並轉換為MLX格式。

GigaAM v2 是一個自動語音識別（ASR）模型，支持俄語語音轉文本任務，提供CTC和RNN-T兩種架構。

語音識別其他

Whisper Small Tel

基於OpenAI Whisper-large-v2在泰盧固語音頻數據集上微調的語音識別模型

Transformers 其他

Kb Whisper Tiny

瑞典國家圖書館發佈的Whisper模型，專為瑞典語語音識別優化，相比OpenAI原版顯著降低錯誤率。

Transformers 其他

Kb Whisper Medium

瑞典國家圖書館發佈的基於超過5萬小時瑞典語音訓練的Whisper模型，在瑞典語音識別任務上表現優異

Transformers 其他

Whisper Small Turkish 0

基於OpenAI Whisper-small微調的土耳其語語音識別模型

Transformers 其他

Whisper Large V3 Turbo Shqip

基於OpenAI Whisper Large v3 Turbo針對阿爾巴尼亞語優化的語音識別模型，支持標準阿爾巴尼亞語及蓋格方言

Transformers 其他

Voice Clone Large Finetune Final

該模型是基於openai/whisper-large-v3微調的語音克隆模型，主要用於語音識別任務，在評估集上詞錯誤率為15.3572。

Kotoba Whisper V2.2

基於Whisper的日語自動語音識別模型，集成說話人分離和標點符號添加功能

Transformers 日語

Whisper Large V3 Turbo

基於ONNX格式優化的Whisper大型語音識別模型，專為網頁端部署設計

Whisper Large V3 Myanmar

本模型是基於openai/whisper-large-v3在緬甸語語音數據集上微調的自動語音識別模型，專門用於緬甸語語音轉錄。

Transformers 其他

Wav2vec2 Base Korean

基於Facebook的wav2vec2-base模型微調而來，專門針對韓語語音識別進行了優化，能夠將韓語語音準確地轉錄為文本。

Transformers 韓語

Distil Whisper Large V3 German

基於distil-whisper技術的德語語音識別模型，參數量7.56億，在保持高質量的同時實現更快的推理速度。

Transformers 德語

Belle Whisper Large V3 Zh

基於whisper-large-v3微調優化的中文語音識別模型，在多箇中文語音基準測試中性能顯著提升

Whisper Native Elderly 9 Dutch

基於OpenAI Whisper Large V2模型在荷蘭語數據集上微調的語音識別模型，詞錯誤率10.14%

Transformers 其他

Nb Whisper Large

挪威國家圖書館研發的自動語音識別模型，基於Whisper架構，支持挪威語和英語的語音轉錄與翻譯。

Belle Whisper Large V2 Zh

基於whisper-large-v2進行微調的中文語音識別模型，在多箇中文語音識別基準測試中實現了30-70%的相對性能提升。

Stt Fa Fastconformer Hybrid Large

這是一個用於波斯語自動語音識別(ASR)的混合模型，結合了傳感器和CTC解碼器損失，基於FastConformer架構優化。

語音識別其他

Whisper Large V3 German

基於Whisper Large v3的德語語音識別微調模型，針對德語語音處理和識別進行了優化

Transformers 德語

Whisper Large V2 Ko

基於OpenAI Whisper-large-v2微調的韓語自動語音識別(ASR)模型，在韓語數據集上表現出色

Transformers 韓語

Englishspeechtotext

基於facebook/wav2vec2-xls-r-300m微調的英語語音識別模型

Whisper Large V2 Mix Jp

基於OpenAI Whisper-large-v2模型在日語語音數據集上微調的自動語音識別(ASR)模型

Whisper Large V2 Pl V2

基於Whisper Large v2在波蘭語數據集上微調的自動語音識別模型，支持波蘭語語音轉文本任務。

Transformers 其他

Whisper Large Sme

基於Whisper-large-v2微調的北薩米語語音識別模型，在測試集上詞錯誤率為24.91%

Transformers 其他

Whisper Medium Id

基於openai/whisper-medium在印尼語數據集上微調的語音識別模型，顯著提升了印尼語識別準確率

Transformers 其他

Whisper Medium Jp

基於openai/whisper-medium在common_voice_11_0數據集上微調的日語語音識別模型

Transformers 日語

Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型，經過68萬小時標註數據訓練，具有強大的跨領域泛化能力。

語音識別支持多種語言

Whisper是一個用於自動語音識別(ASR)和語音翻譯的預訓練模型，在68萬小時標註數據上訓練，具有強大的泛化能力。

語音識別支持多種語言

Assignment1 Francesco

基於語音到文本轉換器(S2T)訓練的自動語音識別(ASR)模型，專為英語語音識別設計

Transformers 英語

Classroom-workshop

Stt Kr Conformer Transducer Large

這是一個基於Conformer-Transducer架構的大規模韓語自動語音識別模型，在Ksponspeech數據集上訓練，適用於韓語語音轉錄任務。

語音識別其他

Wav2vec2 Xls R 300m Ur Cv9 With Lm

該模型是基於facebook/wav2vec2-xls-r-300m在烏爾都語語音數據集上微調的自動語音識別(ASR)模型

Transformers 其他

Wav2vec2 Russian

基於wav2vec2架構的俄語語音識別模型，識別結果可通過配套文本糾錯網絡進行後處理

ASCEND Dataset Model

基於facebook/wav2vec2-xls-r-300m微調的語音識別模型，在ASCEND數據集上訓練

Wav2vec2 Base 10k Voxpopuli Ft Nl

基於Facebook Wav2Vec2架構的語音識別模型，在VoxPopuli語料庫的10K未標記荷蘭語數據上預訓練，並在荷蘭語轉錄數據上微調。

Transformers 其他

Wav2vec2 Urdu Stt

這是一個基於Wav2Vec2架構的烏爾都語語音識別模型，能夠將烏爾都語語音轉換為文本。

Wav2vec2 Kannada Stt

一個基於Wav2Vec2架構的卡納達語語音識別模型，可直接將卡納達語語音轉換為文本。

Wav2vec2 Base 10k Voxpopuli Ft Hr

基於Facebook Wav2Vec2架構的語音識別模型，使用VoxPopuli語料庫預訓練並在克羅地亞語數據上微調

Transformers 其他

S2t Medium Librispeech Asr

一個用於自動語音識別(ASR)的語音到文本轉換器(S2T)模型，基於序列到序列轉換器架構

Transformers 英語

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase