多場景ASR

# 多場景ASR

Parakeet Tdt 0.6b V2 Mlx

這是一個自動語音識別模型，已轉換為適用於MLX的版本，可快速進行推理。

Safetensors 英語

Whisper Base Vi

基於openai/whisper-base模型在100小時越南語語音數據上微調的語音識別模型，提升越南語轉錄準確性

Transformers 其他

Whisper Large V3 Russian Ties Podlodka V1.0

基於TIES合併方法融合的俄語語音識別模型，優化電話語音識別效果

Transformers 其他

Whisper Small El

這是一個基於openai/whisper-small模型在希臘語語音識別任務上微調的自動語音識別(ASR)模型，使用Mozilla Common Voice 17.0數據集中的3620個希臘語樣本進行訓練。

Transformers 其他

Whisper Small Sinhala V3

該模型是基於openai/whisper-small在僧伽羅語數據集上微調的語音識別模型，支持僧伽羅語語音轉文本任務。

Transformers 其他

Lingalingeswaran

Distil Whisper Large V3 Int8 Ov

這是一個經過轉換和量化的語音識別模型，基於distil-large-v3模型轉換為OpenVINO™ IR格式，並將權重壓縮為INT8，以提升性能和兼容性。

Transformers 英語

Whisper Small Turkish V2

基於OpenAI Whisper-small模型在土耳其語Common Voice數據集上微調的語音識別模型

Transformers 其他

Whisper Large Et

基於OpenAI Whisper-large-v2微調的愛沙尼亞語語音識別模型，由塔爾圖理工大學開發，訓練數據約1200小時

Transformers 其他

Whisper Large V2 Hindi 2.5k Steps

這是一個基於OpenAI Whisper Large V2模型微調的印地語自動語音識別(ASR)模型，在Common Voice 11.0數據集上訓練，詞錯誤率(WER)為10.05%。

Transformers 其他

Whisper Large V2 Vietnamese

該模型是基於OpenAI的Whisper Small架構，在Common Voice 11.0越南語數據集上微調的自動語音識別(ASR)模型

Transformers 其他

Whisper Small Sk Cv11

基於OpenAI Whisper-small微調的斯洛伐克語語音識別模型，在Common Voice 11.0斯洛伐克語數據集上訓練

Transformers 其他

Whisper Medium Pt

針對葡萄牙語優化的Whisper Medium語音識別模型，在Common Voice 11數據集上達到6.579詞錯誤率(WER)

Transformers 其他

Exp W2v2t It Xlsr 53 S387

基於facebook/wav2vec2-large-xlsr-53模型微調的意大利語自動語音識別模型，使用Common Voice 7.0意大利語數據集訓練。

Transformers 其他

Exp W2v2t Th Wav2vec2 S664

基於facebook/wav2vec2-large-lv60模型微調的泰語語音識別模型，使用Common Voice 7.0數據集訓練

Transformers 其他

Wav2vec2 Large Xlsr 53 German Cv9

這是一個基於Facebook的wav2vec2-large-xlsr-53模型在德語Common Voice 9.0數據集上微調的自動語音識別(ASR)模型。

Transformers 德語

Wav2vec NCKH 2022

基於Wav2vec2架構的越南語自動語音識別模型，支持從音頻到文本的轉換

Transformers 其他

Xlsr 53 Wav2vec Hi

基於facebook/wav2vec2-large-xlsr-53微調的印地語語音識別模型，在低資源印度語言的多語言和語碼轉換ASR挑戰賽數據上訓練

Transformers 其他

Wav2vec2 Large Xls R 300m Tr

該模型是基於facebook/wav2vec2-xls-r-300m在土耳其語Common Voice 8.0數據集上微調的自動語音識別(ASR)模型，測試WER為28.69%。

Transformers 其他

基於facebook/wav2vec2-xls-r-300m在OpenSLR SLR66泰盧固語數據集上微調的自動語音識別模型

Transformers 其他

基於facebook/wav2vec2-xls-r-300m微調的愛沙尼亞語自動語音識別模型，使用約800小時多樣化數據訓練

Transformers 其他

基於XLSR架構微調的印尼語自動語音識別(ASR)模型，在Common Voice印尼語數據集上訓練

Transformers 其他

該模型是基於facebook/wav2vec2-xls-r-300m在Common Voice 7.0越南語及私有數據集上微調的語音識別模型。

Transformers 其他

基於facebook/wav2vec2-xls-r-300m在荷蘭語(nl)數據集上微調的自動語音識別(ASR)模型

Transformers 其他

Wav2vec2 Large Xls R 300m Hindi Kaggle

基於common_voice數據集訓練的印地語語音識別模型

Transformers 其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase