高精度語音轉文本

# 高精度語音轉文本

Parakeet Tdt 0.6b V2

基於 NVIDIA Parakeet TDT 0.6B v2 轉換的 MLX 格式自動語音識別模型，支持高效語音轉文本任務。

Aidman Wav2vec2 Large Xls R 300m Irish Colab

這是一個基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的語音識別模型，支持愛爾蘭語。

Whisper Large V3 Turbo Cantonese Yue English

基於Whisper架構優化的粵語與英語混合語音識別模型，支持高精度雙語轉錄

Whisper Large V2 Spanish

基於openai/whisper-large-v2微調的西班牙語語音識別模型，在Common Voice 11.0西班牙語測試集上WER為8.55%

Exp W2v2t Sv Se Wavlm S42

基於microsoft/wavlm-large微調的瑞典語自動語音識別模型，適用於16kHz採樣率的語音輸入。

Wav2vec2 Large Xls R 300m Slovenian

該模型是基於facebook/wav2vec2-xls-r-300m在common_voice斯洛文尼亞語數據集上微調的語音識別模型，詞錯誤率為0.3271。

Wav2vec2 Large Xls R 300m Kinyarwanda

基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的盧旺達語語音識別模型

Victor Hg Ptbr 2.0

基於facebook/wav2vec2-xls-r-300m在common_voice數據集上微調的葡萄牙語語音識別模型

Wav2vec2 Large Xls R 300m Chinese Taiwan Colab

基於wav2vec2架構的大規模語音識別模型，針對中文（臺灣）語音進行優化，適用於語音轉文本任務。

Wav2vec2 Xlsr Nepali

該模型是基於facebook/wav2vec2-large-xlsr-53在尼泊爾語數據集上微調的語音識別模型。

基於 LibriSpeech ASR 數據集訓練的自動語音識別模型，用於將英語語音轉換為文本。

Wav2vec2 Large Xlsr 53 Irish

基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice數據集對愛爾蘭語進行了微調的語音識別模型。

Wav2vec2 Base 10k Voxpopuli Ft Ro

基於Facebook Wav2Vec2架構的語音識別模型，針對羅馬尼亞語進行微調，適用於自動語音識別任務。

Transformers 其他

Wav2vec2 Base 10k Voxpopuli Ft Sl

基於Facebook Wav2Vec2基礎模型，在VoxPopuli語料庫的10K未標註子集上預訓練，並在斯洛文尼亞語轉錄數據上微調的自動語音識別模型。

Transformers 其他

W2v Timit Ft 4001

基於Wav2Vec 2.0架構的語音識別模型，在TIMIT數據集上微調，適用於英語語音轉文本任務

Wav2vec2 Base 10k Voxpopuli Ft De

基於Facebook Wav2Vec2基礎模型，在VoxPopuli語料庫10K無標註子集上預訓練，並在德語轉錄數據上微調的語音識別模型

Transformers 德語

Wav2vec2 Large Xlsr Latvian Cv

基於facebook/wav2vec2-large-xlsr-53模型，在拉脫維亞語Common Voice數據集上微調的語音識別模型

語音識別其他

Wav2vec2 Large Xlsr Hindi Commonvoice

該模型是基於facebook/wav2vec2-large-xlsr-53在common_voice數據集上微調的版本，主要用於印地語語音識別任務。

該模型是基於facebook/wav2vec2-large-xlsr-53在未知數據集上微調的自動語音識別(ASR)模型，支持伊洛卡諾語(Iloko)語音識別。

Wav2vec2 Large Xlsr Or

這是一個基於facebook/wav2vec2-large-xlsr-53模型在Odia語言上微調的自動語音識別(ASR)模型，使用Common Voice數據集訓練。

語音識別其他

Wav2vec2 Base 10k Voxpopuli Ft Es

基於Facebook Wav2Vec2基礎模型，在VoxPopuli語料庫的10K未標註子集上預訓練，並在西班牙語轉錄數據上微調的語音識別模型。

Transformers 西班牙語

Wav2vec2 Large Xlsr Eo

基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice數據集對世界語進行微調的語音識別模型。

語音識別其他

Wav2vec2 Large Xlsr Slovene

這是一個基於Facebook的wav2vec2-large-xlsr-53模型進行微調的斯洛文尼亞語語音識別模型，使用Common Voice數據集訓練。

語音識別其他

Wav2vec2 Base 10k Voxpopuli Ft En

基於VoxPopuli語料庫10K未標記子集預訓練並在英語轉錄數據上微調的Wav2Vec2基礎模型，適用於英語語音識別任務。

Transformers 英語

Wav2vec2 Large Xlsr 53 Latvian

這是一個基於Facebook的Wav2Vec2-Large-XLSR-53模型在拉脫維亞語Common Voice數據集上微調的自動語音識別(ASR)模型。

語音識別其他

W2v Xlsr Dutch Lm Added

Facebook 發佈的 wav2vec2 系列模型之一，專門針對荷蘭語優化的自動語音識別（ASR）模型。

W2v Xlsr Dutch Lm

這是一個基於wav2vec2架構的荷蘭語語音識別模型，由Facebook開發，專門針對荷蘭語進行了優化。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase