16kHz採樣率

# 16kHz採樣率

Vits Icelandic Rosa Female Monospeaker

這是一個基於facebook/mms-tts-isl微調的冰島語文本轉語音模型，使用Talrómur數據集訓練，專注於女性聲音合成。

Transformers 其他

Whisper Medium Cv11 German Ct2

基於OpenAI的whisper-medium模型在Common Voice 11.0德語數據集上微調的自動語音識別模型

Transformers 德語

Whisper Medium Medical De AUT

基於Whisper Medium架構微調的德語醫療領域語音識別模型，特別針對奧地利標準德語發音優化

Transformers 德語

基於VITS架構的英文文本轉語音模型，由Kakao Enterprise訓練，支持高質量語音合成

Transformers 英語

Whisper Small Japanese

該模型是基於openai/whisper-small微調的日語語音識別模型，支持日語語音轉文本任務。

Transformers 日語

Whisper Base Japanese

本模型使用Common Voice、JVS和JSUT數據集對openai/whisper-base進行日語微調，適用於日語語音識別任務。

Transformers 日語

Wav2vec2 Large Xlsr 53 Japanese

基於facebook/wav2vec2-large-xlsr-53微調的日語語音識別模型，支持16kHz採樣率音頻輸入

Transformers 日語

Whisper Large V2 Cv11 German

基於openai/whisper-large-v2在Common Voice 11.0德語數據集上微調的自動語音識別模型，支持德語語音轉文字，詞錯誤率5.76

Transformers 德語

Wav2vec2 Large Chinese Zh Cn

基於XLSR-53大模型微調的中文語音識別模型，支持16kHz採樣率的語音輸入

Transformers 中文

Exp W2v2t Zh Cn Wavlm S596

基於microsoft/wavlm-large模型微調的中文語音識別模型，支持簡體中文，使用Common Voice 7.0 (zh-CN)數據集訓練。

Exp W2v2t Fa Hubert S801

基於facebook/hubert-large-ll60k模型微調的波斯語自動語音識別模型，使用Common Voice 7.0波斯語數據集訓練。

Transformers 其他

Exp W2v2t Sv Se Vp Nl S842

這是一個基於facebook/wav2vec2-large-nl-voxpopuli模型微調的瑞典語自動語音識別模型，使用Common Voice 7.0 (sv-SE)數據集進行訓練。

Exp W2v2t Sv Se Wavlm S42

基於microsoft/wavlm-large微調的瑞典語自動語音識別模型，適用於16kHz採樣率的語音輸入。

Exp W2v2t Fr Xls R S250

基於facebook/wav2vec2-xls-r-300m模型，使用Common Voice 7.0法語數據集微調的自動語音識別模型

Transformers 法語

Exp W2v2t Fr Vp Fr S438

基於facebook/wav2vec2-large-fr-voxpopuli模型微調的法語自動語音識別模型，使用Common Voice 7.0法語數據集訓練。

Transformers 法語

Exp W2v2t Fr Unispeech S42

基於microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0（法語）數據集微調的語音識別模型

Transformers 法語

Exp W2v2t It No Pretraining S842

基於隨機初始化的wav2vec2模型進行微調，用於意大利語語音識別任務，訓練數據採用Common Voice 7.0（意大利語）的訓練集分割部分。

Transformers 其他

Exp W2v2t It Xlsr 53 S387

基於facebook/wav2vec2-large-xlsr-53模型微調的意大利語自動語音識別模型，使用Common Voice 7.0意大利語數據集訓練。

Transformers 其他

Exp W2v2t It Vp 100k S449

基於facebook/wav2vec2-large-100k-voxpopuli模型微調的意大利語自動語音識別模型，使用Common Voice 7.0意大利語數據集訓練。

Transformers 其他

Exp W2v2t It Wav2vec2 S609

基於facebook/wav2vec2-large-lv60模型微調的意大利語自動語音識別模型，使用Common Voice 7.0意大利語數據集訓練。

Transformers 其他

Exp W2v2t Ja Vp It S544

基於facebook/wav2vec2-large-it-voxpopuli模型，使用Common Voice 7.0 (日語版)的訓練集進行語音識別微調的日語自動語音識別模型。

Transformers 日語

Exp W2v2t Ja Unispeech Sat S884

基於microsoft/unispeech-sat-large模型微調的日語自動語音識別模型，使用Common Voice 7.0日語數據集訓練。

Transformers 日語

Exp W2v2t Ja Wavlm S729

基於microsoft/wavlm-large模型微調的日語自動語音識別模型，使用Common Voice 7.0日語數據集訓練

Transformers 日語

Exp W2v2t Ja Unispeech S569

基於microsoft/unispeech-large-1500h-cv模型，使用Common Voice 7.0 (日語)數據集進行語音識別微調的日語自動語音識別模型

Transformers 日語

Exp W2v2t Ja Xlsr 53 S109

基於facebook/wav2vec2-large-xlsr-53模型微調的日語自動語音識別模型，使用Common Voice 7.0日語數據集訓練

Transformers 日語

Exp W2v2t Th Hubert S533

基於facebook/hubert-large-ll60k微調的泰語語音識別模型，訓練數據來自Common Voice 7.0

Transformers 其他

Exp W2v2t Th Wav2vec2 S664

基於facebook/wav2vec2-large-lv60模型微調的泰語語音識別模型，使用Common Voice 7.0數據集訓練

Transformers 其他

Exp W2v2t En Unispeech Sat S459

基於微軟UniSpeech-SAT-Large模型微調的英語語音識別模型，支持16kHz採樣率的語音輸入。

Transformers 英語

Exp W2v2t En Vp Nl S281

基於facebook/wav2vec2-large-nl-voxpopuli模型微調的英語語音識別模型，使用Common Voice 7.0訓練集進行訓練。

Transformers 英語

Exp W2v2t En No Pretraining S289

這是一個針對英語語音識別任務的模型，基於隨機初始化的wav2vec2架構，使用Common Voice 7.0數據集進行微調。

Transformers 英語

Wav2vec2 Large Tedlium

基於TEDLIUM語料庫微調的Wav2Vec2大型語音識別模型，支持英語語音轉文本

語音識別英語

Sharif Wav2vec2

Sharif Wav2vec2針對波斯語的微調版本，基於Common Voice波斯語樣本訓練，支持自動語音識別任務。

Transformers 其他

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

基於facebook/wav2vec2-large-xlsr-53在中文AISHELL-1數據集上微調的語音識別模型，支持中文語音識別任務。

Transformers 中文

Wav2vec2 Large Xlsr 53 Chinese Zh Cn Gpt

基於facebook/wav2vec2-large-xlsr-53在中文(zh-CN)上使用Common Voice數據集進行微調的語音識別模型

Transformers 中文

Data2vec Audio Large 960h

Data2Vec是一個通用自監督學習框架，適用於語音、視覺和語言任務。該音頻大模型基於LibriSpeech的960小時語音數據預訓練和微調，專為自動語音識別任務優化。

Transformers 英語

Wav2vec2 Base Da Ft Nst

基於NST數據集微調的丹麥語語音識別模型，支持16kHz採樣率音頻輸入

Transformers 其他

Wav2vec2 Large Xlsr Persian V3

基於Facebook的wav2vec2-large-xlsr-53模型在波斯語通用語音庫上微調的自動語音識別(ASR)模型

Transformers 其他

Wav2vec2 Xls R 1b English

這是一個基於XLS-R 1B架構的英語語音識別模型，在多個英語語音數據集上進行了微調。

Transformers 英語

Wav2vec2 Large Xlsr 53 Spanish

這是一個基於facebook/wav2vec2-large-xlsr-53模型在西班牙語Common Voice數據集上微調的自動語音識別(ASR)模型。

語音識別西班牙語

Wav2vec2 Swedish Common Voice

這是一個基於facebook/wav2vec2-large-xlsr-53模型在瑞典語Common Voice數據集上微調的語音識別模型，訓練數據量為402MB。

語音識別其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase