越南語語音識別

# 越南語語音識別

Whisper Small Vi

基於openai/whisper-small針對越南語語音數據微調的自動語音識別模型，提升越南語轉錄準確性和魯棒性

Transformers 其他

Whisper Base Vi

基於openai/whisper-base模型在100小時越南語語音數據上微調的語音識別模型，提升越南語轉錄準確性

Transformers 其他

Chunkformer Large Vie

基於ChunkFormer架構的大規模越南語自動語音識別模型，在約3000小時的越南語公開語音數據上微調，性能優異。

語音識別其他

Vi Whisper Large V3 Turbo V1

針對越南語自動語音識別(ASR)任務優化的Whisper-V3-Turbo模型，使用多個越南語數據集微調

Transformers 其他

Viwhisper Medium

針對越南語語音識別任務優化的Whisper-medium模型，在1308小時越南語數據上微調

Transformers 其他

Whisper Tiny Vi

基於OpenAI Whisper-tiny架構微調的越南語自動語音識別(ASR)模型，在多個越南語數據集上表現出色

Transformers 其他

Phowhisper Medium

PhoWhisper 是一個專為越南語自動語音識別（ASR）設計的模型系列，通過在844小時越南語口音數據集上微調Whisper模型實現高魯棒性。

Transformers 其他

Phowhisper Small

PhoWhisper是一個專為越南語自動語音識別設計的系統，基於Whisper模型微調，支持多種越南語口音。

Transformers 其他

Wav2vec2 Bartpho

這是一個支持越南語的自動語音識別模型，能夠輸出規範化文本、標記時間戳以及多說話人分段。

Transformers 其他

Whisper Large V2 Vietnamese

該模型是基於OpenAI的Whisper Small架構，在Common Voice 11.0越南語數據集上微調的自動語音識別(ASR)模型

Transformers 其他

Wav2vec2 Large Vi Vlsp2020

基於wav2vec2架構的越南語自動語音識別模型，預訓練使用1.3萬小時未標註YouTube音頻，並在250小時標註數據上微調

Transformers 其他

Wav2vec2 Base Vietnamese 160h

基於Wav2vec2的越南語語音識別模型，在160小時越南語語音數據上微調

Transformers 其他

Viwav2vec2 Base 3k

該模型是基於3千小時越南語語音數據預訓練的Wav2Vec2基礎模型，適用於越南語語音識別任務，需在下游任務上微調後使用。

Transformers 其他

Viwav2vec2 Base 1.5k

該模型通過1.5千小時越南語語音數據預訓練得到，適用於越南語語音識別任務，需微調後使用。

Transformers 其他

Wav2vec NCKH 2022

基於Wav2vec2架構的越南語自動語音識別模型，支持從音頻到文本的轉換

Transformers 其他

Wav2vec2 Large Xls R 300m Vietnamese Colab

該模型是基於facebook/wav2vec2-xls-r-300m在通用語音數據集上微調的越南語語音識別模型

Fine Tune XLSR Wav2Vec2 Speech2Text Vietnamese

這是一個基於MT5架構的越南語自動語音識別(ASR)修復模型，針對越南語語音識別任務進行了微調。

語音識別其他

Xls Asr Vi 40h 1B

基於facebook/wav2vec2-xls-r-1b在40小時FPT開放語音數據集(FOSD)和公共語音數據集7.0上微調的越南語自動語音識別模型

Transformers 其他

Wav2vec2 Base Vietnamese

基於Wav2Vec2架構的越南語語音識別模型，在VSLP數據集上微調，支持16kHz採樣率的語音輸入

Transformers 其他

Fb Vindata Vi Large

該模型是基於facebook/wav2vec2-large-xlsr-53在PHONGDTD/VINDATAVLSP - NA數據集上微調的越南語自動語音識別模型

Fb Youtube Vi Large

該模型是基於facebook/wav2vec2-large-xlsr-53在越南語YouTube非正式音頻數據集上微調的自動語音識別模型。

Viwav2vec2 Base 100h

基於VLSP數據集中100小時未標註越南語語音音頻預訓練的Wav2Vec2基礎模型，需在下游任務上微調使用。

Transformers 其他

Wav2vec2 Large Xlsr 53 Vietnamese

基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型，支持16kHz採樣率的語音輸入。

Transformers 其他

基於microsoft/wavlm-base-plus在PHONGDTD/VINDATAVLSP - NA數據集上微調的越南語自動語音識別模型

Wav2vec2 Base Vn 270h

基於約270小時越南語標註數據微調的語音識別模型，支持越南語自動語音識別任務

語音識別其他

Wavlm Vindata Demo Dist

基於microsoft/wavlm-base在越南語數據集上微調的自動語音識別模型

該模型是基於facebook/wav2vec2-xls-r-300m在Common Voice 7.0越南語及私有數據集上微調的語音識別模型。

Transformers 其他

Wav2vec2 Base Vietnamese 250h

基於wav2vec 2.0架構的越南語自動語音識別模型，在13,000小時未標註音頻和250小時標註數據上訓練

Transformers 其他

Wav2vec2 Large Xlsr 53 Vietnamese

基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型，使用通用語音數據集訓練。

語音識別其他

Wav2vec2 Large Xlsr Vietnamese

這是一個基於facebook/wav2vec2-large-xlsr-53模型在越南語上微調的語音識別模型，使用了Common Voice和Infore_25h數據集進行訓練。

語音識別其他

Wav2vec2 Large Xlsr Vietnamese

基於facebook/wav2vec2-large-xlsr-53模型微調的越南語自動語音識別模型

語音識別其他

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase