🚀 ChunkFormer-Large-Vie:用於越南語自動語音識別的大規模預訓練ChunkFormer模型
ChunkFormer-Large-Vie是一個基於ChunkFormer架構的大規模越南語自動語音識別(ASR)模型,在ICASSP 2025會議上被提出。該模型解決了越南語語音識別的準確性和效率問題,為越南語語音處理提供了強大的工具,具有重要的應用價值。
🚀 快速開始
要使用ChunkFormer模型進行越南語自動語音識別,請按照以下步驟操作:
1. 下載ChunkFormer倉庫
git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt
2. 從Hugging Face下載模型檢查點
pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"
或者
git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie
這將把模型檢查點下載到chunkformer目錄內的checkpoints文件夾中。
3. 運行模型
python decode.py \
--model_checkpoint path/to/local/chunkformer-large-vie \
--long_form_audio path/to/audio.wav \
--total_batch_duration 14400 \
--chunk_size 64 \
--left_context_size 128 \
--right_context_size 128
示例輸出:
[00:00:01.200] - [00:00:02.400]: this is a transcription example
[00:00:02.500] - [00:00:03.700]: testing the long-form audio
高級用法 可在 此處 找到。
✨ 主要特性
- ChunkFormer架構:ChunkFormer-Large-Vie基於ChunkFormer架構,在ICASSP 2025會議上被提出。
- 大規模預訓練:該模型在約3000小時的公開越南語語音數據上進行了微調,這些數據來自多個不同的數據集。
📦 安裝指南
下載ChunkFormer倉庫
git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt
下載模型檢查點
pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"
或者
git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie
📚 詳細文檔
ChunkFormer的 文檔 和 實現 是公開可用的。
🔧 技術細節
模型描述
ChunkFormer-Large-Vie 是一個基於 ChunkFormer 架構的大規模越南語自動語音識別(ASR)模型,在 ICASSP 2025 會議上被提出。該模型在約 3000 小時 的公開越南語語音數據上進行了微調,這些數據來自多個不同的數據集。數據集列表可在 此處 找到。
!!! 請注意,僅使用了 [train-subset] 來調整模型。
基準測試結果
我們使用 單詞錯誤率(WER) 來評估模型。為了確保比較的一致性和公平性,我們手動應用了 文本歸一化,包括處理數字、大寫字母和標點符號。
公開模型
私有模型(API)
STT |
模型 |
VLSP - 任務 1 |
1 |
ChunkFormer |
14.1 |
2 |
Viettel |
14.5 |
3 |
Google |
19.5 |
4 |
FPT |
28.8 |
📄 許可證
本模型採用 CC BY-NC 4.0 許可證。
📖 引用
如果您在研究中使用了此工作,請引用:
@INPROCEEDINGS{10888640,
author={Le, Khanh and Ho, Tuan Vu and Tran, Dung and Chau, Duc Thanh},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={ChunkFormer: Masked Chunking Conformer For Long-Form Speech Transcription},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Scalability;Memory management;Graphics processing units;Signal processing;Performance gain;Hardware;Resource management;Speech processing;Standards;Context modeling;chunkformer;masked batch;long-form transcription},
doi={10.1109/ICASSP49660.2025.10888640}}
}
📞 聯繫我們