🚀 ChunkFormer-Large-Vie: ベトナム語自動音声認識のための大規模事前学習ChunkFormer
ChunkFormer-Large-Vieは、ベトナム語の自動音声認識(ASR)に特化した大規模モデルです。ICASSP 2025で発表されたChunkFormerアーキテクチャに基づいており、多様なデータセットから収集された約3000時間の公開ベトナム語音声データでファインチューニングされています。
🚀 クイックスタート
ベトナム語自動音声認識にChunkFormerモデルを使用するには、以下の手順に従ってください。
1. ChunkFormerリポジトリのダウンロード
git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt
2. Hugging Faceからモデルチェックポイントをダウンロード
pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"
または
git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie
これにより、モデルチェックポイントがchunkformer
ディレクトリ内のcheckpoints
フォルダにダウンロードされます。
3. モデルの実行
python decode.py \
--model_checkpoint path/to/local/chunkformer-large-vie \
--long_form_audio path/to/audio.wav \
--total_batch_duration 14400 \
--chunk_size 64 \
--left_context_size 128 \
--right_context_size 128
出力例:
[00:00:01.200] - [00:00:02.400]: this is a transcription example
[00:00:02.500] - [00:00:03.700]: testing the long-form audio
高度な使用法についてはこちらを参照してください。
✨ 主な機能
- ChunkFormer-Large-Vieは、ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識(ASR)モデルです。
- 約3000時間の公開ベトナム語音声データでファインチューニングされています。
- 多様なデータセットから収集されたデータを使用しています。
📦 インストール
モデルを使用するには、以下の手順でインストールします。
1. ChunkFormerリポジトリのダウンロード
git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt
2. Hugging Faceからモデルチェックポイントをダウンロード
pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"
または
git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie
💻 使用例
基本的な使用法
python decode.py \
--model_checkpoint path/to/local/chunkformer-large-vie \
--long_form_audio path/to/audio.wav \
--total_batch_duration 14400 \
--chunk_size 64 \
--left_context_size 128 \
--right_context_size 128
高度な使用法
高度な使用法についてはこちらを参照してください。
📚 ドキュメント
ChunkFormerのドキュメントと実装は公開されています。
🔧 技術詳細
- ChunkFormer-Large-Vieは、ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識(ASR)モデルです。
- モデルは、約3000時間の公開ベトナム語音声データでファインチューニングされています。
- データセットのリストはこちらにあります。
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で公開されています。
📊 ベンチマーク結果
モデルは単語誤り率(WER) を使用して評価されています。比較の一貫性と公平性を確保するために、数字、大文字、句読点の処理を含むテキスト正規化を手動で適用しています。
公開モデル
非公開モデル(API)
STT |
モデル |
VLSP - Task 1 |
1 |
ChunkFormer |
14.1 |
2 |
Viettel |
14.5 |
3 |
Google |
19.5 |
4 |
FPT |
28.8 |
📖 引用
この研究でこのモデルを使用する場合は、以下のように引用してください。
@INPROCEEDINGS{10888640,
author={Le, Khanh and Ho, Tuan Vu and Tran, Dung and Chau, Duc Thanh},
booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
title={ChunkFormer: Masked Chunking Conformer For Long-Form Speech Transcription},
year={2025},
volume={},
number={},
pages={1-5},
keywords={Scalability;Memory management;Graphics processing units;Signal processing;Performance gain;Hardware;Resource management;Speech processing;Standards;Context modeling;chunkformer;masked batch;long-form transcription},
doi={10.1109/ICASSP49660.2025.10888640}}
}
📞 連絡先
- khanhld218@gmail.com


⚠️ 重要提示
モデルのチューニングには、[train-subset]のみが使用されています。