chunkformer - large - vieオープンソースベトナム語音声認識モデル - 約3000時間の音声データを高精度で認識

Home

Chunkformer Large Vie

Developed by khanhld

ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識モデルで、約3000時間のベトナム語公開音声データで微調整され、優れた性能を発揮します。

音声認識

PyTorch

Other#ベトナム語音声認識 #長音声処理 #低単語誤り率

Downloads 1,765

Release Time : 2/1/2025

Model Overview

ChunkFormer-Large-Vieはベトナム語に特化して最適化された自動音声認識モデルで、ChunkFormerアーキテクチャを採用し、複数の公開データセットで最先端の性能を達成しました。

Model Features

高性能ベトナム語認識

Common Voice ViとVIVOSデータセットでSOTA成績を達成、WERはそれぞれ6.66と4.18です。

長音声処理能力

長音声の文字起こしをサポートし、チャンク処理技術によりメモリ使用量と計算効率を最適化します。

多データセット訓練

約3000時間の多様なベトナム語音声データで訓練され、様々なシナリオとアクセントをカバーしています。

Model Capabilities

ベトナム語音声認識

長音声文字起こし

リアルタイム音声テキスト変換

Use Cases

音声書き起こし

会議議事録

ベトナム語会議録音を自動で文字記録に変換

高精度な書き起こし結果

音声アシスタント

ベトナム語音声アシスタントに音声認識機能を提供

低遅延・高精度な認識

教育

言語学習

学習者がベトナム語の発音とリスニングを練習するのを支援

正確な発音評価を提供

🚀 ChunkFormer-Large-Vie: ベトナム語自動音声認識のための大規模事前学習ChunkFormer

ChunkFormer-Large-Vieは、ベトナム語の自動音声認識（ASR）に特化した大規模モデルです。ICASSP 2025で発表されたChunkFormerアーキテクチャに基づいており、多様なデータセットから収集された約3000時間の公開ベトナム語音声データでファインチューニングされています。

🚀 クイックスタート

ベトナム語自動音声認識にChunkFormerモデルを使用するには、以下の手順に従ってください。

1. ChunkFormerリポジトリのダウンロード

git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt

2. Hugging Faceからモデルチェックポイントをダウンロード

pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"

または

git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie

これにより、モデルチェックポイントがchunkformerディレクトリ内のcheckpointsフォルダにダウンロードされます。

3. モデルの実行

python decode.py \
    --model_checkpoint path/to/local/chunkformer-large-vie \
    --long_form_audio path/to/audio.wav \
    --total_batch_duration 14400 \ # 秒単位、デフォルトは1800
    --chunk_size 64 \
    --left_context_size 128 \
    --right_context_size 128

出力例:

[00:00:01.200] - [00:00:02.400]: this is a transcription example
[00:00:02.500] - [00:00:03.700]: testing the long-form audio

高度な使用法についてはこちらを参照してください。

✨ 主な機能

ChunkFormer-Large-Vieは、ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識（ASR）モデルです。
約3000時間の公開ベトナム語音声データでファインチューニングされています。
多様なデータセットから収集されたデータを使用しています。

📦 インストール

モデルを使用するには、以下の手順でインストールします。

1. ChunkFormerリポジトリのダウンロード

git clone https://github.com/khanld/chunkformer.git
cd chunkformer
pip install -r requirements.txt

2. Hugging Faceからモデルチェックポイントをダウンロード

pip install huggingface_hub
huggingface-cli download khanhld/chunkformer-large-vie --local-dir "./chunkformer-large-vie"

または

git lfs install
git clone https://huggingface.co/khanhld/chunkformer-large-vie

💻 使用例

基本的な使用法

python decode.py \
    --model_checkpoint path/to/local/chunkformer-large-vie \
    --long_form_audio path/to/audio.wav \
    --total_batch_duration 14400 \ # 秒単位、デフォルトは1800
    --chunk_size 64 \
    --left_context_size 128 \
    --right_context_size 128

高度な使用法

高度な使用法についてはこちらを参照してください。

📚 ドキュメント

ChunkFormerのドキュメントと実装は公開されています。

🔧 技術詳細

ChunkFormer-Large-Vieは、ChunkFormerアーキテクチャに基づく大規模ベトナム語自動音声認識（ASR）モデルです。
モデルは、約3000時間の公開ベトナム語音声データでファインチューニングされています。
データセットのリストはこちらにあります。

📄 ライセンス

このモデルはCC BY-NC 4.0ライセンスの下で公開されています。

📊 ベンチマーク結果

モデルは単語誤り率（WER） を使用して評価されています。比較の一貫性と公平性を確保するために、数字、大文字、句読点の処理を含むテキスト正規化を手動で適用しています。

公開モデル

STT	モデル	#パラメータ	Vivos	Common Voice	VLSP - Task 1	平均
1	ChunkFormer	110M	4.18	6.66	14.09	8.31
2	vinai/PhoWhisper-large	1.55B	4.67	8.14	13.75	8.85
3	nguyenvulebinh/wav2vec2-base-vietnamese-250h	95M	10.77	18.34	13.33	14.15
4	openai/whisper-large-v3	1.55B	8.81	15.45	20.41	14.89
5	khanhld/wav2vec2-base-vietnamese-160h	95M	15.05	10.78	31.62	19.16
6	homebrewltd/Ichigo-whisper-v0.1	22M	13.46	23.52	21.64	19.54

非公開モデル（API）

STT	モデル	VLSP - Task 1
1	ChunkFormer	14.1
2	Viettel	14.5
3	Google	19.5
4	FPT	28.8

📖 引用

この研究でこのモデルを使用する場合は、以下のように引用してください。

@INPROCEEDINGS{10888640,
  author={Le, Khanh and Ho, Tuan Vu and Tran, Dung and Chau, Duc Thanh},
  booktitle={ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, 
  title={ChunkFormer: Masked Chunking Conformer For Long-Form Speech Transcription}, 
  year={2025},
  volume={},
  number={},
  pages={1-5},
  keywords={Scalability;Memory management;Graphics processing units;Signal processing;Performance gain;Hardware;Resource management;Speech processing;Standards;Context modeling;chunkformer;masked batch;long-form transcription},
  doi={10.1109/ICASSP49660.2025.10888640}}
}