Belle-whisper-large-v3-zhオープンソース中国語音声認識モデル - 性能向上で中国語音声を精度良く認識

ホーム

Belle Whisper Large V3 Zh

BELLE-2によって開発

whisper-large-v3を微調整して最適化した中国語音声認識モデルで、複数の中国語音声ベンチマークテストで性能が大幅に向上

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #中国語音声認識 #高精度文字起こし #会議シーン最適化

ダウンロード数 1,666

リリース時間 : 3/11/2024

モデル概要

このモデルは中国語音声認識タスク向けに最適化されたWhisperモデルで、全パラメータ微調整により複数の中国語音声データセットで性能向上を実現

モデル特徴

中国語音声認識最適化

中国語音声に特化して微調整され、複数の中国語音声ベンチマークテストで24%-65%の性能向上

複雑なシーン適応能力

会議などの複雑な音響環境でも優れた性能を発揮し、前世代モデルと比べて大幅な改善

複数データセット訓練

AISHELL-1、AISHELL-2、WenetSpeech、HKUSTなど複数の高品質中国語音声データセットを使用して訓練

モデル能力

中国語音声からテキストへの変換

高精度音声認識

複雑なシーンでの音声処理

使用事例

音声文字起こし

会議議事録

会議録音を文字記録に変換

wenetspeech_meetingデータセットでエラー率はわずか11.246%

音声入力

アプリケーションに中国語音声入力機能を提供

🚀 Belle-whisper-large-v3-zh

Whisper-large-v3をファインチューニングし、中国語の音声認識能力を向上させたモデルです。AISHELL1、AISHELL2、WENETSPEECH、HKUSTなどの中国語ASRベンチマークで、性能が24 - 65% 相対的に向上しています。

🚀 クイックスタート

このモデルが役に立った場合は、モデルを「いいね」し、https://github.com/LianjiaTech/BELLE と https://github.com/shuaijiang/Whisper-Finetune でスターをつけてください。

✨ 主な機能

Belle-whisper-large-v3-zhは、whisper-large-v3をファインチューニングして中国語の音声認識能力を強化しています。中国語のASRベンチマークで、大幅な性能向上を示しています。

💻 使用例

基本的な使用法

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="BELLE-2/Belle-whisper-large-v3-zh"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("my_audio.wav")

📚 ドキュメント

ファインチューニング

モデル	サンプルレート	トレーニングデータセット	ファインチューニング方法
Belle-whisper-large-v3-zh	16KHz	AISHELL-1 AISHELL-2 WenetSpeech HKUST	完全なファインチューニング

独自のデータセットでモデルをファインチューニングする場合は、GitHubリポジトリを参照してください。

CER(%) ↓

モデル	言語タグ	aishell_1_test(↓)	aishell_2_test(↓)	wenetspeech_net(↓)	wenetspeech_meeting(↓)	HKUST_dev(↓)
whisper-large-v3	Chinese	8.085	5.475	11.72	20.15	28.597
Belle-whisper-large-v2-zh	Chinese	2.549	3.746	8.503	14.598	16.289
Belle-whisper-large-v3-zh	Chinese	2.781	3.786	8.865	11.246	16.440

Belle-whisper-large-v3-zhは、Belle-whisper-large-v2-zhと比較して、複雑な音響シーン（wenetspeech_meetingなど）で大幅な性能向上を示しています。

引用

このコード、データ、またはモデルを使用する場合は、以下の論文とGitHubを引用してください。

@misc{BELLE,
  author = {BELLEGroup},
  title = {BELLE: Be Everyone's Large Language model Engine},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/LianjiaTech/BELLE}},
}