Belle-whisper-large-v3-zh-punctオープンソース音声認識モデル - 中国語を正確に認識し、句読点の認識能力を大幅に向上させる

ホーム

Belle Whisper Large V3 Zh Punct

BELLE-2によって開発

whisper-large-v3-zhをファインチューニングした中国語音声認識モデルで、句読点認識能力が大幅に向上し、元の性能レベルを維持しています。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #日本語句読点強化 #低CER音声認識 #会議シナリオ最適化

ダウンロード数 2,471

リリース時間 : 6/11/2024

モデル概要

このモデルは中国語音声認識タスクに特化しており、特に句読点認識能力を最適化し、様々な中国語音声シナリオに適用できます。

モデル特徴

強化された句読点認識

punc_ct-transformer_cn-en-common-vocab471067-largeモデルデータを統合し、中国語句読点認識精度を大幅に向上

ロスレス性能強化

LoRAファインチューニング技術を採用し、句読点認識能力を向上させながら元の音声認識性能を維持

マルチシナリオ適応

会議、ネットワーク音声など様々な複雑な音響シナリオで優れた性能を発揮

モデル能力

中国語音声テキスト変換

自動句読点挿入

マルチシナリオ音声認識

使用事例

音声文字起こし

会議議事録

会議音声内容を自動文字起こしし、正しい句読点を追加

wenetspeech_meetingデータセットでCERはわずか10.973%

音声メモ

個人の音声メモを句読点付きテキストに変換

音声分析

音声内容分析

後続のNLP処理に向けて句読点付きテキスト入力を提供

🚀 Belle-whisper-large-v3-zh-punct

このモデルは、whisper-large-v3-zhをファインチューニングして、中国語の句読点機能を強化し、同等の性能を維持します。Belle-whisper-large-v3-zh-punctは、AISHELL1、AISHELL2、WENETSPEECH、HKUSTなどの中国語の自動音声認識ベンチマークで、Belle-whisper-large-v3-zhと同様の性能を示します。

🚀 クイックスタート

このモデルが役に立つと思ったら、このモデルを「いいね」し、https://github.com/LianjiaTech/BELLE と https://github.com/shuaijiang/Whisper-Finetune でスターをつけてください。

✨ 主な機能

中国語の句読点機能を強化しつつ、同等の性能を維持します。
中国語の自動音声認識ベンチマークで、Belle-whisper-large-v3-zhと同様の性能を示します。

📦 インストール

このセクションではインストールに関する具体的な内容がありませんので、スキップします。

💻 使用例

基本的な使用法

from transformers import pipeline

transcriber = pipeline(
  "automatic-speech-recognition", 
  model="BELLE-2/Belle-whisper-large-v3-zh-punct"
)

transcriber.model.config.forced_decoder_ids = (
  transcriber.tokenizer.get_decoder_prompt_ids(
    language="zh", 
    task="transcribe"
  )
)

transcription = transcriber("my_audio.wav")

📚 ドキュメント

モデル情報

属性	详情
モデルタイプ	自動音声認識
ベースモデル	BELLE-2/Belle-whisper-large-v3-zh
評価指標	CER
句読点モデル	punc_ct-transformer_cn-en-common-vocab471067-large

ファインチューニング情報

モデル	サンプルレート	学習データセット	ファインチューニング方法
Belle-whisper-large-v3-zh-punct	16KHz	AISHELL-1 AISHELL-2 WenetSpeech HKUST	lora fine-tuning

句読点を性能を損なわずに組み込むために、Loraファインチューニングが採用されました。独自のデータセットでモデルをファインチューニングする場合は、GitHubリポジトリを参照してください。

CER(%) 比較

モデル	言語タグ	aishell_1_test(↓)	aishell_2_test(↓)	wenetspeech_net(↓)	wenetspeech_meeting(↓)	HKUST_dev(↓)
whisper-large-v3	中国語	8.085	5.475	11.72	20.15	28.597
Belle-whisper-large-v3-zh	中国語	2.781	3.786	8.865	11.246	16.440
Belle-whisper-large-v3-zh-punct	中国語	2.945	3.808	8.998	10.973	17.196

Belle-whisper-large-v3-zh-punctは、Belle-whisper-large-v3-zhと比較して、複雑な音響シーン（wenetspeech_meetingなど）でもわずかな改善が見られます。また、CERを計算する際には、Belle-whisper-large-v3-zh-punctの句読点は削除されます。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

コード、データ、またはモデルを使用する際には、以下の論文とGitHubを引用してください。

@misc{BELLE,
  author = {BELLEGroup},
  title = {BELLE: Be Everyone's Large Language model Engine},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/LianjiaTech/BELLE}},
}