Paraformer-largeオープンソース音声認識モデル - 文全体のテキストを並行生成、GPU推論がより効率的

ホーム

Paraformer Large

funasrによって開発

Paraformer は革新的な非自己回帰エンドツーエンド音声認識モデルで、従来の自己回帰モデルと比べて顕著な利点があり、全文のターゲットテキストを並列生成でき、特にGPUを利用した並列推論に適しています。

音声認識中国語オープンソースライセンス:Apache-2.0 #非自己回帰音声認識 #産業級音声書き起こし #GPU効率的推論

ダウンロード数 43

リリース時間 : 4/17/2023

モデル概要

Paraformer は効率的な非自己回帰エンドツーエンド音声認識モデルで、産業級データにおいて自己回帰モデルと同等の性能を発揮しつつ、推論効率を大幅に向上させます。

モデル特徴

並列推論

全文のターゲットテキストを並列生成でき、特にGPUを利用した並列推論に適しており、推論効率を大幅に向上させます

効率的推論

従来の自己回帰モデルと比べて、音声認識クラウドサービスのマシンコストを約10分の1に削減できます

高性能

産業級データにおいて自己回帰モデルと同等の性能を発揮します

産業級アプリケーション

6万時間の標準中国語データセットでトレーニングされており、産業級アプリケーションシナリオに適しています

モデル能力

標準中国語音声認識

高精度テキスト変換

バッチ音声処理

使用事例

音声書き起こしサービス

クラウド音声認識サービス

クラウドサービスに効率的な音声認識能力を提供します

マシンコストを約10分の1に削減

インテリジェントカスタマーサービス

カスタマーサービス音声分析

カスタマーサービス通話内容をリアルタイムで書き起こします

🚀 ParaformerとFunASRを用いた自動音声認識

Paraformerは革新的な非自己回帰型のエンドツーエンド音声認識モデルで、従来の自己回帰型モデルに比べて大きな利点を持っています。GPUを使った並列推論に適しており、推論効率を大幅に向上させ、音声認識クラウドサービスの機械コストをほぼ10分の1に削減できます。また、産業規模のデータで自己回帰型モデルと同等の性能を達成できます。このリポジトリでは、FunASRのonnxランタイムを使ってParaformerを活用する方法を紹介しています。

🚀 クイックスタート

ParaformerとFunASRを用いた自動音声認識の始め方を説明します。

✨ 主な機能

Paraformerは非自己回帰型のエンドツーエンド音声認識モデルで、GPUを使った並列推論に適しています。
推論効率が高く、音声認識クラウドサービスの機械コストを大幅に削減できます。
産業規模のデータで自己回帰型モデルと同等の性能を達成できます。
本リポジトリではFunASRのonnxランタイムを用いてParaformerを活用する方法を提供しています。

📦 インストール

funasr_onnxのインストール

pip install -U funasr_onnx
# 中国のユーザーは以下のコマンドでインストールできます:
# pip install -U funasr_onnx -i https://mirror.sjtu.edu.cn/pypi/web/simple

モデルのダウンロード

git clone https://huggingface.co/funasr/paraformer-large

💻 使用例

基本的な使用法

音声認識（Paraformer）

from funasr_onnx import Paraformer

model_dir = "./paraformer-large"
model = Paraformer(model_dir, batch_size=1, quantize=True)

wav_path = ['./funasr/paraformer-large/asr_example.wav']

result = model(wav_path)
print(result)

model_dir: モデルのパスで、model.onnx, config.yaml, am.mvn を含みます。
batch_size: 1 (デフォルト)、推論時のバッチサイズです。
device_id: -1 (デフォルト)、CPUで推論します。GPUで推論したい場合はgpu_idに設定してください（onnxruntime-gpuをインストールしていることを確認してください）。
quantize: False (デフォルト)、model_dir 内の model.onnx を読み込みます。True に設定すると、model_dir 内の model_quant.onnx を読み込みます。
intra_op_num_threads: 4 (デフォルト)、CPUでのスレッド数を設定します。

入力: wav形式のファイル、サポートする形式: str, np.ndarray, List[str] 出力: List[str]: 認識結果

📚 ドキュメント

性能ベンチマーク

詳細はベンチマークを参照してください。

引用

@inproceedings{gao2022paraformer,
  title={Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition},
  author={Gao, Zhifu and Zhang, Shiliang and McLoughlin, Ian and Yan, Zhijie},
  booktitle={INTERSPEECH},
  year={2022}
}