stt_zh_conformer_transducer_largeオープンソースモデル - 無料で北京語の音声を正確に文字起こしする

ホーム

Stt Zh Conformer Transducer Large

nvidiaによって開発

これは標準中国語音声を転写するための大規模なConformer-Transducerモデルで、約1.2億のパラメータを持ち、AISHELL-2データセットでトレーニングされました。

音声認識

PyTorch

中国語#標準中国語音声認識 #Conformerアーキテクチャ #低CER

ダウンロード数 72

リリース時間 : 6/29/2022

モデル概要

このモデルはConformer-Transducerアーキテクチャに基づく自動音声認識モデルで、標準中国語音声転写タスク専用に設計されています。

モデル特徴

高性能転写

AISHELL-2テストセットで5.3-5.7%の文字誤り率(CER)を達成

大規模トレーニング

約1.2億パラメータの大規模モデルアーキテクチャを使用し、より正確な転写結果を提供

標準中国語最適化

標準中国語音声に特化してトレーニングと最適化を実施

モデル能力

標準中国語音声認識

音声転写

音声テキスト変換

使用事例

音声転写

会議議事録

標準中国語の会議録音を自動的に文字記録に転写

約94.3-94.7%の精度

音声アシスタント

標準中国語音声アシスタントに音声認識機能を提供

🚀 NVIDIA Conformer-Transducer Large (zh-ZH)

このモデルは、中国語の音声を文字起こしします。Conformer-Transducerの大規模バージョン（約1億2000万のパラメータ）です。完全なアーキテクチャの詳細については、モデルアーキテクチャセクションとNeMoドキュメントを参照してください。

| | |

🚀 クイックスタート

モデルのインストール

モデルをトレーニング、ファインチューニング、または操作するには、NVIDIA NeMoをインストールする必要があります。最新のPytorchバージョンをインストールした後に、NeMoをインストールすることをお勧めします。

pip install nemo_toolkit['all']

モデルの使用方法

このモデルは、NeMoツールキット[3]で使用でき、推論または別のデータセットでのファインチューニングのための事前学習済みチェックポイントとして利用できます。

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTModel.from_pretrained("nvidia/stt_zh_conformer_transducer_large")

高度な使用法

単一音声ファイルの文字起こし

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

複数音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_zh_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

入力

このモデルは、16000 KHzのモノラルチャンネルオーディオ（wavファイル）を入力として受け付けます。

出力

このモデルは、与えられたオーディオサンプルに対して、文字起こしされた音声を文字列として提供します。

✨ 主な機能

中国語の音声を高精度に文字起こしします。
Conformer-Transducerアーキテクチャを採用し、自動音声認識タスクに適しています。

📦 インストール

pip install nemo_toolkit['all']

💻 使用例

基本的な使用法

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTModel.from_pretrained("nvidia/stt_zh_conformer_transducer_large")

高度な使用法

単一音声ファイルの文字起こし

output = asr_model.transcribe(['sample.wav'])
print(output[0].text)

複数音声ファイルの文字起こし

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_zh_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

📚 ドキュメント

モデルアーキテクチャ

Conformer-Transducerモデルは、自動音声認識のためのConformerモデル[1]の自己回帰型のバリアントで、CTC損失の代わりにTransducer損失/デコーディングを使用しています。このモデルの詳細については、Conformer-Transducer Modelを参照してください。

トレーニング

NeMoツールキット[3]を使用して、数百エポック以上にわたってモデルをトレーニングしました。これらのモデルは、このサンプルスクリプトとこの基本設定を使用してトレーニングされています。

データセット

このコレクションのすべてのモデルは、中国語の音声から構成されるAISHELL2 [4]でトレーニングされています。

パフォーマンス

このコレクションで利用可能なモデルのリストを以下の表に示します。ASRモデルのパフォーマンスは、貪欲デコーディングによる単語誤り率（WER%）で報告されています。

バージョン	トークナイザー	語彙サイズ	AISHELL2テストIOS	AISHELL2テストAndroid	AISHELL2テストMic	トレーニングデータセット
1.10.0	文字	5026	5.3	5.7	5.6	AISHELL-2

制限事項

このモデルは公開されている音声データセットでトレーニングされているため、モデルがトレーニングされていない技術用語や方言を含む音声に対しては、パフォーマンスが低下する可能性があります。また、アクセントのある音声に対してもパフォーマンスが低下する場合があります。

NVIDIA Riva: デプロイメント

NVIDIA Rivaは、オンプレミス、すべてのクラウド、マルチクラウド、ハイブリッド、エッジ、および組み込み環境で展開可能な高速化された音声AI SDKです。さらに、Rivaは以下の機能を提供します。

数十万のGPUコンピュート時間で独自データを使用してトレーニングされたモデルチェックポイントにより、最も一般的な言語に対して世界クラスの即時精度を提供します。
ランタイムの単語ブースト（例：ブランドや製品名）、および音響モデル、言語モデル、および逆テキスト正規化のカスタマイズにより、クラス最高の精度を提供します。
ストリーミング音声認識、Kubernetes互換のスケーリング、およびエンタープライズグレードのサポートを提供します。

このモデルはまだRivaでサポートされていませんが、サポートされているモデルのリストはこちらです。 Rivaのライブデモもチェックしてみてください。

🔧 技術詳細

Conformer-Transducerモデルは、自動音声認識のためのConformerモデル[1]の自己回帰型のバリアントで、CTC損失の代わりにTransducer損失/デコーディングを使用しています。

📄 ライセンス

このモデルを使用するためのライセンスは、CC-BY-4.0によってカバーされています。モデルの公開およびリリースバージョンをダウンロードすることで、CC-BY-4.0ライセンスの条件に同意するものとみなされます。

参考文献

[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit [4] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご