wav2vec2-large-xlsr-53-chinese音声モデル - オープンソースで無料で中国語音声認識をサポート

ホーム

Wav2vec2 Large Xlsr 53 Chinese Zn Cn Aishell1

qinyueによって開発

facebook/wav2vec2-large-xlsr-53をベースに中国語AISHELL-1データセットでファインチューニングした音声認識モデルで、中国語音声認識タスクをサポートします。

音声認識

Transformers

中国語オープンソースライセンス:Apache-2.0 #中国語音声認識 #低WER #言語モデル非依存

ダウンロード数 22

リリース時間 : 6/16/2022

モデル概要

このモデルは自動音声認識(ASR)モデルで、中国語音声に特化して最適化されており、中国語音声をテキストに変換できます。

モデル特徴

中国語音声認識

中国語音声に特化して最適化された認識モデルで、AISHELL-1データセットで優れた性能を発揮します。

言語モデル不要

追加の言語モデルサポートなしで直接使用できます。

高精度

AISHELL-1テストセットで7.04%の単語誤り率(WER)を達成し、言語モデル使用後は3.96%まで低下可能です。

モデル能力

中国語音声認識

16kHzサンプリングレート音声処理

使用事例

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

精度は92.96%(WER 7.04%)に達します

音声アシスタント

中国語音声アシスタントの人間とコンピュータのインタラクションに使用

音声分析

音声内容分析

音声内容のキーワードとテーマを分析

🚀 Wav2Vec2-Large-XLSR-53-Chinese-zh-CN-aishell1

このモデルは、facebook/wav2vec2-large-xlsr-53 を AISHELL-1 データセットを用いて中国語でファインチューニングしたものです。このモデルを使用する際には、音声入力が16kHzでサンプリングされていることを確認してください。

🚀 クイックスタート

モデルの使用方法

このモデルは、言語モデルを使用せずに直接使用することができます。以下にコード例を示します。

import torch
import librosa
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

device = "cuda:0" if torch.cuda.is_available() else "cpu"

processor = Wav2Vec2Processor.from_pretrained(
    'qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1')
model = Wav2Vec2ForCTC.from_pretrained(
    'qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1').to(device)

filepath = 'test.wav'
audio, sr = librosa.load(filepath, sr=16000, mono=True)
inputs = processor(audio, sample_rate=16000, return_tensors="pt").to(device)
with torch.no_grad():
    logits = model(inputs.input_values,
                   attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
pred_str = processor.decode(predicted_ids[0])

print(pred_str)

評価方法

以下のコードを使用して、モデルの評価を行うことができます。

wer_metric = load_metric("wer")

def compute_metrics(pred):
    pred_logits = pred.predictions
    pred_ids = np.argmax(pred_logits, axis=-1)

    pred.label_ids[pred.label_ids == -100] = processor.tokenizer.pad_token_id

    pred_str = processor.batch_decode(pred_ids, spaces_between_special_tokens=True)
    label_str = processor.batch_decode(pred.label_ids, group_tokens=False, spaces_between_special_tokens=True)

    wer = wer_metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}

評価結果

以下の表は、このモデルのAISHELL-1テストデータセットにおける単語誤り率（WER）を示しています。

参照文	予測文
据伟业我爱我家市场研究院测算	据北业我爱我家市场研究院测算
七月北京公积金贷款成交量提升了百分之五	七月北京公积金贷款成交量提升了百分之五
培育门类丰富层次齐用的综合利用产业	培育门类丰富层资集业的综合利用产业
我们迎来了赶超发达国家的难得机遇	我们迎来了赶超发达国家的单得机遇
坚持基本草原保护制度	坚持基本草员保护制度
强化水生生态修复和建设	强化水生生态修复和建设
温州两男子为争女人驾奔驰宝马街头四次对撞	温州两男子为争女人架奔驰宝马接头四次对重
她表示应该是吃吃饭看电影之类的	他表示一的是吃吃饭看电影之理
加强畜禽遗传资源和农业野生植物资源保护	加强续紧遗传资源和农业野生职物资源保护
两人都是依赖电话沟通	两人都是依赖电话沟通

テスト結果: 以下の表に、AISHELL-1テストデータセットにおけるモデルの単語誤り率（WER）を示します。

モデル	WER	WER-with-LM
qinyue/wav2vec2-large-xlsr-53-chinese-zn-cn-aishell1	7.04%	3.96%

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📊 モデル情報

属性	详情
データセット	AISHELL-1
評価指標	WER
タグ	audio, automatic-speech-recognition, speech, xlsr-fine-tuning-week
モデル名	XLSR Wav2Vec2 Large 53 - Chinese (zh-CN), by Yue Qin
タスク	音声認識 (automatic-speech-recognition)
テストWER	7.04