wav2vec2-xls-r-1b-tevrオープンソースドイツ語音声認識モデル、低誤り率で高精度に音声を認識する

Wav2vec2 Xls R 1b Tevr

fxtentacleによって開発

これはドイツ語音声認識モデルで、wav2vec 2.0 XLS-R 1Bアーキテクチャを採用し、TEVR（マーカーエントロピー分散低減）技術を導入、5-gram言語モデルと組み合わせ、Common Voiceドイツ語テストセットで3.64%の単語誤り率を達成しました。

音声認識

Transformers

ドイツ語オープンソースライセンス:Apache-2.0 #ドイツ語音声認識 #TEVR拡張技術 #超低単語誤り率

ダウンロード数 311

リリース時間 : 6/2/2022

モデル概要

このモデルは高性能なドイツ語自動音声認識システムで、TEVR技術によりマーカー生成プロセスを最適化し、認識精度を大幅に向上させています。

モデル特徴

TEVR技術拡張

マーカーエントロピー分散低減技術により音声認識性能を最適化し、モデルの精度を向上

高性能言語モデル統合

5-gram KenLM言語モデルを組み合わせ、認識誤り率を大幅に低減

ドイツ語最適化

ドイツ語の音声特性に特化して最適化し、ドイツ語特有の文字や発音を処理

モデル能力

ドイツ語音声からテキストへ

高精度音声認識

リアルタイム音声処理

使用事例

音声文字起こし

ドイツ語会議議事録

ドイツ語会議録音を自動的に文字記録に変換

単語誤り率3.64%以下

音声アシスタント

ドイツ語音声アシスタントに高精度音声認識機能を提供

アクセシビリティ技術

リアルタイム字幕生成

ドイツ語動画コンテンツにリアルタイム字幕を生成

🚀 wav2vec 2.0 XLS - R 1B + TEVRトークン + 5 - gram LMによるドイツ語音声認識パイプライン

このパイプラインは、新しいwav2vec 2.0 XLS - R 1B TEVRアーキテクチャを用いた音響モデルと5 - gram KenLM言語モデルから構成される、完全に学習されたドイツ語音声認識パイプラインです。CommonVoiceドイツ語データセットにおいて、非常に競争力のあるパフォーマンスを示します。

🚀 クイックスタート

このパイプラインの概要や評価方法、引用方法などの詳細を以下に説明します。

✨ 主な機能

新しいwav2vec 2.0 XLS - R 1B TEVRアーキテクチャを用いた音響モデル。
5 - gram KenLM言語モデルを組み合わせた音声認識パイプライン。
CommonVoiceドイツ語データセットでの低い単語誤り率（WER）と文字誤り率（CER）。

📚 ドキュメント

概要

このフォルダには、新しいwav2vec 2.0 XLS - R 1B TEVRアーキテクチャを用いた音響モデルと5 - gram KenLM言語モデルから構成される、完全に学習されたドイツ語音声認識パイプラインが含まれています。TEVRの強化点とその動機についての説明は、以下の論文を参照してください。 TEVR: Improving Speech Recognition by Token Entropy Variance Reduction

このパイプラインは、CommonVoiceドイツ語データセットで（2022年6月時点で）非常に競争力のある**単語誤り率3.64%**を達成しています。文字誤り率は1.54%でした。

引用

この音声認識パイプラインを研究に使用する場合は、以下を引用してください。

@misc{https://doi.org/10.48550/arxiv.2206.12693,
  doi = {10.48550/ARXIV.2206.12693},
  url = {https://arxiv.org/abs/2206.12693},
  author = {Krabbenhöft, Hajo Nils and Barth, Erhardt},  
  keywords = {Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering, F.2.1; I.2.6; I.2.7},  
  title = {TEVR: Improving Speech Recognition by Token Entropy Variance Reduction},  
  publisher = {arXiv},  
  year = {2022}, 
  copyright = {Creative Commons Attribution 4.0 International}
}

TEVRトークナイザの作成とテスト

以下のリンクを参照してください。

論文でエントロピーの計算に使用された学習済みByT5モデル
テキストコーパスからTEVRトークナイザを生成するJupyter Notebook
論文内のイラスト画像を生成するJupyter Notebook https://huggingface.co/fxtentacle/tevr-token-entropy-predictor-de

評価

このパイプラインを自分で評価する場合や、独自のデータで評価する場合は、HF Eval Script.ipynbのJupyter Notebookを参照するか、以下のPythonスクリプトを使用してください。

💻 使用例

基本的な使用法

!pip install --quiet --root-user-action=ignore --upgrade pip
!pip install --quiet --root-user-action=ignore "datasets>=1.18.3" "transformers==4.11.3" librosa jiwer huggingface_hub  
!pip install --quiet --root-user-action=ignore https://github.com/kpu/kenlm/archive/master.zip pyctcdecode
!pip install --quiet --root-user-action=ignore --upgrade transformers
!pip install --quiet --root-user-action=ignore torch_audiomentations audiomentations

高度な使用法

from datasets import load_dataset, Audio, load_metric
from transformers import AutoModelForCTC, Wav2Vec2ProcessorWithLM
import torchaudio.transforms as T
import torch
import unicodedata
import numpy as np
import re

# load testing dataset 
testing_dataset = load_dataset("common_voice", "de", split="test")

# replace invisible characters with space
allchars = list(set([c for t in testing_dataset['sentence'] for c in list(t)]))
map_to_space = [c for c in allchars if unicodedata.category(c)[0] in 'PSZ' and c not in 'ʻ-']
replacements = ''.maketrans(''.join(map_to_space), ''.join(' ' for i in range(len(map_to_space))), '\'ʻ')

def text_fix(text):
    # change ß to ss
    text = text.replace('ß','ss')
    # convert dash to space and remove double-space
    text = text.replace('-',' ').replace('  ',' ').replace('  ',' ')
    # make lowercase
    text = text.lower()
    # remap all invisible characters to space
    text = text.translate(replacements).strip()
    # for easier comparison to Zimmermeister, replace unrepresentable characters with ?
    text = re.sub("[âşěýňעảנźțãòàǔł̇æồאắîשðșęūāñë生בøúıśžçćńřğ]+","?",text)
    # remove multiple spaces (again)
    text = ' '.join([w for w in text.split(' ') if w != ''])
    return text

# load model
model = AutoModelForCTC.from_pretrained("fxtentacle/wav2vec2-xls-r-1b-tevr")
model.to('cuda')
# load processor
class HajoProcessor(Wav2Vec2ProcessorWithLM):
    @staticmethod
    def get_missing_alphabet_tokens(decoder, tokenizer):
        return []
processor = HajoProcessor.from_pretrained("fxtentacle/wav2vec2-xls-r-1b-tevr")

# this function will be called for each WAV file
def predict_single_audio(batch, image=False):    
    audio = batch['audio']['array']
    # resample, if needed
    if batch['audio']['sampling_rate'] != 16000:
        audio = T.Resample(orig_freq=batch['audio']['sampling_rate'], new_freq=16000)(torch.from_numpy(audio)).numpy()
    # normalize
    audio = (audio - audio.mean()) / np.sqrt(audio.var() + 1e-7)
    # ask HF processor to prepare audio for GPU eval
    input_values = processor(audio, return_tensors="pt", sampling_rate=16_000).input_values
    # call model on GPU
    with torch.no_grad():
        logits = model(input_values.to('cuda')).logits.cpu().numpy()[0]
    # ask HF processor to decode logits
    decoded = processor.decode(logits, beam_width=500)
    # return as dictionary
    return { 'groundtruth': text_fix(batch['sentence']), 'prediction': decoded.text }

# process all audio files
all_predictions = testing_dataset.map(predict_single_audio, remove_columns=testing_dataset.column_names)

# print results
print('WER', load_metric("wer").compute(predictions=all_predictions['prediction'], references=all_predictions['groundtruth'])*100.0, '%')
print('CER', load_metric("cer").compute(predictions=all_predictions['prediction'], references=all_predictions['groundtruth'])*100.0, '%')

WER 3.6433399042523233 %
CER 1.5398893560981173 %

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご