wav2vec2-xlsr-300m-german-truecaseオープンソースモデル - 無料でドイツ語の音声認識を実現し、大文字と小文字を保持する

ホーム

Wav2vec2 Xlsr 300m German Truecase

abnerhによって開発

Facebookのwav2vec2-xls-r-300mモデルを基に、Common Voiceドイツ語データセットでファインチューニングされ、ドイツ語音声認識をサポートしテキストの大文字小文字情報を保持します。

音声認識

Transformers

#ドイツ語音声認識 #実際の大文字小文字出力 #16kHzサンプリングレート

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはドイツ語自動音声認識(ASR)システムで、特にドイツ語の大文字小文字問題を処理し、後処理なしでドイツ語文法に準拠した大文字小文字テキストを直接出力できます。

モデル特徴

実際の大文字小文字処理

モデルは直接ドイツ語の大文字小文字規則を学習し、追加の後処理なしで文法に準拠した大文字小文字テキストを出力します

Common Voiceベースのファインチューニング

高品質なオープンソースドイツ語音声データセットを使用してファインチューニングされ、ドイツ語認識精度を向上させます

16kHzサンプリングレートサポート

16kHzサンプリングレートの音声入力を最適化処理し、一般的な音声アプリケーションシナリオに適しています

モデル能力

ドイツ語音声からテキストへ

自動大文字小文字変換

連続音声認識

使用事例

音声文字起こし

会議議録の自動化

ドイツ語会議録音を自動的に正しい大文字小文字付きの文字記録に変換

手動文字起こし作業を削減し、専門的な文書フォーマットを維持

字幕生成

ドイツ語動画コンテンツに正しい大文字小文字付きの字幕を生成

字幕の専門性と可読性を向上

音声アシスタント

ドイツ語音声コマンド認識

スマートホームやカスタマーサポートシステムでドイツ語音声コマンドを認識

大文字小文字の差異を含むドイツ語コマンドを正確に理解

🚀 ドイツ語微調整版Wav2Vec2-XLS-R-300mモデル

このプロジェクトはCommon Voiceデータセットに基づき、facebook/wav2vec2-xls-r-300mモデルをドイツ語で微調整しています。このモデルを使用する際には、入力する音声のサンプリングレートが16kHzであることを確認してください。

ドイツ語では、大文字と小文字の区別が非常に重要です（例：「Sie」と「sie」）。モデルが正しい大文字と小文字を学習できるように、大文字と小文字を含む語彙表を使用してモデルを訓練しています。これにより、真の大文字処理（truecasing）などの後処理は必要ありません。

🚀 クイックスタート

コード例

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch

# モデルとプロセッサをロード
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")

speech, sr = sf.read('audio.wav') 
# トークン化を行う
input_values = processor(speech, return_tensors="pt", padding="longest").input_values  # バッチサイズは1

# 対数確率を取得
logits = model(input_values).logits

# 最大値を取得してデコード
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# 文字起こし結果を表示
print(transcription)

💻 使用例

基本的な使用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
import soundfile as sf
import torch

# モデルとプロセッサをロード
processor = Wav2Vec2Processor.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")
model = Wav2Vec2ForCTC.from_pretrained("abnerh/wav2vec2-xlsr-300m-german-truecase")

speech, sr = sf.read('audio.wav') 
# トークン化を行う
input_values = processor(speech, return_tensors="pt", padding="longest").input_values  # バッチサイズは1

# 対数確率を取得
logits = model(input_values).logits

# 最大値を取得してデコード
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

# 文字起こし結果を表示
print(transcription)

高度な使用法

現時点で高度な使用例はありません。上記の基本的な使用法を基に拡張することができます。

📚 ドキュメント

予測結果の比較

属性	詳細
参考テキスト	Die zoologische Einordnung der Spezies ist seit Jahrzehnten umstritten Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland Er vertrat den Wahlkreis Donauwörth im Parlament Ich bin gespannt welche Lieder sie wählt Eine allgemein verbindliche Definition gibt es nicht
予測テキスト	Die psoologische Einordnung der Spezies ist seit Jahrzehnten umstritten Hauptgeschäftsfeld war ursprünglich der öffentliche Sektor in Irland Er vertrat den Wahlkreis DonauWört im Parlament Ich bin gespannt welche Lieder see wählt Eine allgemeinverbindliche Definition gibt es nicht