wav2vec2-russianオープンソースのロシア語音声認識モデル - 無料で使用でき、テキスト訂正をサポート

ホーム

Wav2vec2 Russian

UrukHanによって開発

wav2vec2アーキテクチャに基づくロシア語音声認識モデル。認識結果は対応するテキスト誤り訂正ネットワークで後処理可能

音声認識

Transformers

#ロシア語音声認識 #音声からテキストへの変換 #軍事分野での応用

ダウンロード数 100

リリース時間 : 3/27/2022

モデル概要

このモデルはロシア語音声認識タスク専用に設計されており、ロシア語音声をテキストに変換できます。UrukHan/t5-russian-spellモデルと組み合わせてテキストの誤り訂正とフォーマット処理を行うことを推奨

モデル特徴

ロシア語音声認識

ロシア語に最適化された音声認識能力

誤り訂正ネットワーク互換

認識結果をUrukHan/t5-russian-spellモデルにシームレスに接続してテキスト誤り訂正とフォーマット処理が可能

実用例サポート

完全な使用フローを展示するColabノートブックを提供

モデル能力

ロシア語音声認識

音声からテキストへの変換

wav形式音声入力に対応

使用事例

音声文字起こし

ニュース音声文字起こし

ロシア語ニュース放送をテキストに変換

例が示す通り、軍事ニュース内容を効果的に認識可能

音声支援ツール

音声メモ変換

ロシア語音声メモを編集可能なテキストに変換

🚀 wav2vec2-russian

このモデルは音声認識のためのものです。モデルの結果は、別のテキスト修正ネットワークであるUrukHan/t5-russian-spellを通してさらに修正することができます。

🚀 クイックスタート

音声認識を行うには、wav形式の音声ファイルをアップロードします。結果は、別のネットワークで誤りを修正し、句読点を配置し、数字を修正することができます。UrukHan/t5-russian-spell

ネットワークの起動

コードの例はこちらのColabで確認できます。

from transformers import AutoModelForCTC, Wav2Vec2Processor
model = AutoModelForCTC.from_pretrained("UrukHan/wav2vec2-russian")
processor = Wav2Vec2Processor.from_pretrained("UrukHan/wav2vec2-russian")
def map_to_result(batch):
  with torch.no_grad():
    input_values = torch.tensor(batch["input_values"]).unsqueeze(0) #, device="cuda"
    logits = model(input_values).logits
  pred_ids = torch.argmax(logits, dim=-1)
  batch = processor.batch_decode(pred_ids)[0]
  return batch
 
map_to_result()

モデルのトレーニング

データの処理とデータセットの作成を含むモデルのトレーニングについては、こちらのColabで確認できます。

💻 使用例

基本的な使用法

from transformers import AutoModelForCTC, Wav2Vec2Processor
model = AutoModelForCTC.from_pretrained("UrukHan/wav2vec2-russian")
processor = Wav2Vec2Processor.from_pretrained("UrukHan/wav2vec2-russian")
def map_to_result(batch):
  with torch.no_grad():
    input_values = torch.tensor(batch["input_values"]).unsqueeze(0) #, device="cuda"
    logits = model(input_values).logits
  pred_ids = torch.argmax(logits, dim=-1)
  batch = processor.batch_decode(pred_ids)[0]
  return batch
 
map_to_result()

📚 詳細ドキュメント

このモデルの出力例を以下に示します。

属性	详情
モデルタイプ	wav2vec2-russian
出力例
	音声認識モデルの出力
	ывсем привет выныканалетоп армии и это двадцать пятый день спец операций на украине ет самый главной новости российские военные ракетами кинжалы калибр уничтожили крупную военную топливную базу украины ракетным ударом по населенному пункту под жетамиром уничтжены более стаукраинских военных в две тысячи двадцать втором году