wav2vec-en-finetuned-on-cryptocurrencyオープンソース音声認識モデル - 暗号通貨ポッドキャスト内容を高精度で認識する

ホーム

Wav2vec En Finetuned On Cryptocurrency

distractedm1ndによって開発

このモデルはfacebook/wav2vec2-large-960hをベースに微調整された音声認識モデルで、暗号通貨分野のポッドキャストコンテンツに特化して最適化されています。

音声認識

Transformers

英語オープンソースライセンス:MIT #暗号通貨音声認識 #低い単語誤り率(WER)#ポッドキャストコンテンツ文字起こし

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

これは暗号通貨分野のオーディオコンテンツ向けに最適化された自動音声認識(ASR)モデルで、暗号通貨関連ポッドキャストにおいてベースモデルよりも優れた性能を発揮します。

モデル特徴

暗号通貨分野最適化

暗号通貨関連の専門用語や表現に特化して微調整されています

性能向上が顕著

暗号通貨データセットでWERが27%から13.1%に改善、約50%の向上

高品質なトレーニングデータ

約1400件の手作業で校正された暗号通貨ポッドキャストクリップを使用してトレーニング

モデル能力

英語音声認識

暗号通貨分野専門用語認識

短いオーディオクリップ(10-15秒)処理

使用事例

フィンテック

暗号通貨ポッドキャスト文字起こし

暗号通貨関連のポッドキャストコンテンツを自動的にテキストに変換

汎用モデルと比べて認識精度が大幅に向上

金融オーディオコンテンツ分析

暗号通貨市場の音声コメントや議論の分析に使用

専門用語や業界特有の表現を正確に認識可能

🚀 distractedm1nd/wav2vec-en-finetuned-on-cryptocurrency

このモデルは、自動音声認識（ASR）を目的としたオーディオモデルです。Facebookのfacebook/wav2vec2-large-960hを、暗号通貨関連のポッドキャストの音声データでファインチューニングしています。

🚀 クイックスタート

このモデルは、facebook/wav2vec2-large-960hを、様々な暗号通貨関連のポッドキャストから抽出した約1400個の音声クリップ（それぞれ約10 - 15秒）を使用してファインチューニングしたものです。データのラベリングには、YouTubeから字幕付きの暗号通貨ポッドキャストをダウンロードし、文章ごとにクリップを分割しました。その後、YouTubeの文字起こしとfacebook/wav2vec2-large-960hの出力を比較して、YouTubeの文字起こしに含まれる多くの誤りを修正しました。もっとデータをクリーンアップすることで、さらに良い結果が得られる可能性があります。

当社のデータでは、WER（Word Error Rate）が13.1％に達しました。一方、facebook/wav2vec2-large-960hは当社のデータでは27％のWERしか達成できませんでした。

💻 使用例

基本的な使用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import soundfile as sf
import torch


# load model and tokenizer
processor = Wav2Vec2Processor.from_pretrained("distractedm1nd/wav2vec-en-finetuned-on-cryptocurrency")
model = Wav2Vec2ForCTC.from_pretrained("distractedm1nd/wav2vec-en-finetuned-on-cryptocurrency")

filename = "INSERT_FILENAME"
audio, sampling_rate = sf.read(filename)

input_values = processor(audio, return_tensors="pt", padding="longest", sampling_rate=sampling_rate).input_values  # Batch size 1


# retrieve logits
logits = model(input_values).logits

# take argmax and decode
predicted_ids = torch.argmax(logits, dim=-1)
tokenizer.batch_decode(predicted_ids)

プロパティ	詳細
モデルタイプ	自動音声認識用のオーディオモデル
トレーニングデータ	様々な暗号通貨関連のポッドキャストから抽出した約1400個の音声クリップ（それぞれ約10 - 15秒）