🚀 wav2vec2-base-superb-svのモデルカード
このモデルは、音声認識タスクに特化したWav2Vec2ベースのモデルで、SUPERB Speaker Verificationタスクに対応しています。特定のオーディオデータセットで学習され、高精度な話者認証を実現します。
🚀 クイックスタート
以下のコードを使用して、モデルを使用することができます。
展開するにはクリック
from transformers import AutoProcessor, AutoModelForAudioXVector
processor = AutoProcessor.from_pretrained("anton-l/wav2vec2-base-superb-sv")
model = AutoModelForAudioXVector.from_pretrained("anton-l/wav2vec2-base-superb-sv")
✨ 主な機能
- 話者認証タスク対応:SUPERB Speaker Verificationタスクに適用可能です。
- 高精度な予測:特定のオーディオデータセットで学習され、高精度な話者認証を実現します。
📚 ドキュメント
モデルの詳細
モデルの説明
- 開発者:Shu-wen Yang et al.
- 共有者:Anton Lozhkov
- モデルの種類:XVectorヘッド付きのWav2Vec2
- 言語:英語
- ライセンス:Apache 2.0
- 関連モデル:
- 詳細情報のリソース:
用途
直接的な使用
これは、S3PRLのWav2Vec2 for the SUPERB Speaker Verificationタスクの移植版です。
ベースモデルはwav2vec2-large-lv60で、16kHzのサンプリングレートの音声オーディオで事前学習されています。モデルを使用する際には、音声入力も16kHzでサンプリングされていることを確認してください。
詳細情報については、SUPERB: Speech processing Universal PERformance Benchmarkを参照してください。
適用範囲外の使用
このモデルは、人々に敵意や疎外感を与える環境を意図的に作り出すために使用してはなりません。
バイアス、リスク、制限事項
多くの研究で、言語モデルのバイアスと公平性の問題が探られています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。このモデルによって生成される予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的・職業的グループにまたがる有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接的なユーザーと下流のユーザーの両方)は、このモデルのリスク、バイアス、制限事項を認識する必要があります。さらなる推奨事項には、より多くの情報が必要です。
訓練の詳細
訓練データ
superbデータセットカードを参照してください。
環境への影響
Lacoste et al. (2019)に示されているMachine Learning Impact calculatorを使用して、二酸化炭素排出量を推定することができます。
引用
BibTeX:
@misc{https://doi.org/10.48550/arxiv.2006.11477,
doi = {10.48550/ARXIV.2006.11477},
url = {https://arxiv.org/abs/2006.11477},
author = {Baevski, Alexei and Zhou, Henry and Mohamed, Abdelrahman and Auli, Michael},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
publisher = {arXiv},
@misc{https://doi.org/10.48550/arxiv.2105.01051,
doi = {10.48550/ARXIV.2105.01051},
url = {https://arxiv.org/abs/2105.01051},
author = {Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y. and Liu, Andy T. and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and Huang, Tzu-Hsien and Tseng, Wei-Cheng and Lee, Ko-tik and Liu, Da-Rong and Huang, Zili and Dong, Shuyan and Li, Shang-Wen and Watanabe, Shinji and Mohamed, Abdelrahman and Lee, Hung-yi},
keywords = {Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
title = {SUPERB: Speech processing Universal PERformance Benchmark},
publisher = {arXiv},
year = {2021},
}
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。