🚀 wav2vec2-base-superb-sv模型卡片
wav2vec2-base-superb-sv是一個用於語音處理的模型,基於Wav2Vec2架構,可用於說話人驗證等音頻分類任務,為語音處理領域提供了高效的解決方案。
🚀 快速開始
使用以下代碼開始使用該模型:
點擊展開
from transformers import AutoProcessor, AutoModelForAudioXVector
processor = AutoProcessor.from_pretrained("anton-l/wav2vec2-base-superb-sv")
model = AutoModelForAudioXVector.from_pretrained("anton-l/wav2vec2-base-superb-sv")
✨ 主要特性
- 基於Wav2Vec2架構,具有強大的語音特徵提取能力。
- 適用於說話人驗證等音頻分類任務。
- 預訓練模型在16kHz採樣的語音音頻上進行訓練。
📚 詳細文檔
模型詳情
模型描述
- 開發者:Shu-wen Yang等人
- 共享者:Anton Lozhkov
- 模型類型:帶有XVector頭部的Wav2Vec2
- 語言(NLP):英語
- 許可證:Apache 2.0
- 相關模型:
- 更多信息資源:
用途
直接使用
這是S3PRL的Wav2Vec2用於SUPERB說話人驗證任務的移植版本。
基礎模型是wav2vec2-large-lv60,它在16kHz採樣的語音音頻上進行了預訓練。使用該模型時,請確保您的語音輸入也是16kHz採樣的。
更多信息請參考《SUPERB: Speech processing Universal PERformance Benchmark》。
非預期使用
該模型不應用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見Sheng等人(2021)和Bender等人(2021))。該模型生成的預測可能包含對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。需要更多信息以提供進一步的建議。
訓練詳情
訓練數據
請參閱superb數據集卡片。
訓練過程
預處理
需要更多信息。
速度、大小、時間
需要更多信息。
評估
測試數據、因素和指標
測試數據
請參閱superb數據集卡片。
因素
需要更多信息。
指標
需要更多信息。
結果
需要更多信息。
模型檢查
需要更多信息。
環境影響
可以使用Lacoste等人(2019)提出的機器學習影響計算器來估算碳排放。
- 硬件類型:需要更多信息
- 使用時長:需要更多信息
- 雲服務提供商:需要更多信息
- 計算區域:需要更多信息
- 碳排放:需要更多信息
技術規格 [可選]
模型架構和目標
需要更多信息。
計算基礎設施
硬件
需要更多信息。
軟件
需要更多信息。
引用
BibTeX:
@misc{https://doi.org/10.48550/arxiv.2006.11477,
doi = {10.48550/ARXIV.2006.11477},
url = {https://arxiv.org/abs/2006.11477},
author = {Baevski, Alexei and Zhou, Henry and Mohamed, Abdelrahman and Auli, Michael},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
publisher = {arXiv},
@misc{https://doi.org/10.48550/arxiv.2105.01051,
doi = {10.48550/ARXIV.2105.01051},
url = {https://arxiv.org/abs/2105.01051},
author = {Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y. and Liu, Andy T. and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and Huang, Tzu-Hsien and Tseng, Wei-Cheng and Lee, Ko-tik and Liu, Da-Rong and Huang, Zili and Dong, Shuyan and Li, Shang-Wen and Watanabe, Shinji and Mohamed, Abdelrahman and Lee, Hung-yi},
keywords = {Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
title = {SUPERB: Speech processing Universal PERformance Benchmark},
publisher = {arXiv},
year = {2021},
}
術語表 [可選]
需要更多信息。
更多信息 [可選]
需要更多信息。
模型卡片作者 [可選]
Anton Lozhkov與Ezi Ozoani和Hugging Face團隊合作完成。
模型卡片聯繫方式
需要更多信息。
📄 許可證
本模型使用Apache 2.0許可證。