🚀 wav2vec2-base-superb-sv模型卡片
wav2vec2-base-superb-sv是一个用于语音处理的模型,基于Wav2Vec2架构,可用于说话人验证等音频分类任务,为语音处理领域提供了高效的解决方案。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoProcessor, AutoModelForAudioXVector
processor = AutoProcessor.from_pretrained("anton-l/wav2vec2-base-superb-sv")
model = AutoModelForAudioXVector.from_pretrained("anton-l/wav2vec2-base-superb-sv")
✨ 主要特性
- 基于Wav2Vec2架构,具有强大的语音特征提取能力。
- 适用于说话人验证等音频分类任务。
- 预训练模型在16kHz采样的语音音频上进行训练。
📚 详细文档
模型详情
模型描述
- 开发者:Shu-wen Yang等人
- 共享者:Anton Lozhkov
- 模型类型:带有XVector头部的Wav2Vec2
- 语言(NLP):英语
- 许可证:Apache 2.0
- 相关模型:
- 更多信息资源:
用途
直接使用
这是S3PRL的Wav2Vec2用于SUPERB说话人验证任务的移植版本。
基础模型是wav2vec2-large-lv60,它在16kHz采样的语音音频上进行了预训练。使用该模型时,请确保您的语音输入也是16kHz采样的。
更多信息请参考《SUPERB: Speech processing Universal PERformance Benchmark》。
非预期使用
该模型不应用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人(2021)和Bender等人(2021))。该模型生成的预测可能包含对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(直接用户和下游用户)应该了解该模型的风险、偏差和局限性。需要更多信息以提供进一步的建议。
训练详情
训练数据
请参阅superb数据集卡片。
训练过程
预处理
需要更多信息。
速度、大小、时间
需要更多信息。
评估
测试数据、因素和指标
测试数据
请参阅superb数据集卡片。
因素
需要更多信息。
指标
需要更多信息。
结果
需要更多信息。
模型检查
需要更多信息。
环境影响
可以使用Lacoste等人(2019)提出的机器学习影响计算器来估算碳排放。
- 硬件类型:需要更多信息
- 使用时长:需要更多信息
- 云服务提供商:需要更多信息
- 计算区域:需要更多信息
- 碳排放:需要更多信息
技术规格 [可选]
模型架构和目标
需要更多信息。
计算基础设施
硬件
需要更多信息。
软件
需要更多信息。
引用
BibTeX:
@misc{https://doi.org/10.48550/arxiv.2006.11477,
doi = {10.48550/ARXIV.2006.11477},
url = {https://arxiv.org/abs/2006.11477},
author = {Baevski, Alexei and Zhou, Henry and Mohamed, Abdelrahman and Auli, Michael},
keywords = {Computation and Language (cs.CL), Machine Learning (cs.LG), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
publisher = {arXiv},
@misc{https://doi.org/10.48550/arxiv.2105.01051,
doi = {10.48550/ARXIV.2105.01051},
url = {https://arxiv.org/abs/2105.01051},
author = {Yang, Shu-wen and Chi, Po-Han and Chuang, Yung-Sung and Lai, Cheng-I Jeff and Lakhotia, Kushal and Lin, Yist Y. and Liu, Andy T. and Shi, Jiatong and Chang, Xuankai and Lin, Guan-Ting and Huang, Tzu-Hsien and Tseng, Wei-Cheng and Lee, Ko-tik and Liu, Da-Rong and Huang, Zili and Dong, Shuyan and Li, Shang-Wen and Watanabe, Shinji and Mohamed, Abdelrahman and Lee, Hung-yi},
keywords = {Computation and Language (cs.CL), Sound (cs.SD), Audio and Speech Processing (eess.AS), FOS: Computer and information sciences, FOS: Computer and information sciences, FOS: Electrical engineering, electronic engineering, information engineering, FOS: Electrical engineering, electronic engineering, information engineering},
title = {SUPERB: Speech processing Universal PERformance Benchmark},
publisher = {arXiv},
year = {2021},
}
术语表 [可选]
需要更多信息。
更多信息 [可选]
需要更多信息。
模型卡片作者 [可选]
Anton Lozhkov与Ezi Ozoani和Hugging Face团队合作完成。
模型卡片联系方式
需要更多信息。
📄 许可证
本模型使用Apache 2.0许可证。