🚀 imprt/kushinada-hubert-base
这是一个日语HuBERT基础模型,它使用从大规模日语电视广播音频数据中通过语音活动检测提取的62215小时音频进行预训练。该模型使用官方仓库中的代码进行训练。
🚀 快速开始
在下载此模型前,请阅读《Apache许可证2.0版》。下载时需要填写以下信息:
- 国家
- 所属机构
- 我同意《Apache许可证2.0版》中的所有声明
点击“确认许可”按钮以完成下载。
✨ 主要特性
- 基于大规模日语电视广播音频数据进行预训练,时长达到62215小时。
- 可用于特征提取任务。
💻 使用示例
基础用法
import soundfile as sf
from transformers import AutoFeatureExtractor
model = "imprt/kushinada-hubert-base"
feature_extractor = AutoFeatureExtractor.from_pretrained(model)
audio_file="/path/to/16k_audio_file"
audio_input, sr = sf.read(audio_file)
feature_extractor(audio_input, sampling_rate=sr)
📚 详细文档
本模型使用了HuBERT架构,通过对隐藏单元的掩码预测进行自监督语音表示学习。
📄 参考文献
@article{journals/corr/abs-2106-07447,
added-at = {2021-06-16T00:00:00.000+0200},
author = {Hsu, Wei-Ning and Bolte, Benjamin and Tsai, Yao-Hung Hubert and Lakhotia, Kushal and Salakhutdinov, Ruslan and Mohamed, Abdelrahman},
biburl = {https://www.bibsonomy.org/bibtex/2435bd8c9ac37a4eab204ded15e9f8918/dblp},
ee = {https://arxiv.org/abs/2106.07447},
interhash = {c85407653eddc9c9256c261afe8d6954},
intrahash = {435bd8c9ac37a4eab204ded15e9f8918},
journal = {CoRR},
keywords = {dblp},
timestamp = {2024-04-08T22:55:35.000+0200},
title = {HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units.},
url = {http://dblp.uni-trier.de/db/journals/corr/corr2106.html#abs-2106-07447},
volume = {abs/2106.07447},
year = 2021
}
📄 许可证
本模型采用Apache许可证2.0版。