🚀 imprt/izanami-wav2vec2-large
这是一个日语wav2vec 2.0大型模型,它使用从大规模日语电视广播音频数据中通过语音活动检测提取的62215小时音频进行预训练。该模型使用官方仓库中的代码进行训练。
🚀 快速开始
在下载此模型前,请阅读LICENSE。
✨ 主要特性
- 基于大规模日语电视广播音频数据进行预训练,时长达到62215小时。
- 采用wav2vec 2.0架构,适用于特征提取任务。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
import soundfile as sf
from transformers import AutoFeatureExtractor
model = "imprt/izanami-wav2vec2-large"
feature_extractor = AutoFeatureExtractor.from_pretrained(model)
audio_file="/path/to/16k_audio_file"
audio_input, sr = sf.read(audio_file)
feature_extractor(audio_input, sampling_rate=sr)
📚 详细文档
文档未提供详细说明,故跳过该章节。
🔧 技术细节
文档未提供技术实现细节,故跳过该章节。
📄 许可证
使用此模型时,请阅读LICENSE。
📚 参考文献
@inproceedings{NEURIPS2020_92d1e1eb,
author = {Baevski, Alexei and Zhou, Yuhao and Mohamed, Abdelrahman and Auli, Michael},
booktitle = {Advances in Neural Information Processing Systems},
editor = {H. Larochelle and M. Ranzato and R. Hadsell and M.F. Balcan and H. Lin},
pages = {12449--12460},
publisher = {Curran Associates, Inc.},
title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
url = {https://proceedings.neurips.cc/paper_files/paper/2020/file/92d1e1eb1cd6f9fba3227870bb6d7f07-Paper.pdf},
volume = {33},
year = {2020}
}
模型信息表格
属性 |
详情 |
模型类型 |
日语wav2vec 2.0大型模型 |
训练数据 |
从大规模日语电视广播音频数据中通过语音活动检测提取的62215小时音频 |
管道标签 |
特征提取 |
标签 |
wav2vec2、语音 |
重要提示
⚠️ 重要提示
下载此模型前,请阅读LICENSE。
💡 使用建议
请按照使用示例中的代码进行操作,确保音频文件为16k采样率。