🚀 imprt/izanami-wav2vec2-large
這是一個日語wav2vec 2.0大型模型,它使用從大規模日語電視廣播音頻數據中通過語音活動檢測提取的62215小時音頻進行預訓練。該模型使用官方倉庫中的代碼進行訓練。
🚀 快速開始
在下載此模型前,請閱讀LICENSE。
✨ 主要特性
- 基於大規模日語電視廣播音頻數據進行預訓練,時長達到62215小時。
- 採用wav2vec 2.0架構,適用於特徵提取任務。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
import soundfile as sf
from transformers import AutoFeatureExtractor
model = "imprt/izanami-wav2vec2-large"
feature_extractor = AutoFeatureExtractor.from_pretrained(model)
audio_file="/path/to/16k_audio_file"
audio_input, sr = sf.read(audio_file)
feature_extractor(audio_input, sampling_rate=sr)
📚 詳細文檔
文檔未提供詳細說明,故跳過該章節。
🔧 技術細節
文檔未提供技術實現細節,故跳過該章節。
📄 許可證
使用此模型時,請閱讀LICENSE。
📚 參考文獻
@inproceedings{NEURIPS2020_92d1e1eb,
author = {Baevski, Alexei and Zhou, Yuhao and Mohamed, Abdelrahman and Auli, Michael},
booktitle = {Advances in Neural Information Processing Systems},
editor = {H. Larochelle and M. Ranzato and R. Hadsell and M.F. Balcan and H. Lin},
pages = {12449--12460},
publisher = {Curran Associates, Inc.},
title = {wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations},
url = {https://proceedings.neurips.cc/paper_files/paper/2020/file/92d1e1eb1cd6f9fba3227870bb6d7f07-Paper.pdf},
volume = {33},
year = {2020}
}
模型信息表格
屬性 |
詳情 |
模型類型 |
日語wav2vec 2.0大型模型 |
訓練數據 |
從大規模日語電視廣播音頻數據中通過語音活動檢測提取的62215小時音頻 |
管道標籤 |
特徵提取 |
標籤 |
wav2vec2、語音 |
重要提示
⚠️ 重要提示
下載此模型前,請閱讀LICENSE。
💡 使用建議
請按照使用示例中的代碼進行操作,確保音頻文件為16k採樣率。