🚀 Diva Llama 3 模型卡片
这是一个端到端的语音助手模型,能够处理语音和文本输入。该模型使用蒸馏损失进行训练。更多细节请参考预印本。
你可以在diva-audio.github.io查看模型的实际运行情况,或者在Weights&Biases上查看完整的训练日志。
🚀 快速开始
你可以参考以下推理示例来使用该模型:
from transformers import AutoModel
import librosa
import wget
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)
speech_data, _ = librosa.load(filename, sr=16_000)
model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)
print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)
speech_data2, _ = librosa.load(filename, sr=16_000)
print(
model.generate(
[speech_data, speech_data2],
["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
)
)
✨ 主要特性
该模型是端到端的语音助手模型,能同时处理语音和文本输入,使用蒸馏损失进行训练。
📦 安装指南
文档未提供相关安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import AutoModel
import librosa
import wget
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)
speech_data, _ = librosa.load(filename, sr=16_000)
model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)
print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)
speech_data2, _ = librosa.load(filename, sr=16_000)
print(
model.generate(
[speech_data, speech_data2],
["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
)
)
高级用法
文档未提供高级用法示例,暂不展示。
📚 详细文档
训练详情
训练数据
该模型在CommonVoice语料库上进行训练。
训练过程
该模型进行了7000次梯度步骤的训练,批量大小为512条录音,学习率从5e - 5线性衰减到零,线性预热步骤为70步。
环境影响
- 硬件类型:V4 - 256 TPU
- 使用时长:11小时
- 云服务提供商:Google Cloud
- 计算区域:美国中部C
硬件
该模型在Google Cloud的V4 - 256 TPU上进行训练。
软件
该模型使用Levanter进行训练。
🔧 技术细节
模型架构和目标
文档未提供相关技术细节,暂不展示。
计算基础设施
硬件
该模型在Google Cloud的V4 - 256 TPU上进行训练。
软件
该模型使用Levanter进行训练。
📄 许可证
本模型使用MPL - 2.0许可证。
引用
BibTeX:
@misc{DiVA,
title={{D}istilling an {E}nd-to-{E}nd {V}oice {A}ssistant {W}ithout {I}nstruction {T}raining {D}ata},
author={William Held and Ella Li and Michael Ryan and Weiyan Shi and Yanzhe Zhang and Diyi Yang},
year={2024},
eprint={2410.02678},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.02678},
}
模型卡片作者
Will Held
模型卡片联系方式
held@stanford.edu
信息表格
属性 |
详情 |
模型类型 |
端到端语音助手模型 |
训练数据 |
该模型在CommonVoice语料库上进行训练 |
基础模型 |
meta-llama/Llama-3.1-8B-Instruct |
许可证 |
MPL - 2.0 |