🚀 Diva Llama 3 模型卡片
這是一個端到端的語音助手模型,能夠處理語音和文本輸入。該模型使用蒸餾損失進行訓練。更多細節請參考預印本。
你可以在diva-audio.github.io查看模型的實際運行情況,或者在Weights&Biases上查看完整的訓練日誌。
🚀 快速開始
你可以參考以下推理示例來使用該模型:
from transformers import AutoModel
import librosa
import wget
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)
speech_data, _ = librosa.load(filename, sr=16_000)
model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)
print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)
speech_data2, _ = librosa.load(filename, sr=16_000)
print(
model.generate(
[speech_data, speech_data2],
["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
)
)
✨ 主要特性
該模型是端到端的語音助手模型,能同時處理語音和文本輸入,使用蒸餾損失進行訓練。
📦 安裝指南
文檔未提供相關安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import AutoModel
import librosa
import wget
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-1008642825401516622.wav"
)
speech_data, _ = librosa.load(filename, sr=16_000)
model = AutoModel.from_pretrained("WillHeld/DiVA-llama-3-v0-8b", trust_remote_code=True)
print(model.generate([speech_data]))
print(model.generate([speech_data], ["Reply Briefly Like A Pirate"]))
filename = wget.download(
"https://github.com/ffaisal93/SD-QA/raw/refs/heads/master/dev/eng/irl/wav_eng/-2426554427049983479.wav"
)
speech_data2, _ = librosa.load(filename, sr=16_000)
print(
model.generate(
[speech_data, speech_data2],
["Reply Briefly Like A Pirate", "Reply Briefly Like A New Yorker"],
)
)
高級用法
文檔未提供高級用法示例,暫不展示。
📚 詳細文檔
訓練詳情
訓練數據
該模型在CommonVoice語料庫上進行訓練。
訓練過程
該模型進行了7000次梯度步驟的訓練,批量大小為512條錄音,學習率從5e - 5線性衰減到零,線性預熱步驟為70步。
環境影響
- 硬件類型:V4 - 256 TPU
- 使用時長:11小時
- 雲服務提供商:Google Cloud
- 計算區域:美國中部C
硬件
該模型在Google Cloud的V4 - 256 TPU上進行訓練。
軟件
該模型使用Levanter進行訓練。
🔧 技術細節
模型架構和目標
文檔未提供相關技術細節,暫不展示。
計算基礎設施
硬件
該模型在Google Cloud的V4 - 256 TPU上進行訓練。
軟件
該模型使用Levanter進行訓練。
📄 許可證
本模型使用MPL - 2.0許可證。
引用
BibTeX:
@misc{DiVA,
title={{D}istilling an {E}nd-to-{E}nd {V}oice {A}ssistant {W}ithout {I}nstruction {T}raining {D}ata},
author={William Held and Ella Li and Michael Ryan and Weiyan Shi and Yanzhe Zhang and Diyi Yang},
year={2024},
eprint={2410.02678},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.02678},
}
模型卡片作者
Will Held
模型卡片聯繫方式
held@stanford.edu
信息表格
屬性 |
詳情 |
模型類型 |
端到端語音助手模型 |
訓練數據 |
該模型在CommonVoice語料庫上進行訓練 |
基礎模型 |
meta-llama/Llama-3.1-8B-Instruct |
許可證 |
MPL - 2.0 |