🚀 交錯語音 - 文本語言模型的規模分析
本項目聚焦於交錯語音 - 文本語言模型的規模分析,旨在探究此類模型相較於無文本語音語言模型在計算效率上是否更具優勢,為語音語言模型的發展提供新的思路和方向。
🚀 快速開始
若你想了解該模型的完整使用說明,請參考官方倉庫:github。
✨ 主要特性
- 高效擴展:通過對交錯語音 - 文本語言模型進行規模分析,發現其在計算資源利用上更為高效,能以更少的計算和數據達到與領先模型相當的性能。
- 跨模態生成:可根據語音 - 文本提示生成語音或文本續接內容,支持跨模態應用。
- 可擴展性強:作為基礎的語音語言模型,可用於進一步的調優和擴展。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
論文介紹
該模型在論文 Scaling Analysis of Interleaved Speech - Text Language Models 中被提出。現有語音語言模型(SLM)的規模分析顯示,與文本模型相比,SLM 需要更多的計算資源和數據,這使得一些人對訓練高質量 SLM 的可行性產生質疑。然而,現代 SLM 通常從預訓練的文本語言模型(TextLM)初始化,利用語音 - 文本交錯實現知識遷移。本論文通過訓練數十個模型並分析其擴展趨勢,有力地回答了交錯 SLM 是否比無文本 SLM 更有效地擴展這一問題,答案是肯定的。研究結果還表明,交錯 SLM 的擴展動態與無文本 SLM 顯著不同,建議在計算預算分配上更多地用於增加模型大小而非訓練令牌數量。此外,還研究了合成數據和 TextLM 模型家族在挖掘這種潛力中的作用,結果顯示,擴展後的模型在語音語義指標上與領先模型表現相當,同時使用的計算和數據更少。
模型詳情
模型描述
此語音語言模型在論文 "Scaling Analysis of Interleaved Speech - Text Language Models" 中被引入,專注於交錯語音 - 文本 SLM 的規模分析。它從 [meta - llama/Llama - 3.2 - 3B](https://huggingface.co/meta - llama/Llama - 3.2 - 3B) 微調而來,通過從 [mhubert - 25hz](https://huggingface.co/slprl/mhubert - base - 25hz) 的第 11 層提取 500 個語音令牌擴展了其詞彙表。
屬性 |
詳情 |
模型類型 |
語音語言模型(SLM) |
基礎模型 |
[meta - llama/Llama - 3.2 - 3B](https://huggingface.co/meta - llama/Llama - 3.2 - 3B) |
開發團隊 |
SLP - RL |
許可證 |
Llama3.2 許可 |
模型來源
- 代碼倉庫:[https://github.com/slp - rl/slamkit](https://github.com/slp - rl/slamkit)
- 論文鏈接:https://arxiv.org/abs/2504.02398
- 演示頁面:[https://pages.cs.huji.ac.il/adiyoss - lab/sims/](https://pages.cs.huji.ac.il/adiyoss - lab/sims/)
用途
這個基礎的語音語言模型可用於生成語音片段的續接內容,支持跨模態應用,例如根據語音提示生成文本續接,也可作為進一步調優的基礎。更多使用細節請參考 SlamKit [代碼庫](https://github.com/slp - rl/slamkit),並可查看 [演示頁面](https://pages.cs.huji.ac.il/adiyoss - lab/sims/) 獲取一些生成示例。
適用範圍說明
該模型在多種語音數據集上進行訓練,因此其輸出結果不應被視為事實性內容。
訓練詳情
若你想了解完整的訓練細節,強烈建議閱讀完整的 論文。
計算基礎設施
- 硬件:該模型使用 8 個英偉達 A100 GPU 進行訓練。
- 軟件:模型使用 [SlamKit](https://github.com/slp - rl/slamkit) 代碼庫進行訓練,該代碼庫基於 🤗transformers 構建,擴展了其對語音語言模型的輕鬆高效訓練支持。
🔧 技術細節
文檔未提供具體的技術實現細節(>50 字),故跳過此章節。
📄 許可證
本模型使用 Llama3.2 許可。
📖 引用
若你使用了該模型或相關研究,請按照以下 BibTeX 格式進行引用:
@misc{maimon2025scaling,
title={Scaling Analysis of Interleaved Speech-Text Language Models},
author={Gallil Maimon and Michael Hassid and Amit Roth and Yossi Adi},
year={2025},
eprint={2504.02398},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.02398},
}