🚀 交错语音 - 文本语言模型的规模分析
本项目聚焦于交错语音 - 文本语言模型的规模分析,旨在探究此类模型相较于无文本语音语言模型在计算效率上是否更具优势,为语音语言模型的发展提供新的思路和方向。
🚀 快速开始
若你想了解该模型的完整使用说明,请参考官方仓库:github。
✨ 主要特性
- 高效扩展:通过对交错语音 - 文本语言模型进行规模分析,发现其在计算资源利用上更为高效,能以更少的计算和数据达到与领先模型相当的性能。
- 跨模态生成:可根据语音 - 文本提示生成语音或文本续接内容,支持跨模态应用。
- 可扩展性强:作为基础的语音语言模型,可用于进一步的调优和扩展。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
论文介绍
该模型在论文 Scaling Analysis of Interleaved Speech - Text Language Models 中被提出。现有语音语言模型(SLM)的规模分析显示,与文本模型相比,SLM 需要更多的计算资源和数据,这使得一些人对训练高质量 SLM 的可行性产生质疑。然而,现代 SLM 通常从预训练的文本语言模型(TextLM)初始化,利用语音 - 文本交错实现知识迁移。本论文通过训练数十个模型并分析其扩展趋势,有力地回答了交错 SLM 是否比无文本 SLM 更有效地扩展这一问题,答案是肯定的。研究结果还表明,交错 SLM 的扩展动态与无文本 SLM 显著不同,建议在计算预算分配上更多地用于增加模型大小而非训练令牌数量。此外,还研究了合成数据和 TextLM 模型家族在挖掘这种潜力中的作用,结果显示,扩展后的模型在语音语义指标上与领先模型表现相当,同时使用的计算和数据更少。
模型详情
模型描述
此语音语言模型在论文 "Scaling Analysis of Interleaved Speech - Text Language Models" 中被引入,专注于交错语音 - 文本 SLM 的规模分析。它从 [meta - llama/Llama - 3.2 - 3B](https://huggingface.co/meta - llama/Llama - 3.2 - 3B) 微调而来,通过从 [mhubert - 25hz](https://huggingface.co/slprl/mhubert - base - 25hz) 的第 11 层提取 500 个语音令牌扩展了其词汇表。
属性 |
详情 |
模型类型 |
语音语言模型(SLM) |
基础模型 |
[meta - llama/Llama - 3.2 - 3B](https://huggingface.co/meta - llama/Llama - 3.2 - 3B) |
开发团队 |
SLP - RL |
许可证 |
Llama3.2 许可 |
模型来源
- 代码仓库:[https://github.com/slp - rl/slamkit](https://github.com/slp - rl/slamkit)
- 论文链接:https://arxiv.org/abs/2504.02398
- 演示页面:[https://pages.cs.huji.ac.il/adiyoss - lab/sims/](https://pages.cs.huji.ac.il/adiyoss - lab/sims/)
用途
这个基础的语音语言模型可用于生成语音片段的续接内容,支持跨模态应用,例如根据语音提示生成文本续接,也可作为进一步调优的基础。更多使用细节请参考 SlamKit [代码库](https://github.com/slp - rl/slamkit),并可查看 [演示页面](https://pages.cs.huji.ac.il/adiyoss - lab/sims/) 获取一些生成示例。
适用范围说明
该模型在多种语音数据集上进行训练,因此其输出结果不应被视为事实性内容。
训练详情
若你想了解完整的训练细节,强烈建议阅读完整的 论文。
计算基础设施
- 硬件:该模型使用 8 个英伟达 A100 GPU 进行训练。
- 软件:模型使用 [SlamKit](https://github.com/slp - rl/slamkit) 代码库进行训练,该代码库基于 🤗transformers 构建,扩展了其对语音语言模型的轻松高效训练支持。
🔧 技术细节
文档未提供具体的技术实现细节(>50 字),故跳过此章节。
📄 许可证
本模型使用 Llama3.2 许可。
📖 引用
若你使用了该模型或相关研究,请按照以下 BibTeX 格式进行引用:
@misc{maimon2025scaling,
title={Scaling Analysis of Interleaved Speech-Text Language Models},
author={Gallil Maimon and Michael Hassid and Amit Roth and Yossi Adi},
year={2025},
eprint={2504.02398},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2504.02398},
}