🚀 模型详情:QuaLA - MiniLM
本模型是一种名为QuaLA - MiniLM的全新方法的成果,该方法结合了知识蒸馏、长度自适应Transformer(LAT)技术以及低比特量化。我们对Dynamic - TinyBERT方法进行了扩展。此方法训练出的单一模型能够在给定计算预算的情况下适应任何推理场景,在SQuAD1.1数据集上实现了卓越的准确率 - 效率权衡。作者将他们的方法与其他高效方法进行了比较,发现其在准确率损失小于1%的情况下,速度提升了高达8.8倍。他们还在GitHub上公开了代码。文章还讨论了该领域的其他相关工作,包括动态Transformer和其他知识蒸馏方法。
✨ 主要特性
- 高效性:在SQuAD1.1数据集上,实现了高达8.8倍的速度提升,同时准确率损失小于1%。
- 适应性:单一模型可在给定计算预算下适应任何推理场景。
- 创新性:结合了知识蒸馏、长度自适应Transformer(LAT)技术和低比特量化。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
import ...
📚 详细文档
QuaLA - MiniLM训练过程
为了在特定计算预算下使模型达到最佳的准确率 - 效率权衡,我们将长度配置设置为通过进化搜索找到的最佳设置,以匹配我们的计算约束。
模型信息
属性 |
详情 |
语言 |
英文 |
模型作者所属公司 |
Intel |
日期 |
2023年5月4日 |
版本 |
1 |
类型 |
NLP - 小型语言模型 |
架构 |
在这项工作中,我们扩展了Dynamic - TinyBERT以生成一个效率更高的模型。首先,我们使用一个更小的MiniLM模型,该模型是从RoBERTa - Large教师模型中蒸馏而来,而非BERT - base。其次,我们应用LAT方法使模型具有长度适应性,最后,我们通过应用8位量化进一步提高模型的效率。由此产生的QuaLAMiniLM(量化长度自适应MiniLM)模型仅用30%的参数就优于BERT - base,并且在具有挑战性的SQuAD1.1基准测试中展示了优于任何其他效率方法的准确率 - 加速权衡(在准确率损失<1%的情况下,速度提升高达8.8倍)。遵循LAT提出的概念,它提供了广泛的准确率 - 效率权衡点,同时减轻了为准确率 - 效率曲线上的每个点重新训练模型的需求。 |
论文或其他资源 |
https://arxiv.org/pdf/2210.17114.pdf |
许可证 |
待确定 |
问题或评论 |
Intel DevHub Discord |
预期用途
预期用途 |
详情 |
主要预期用途 |
待确定 |
主要预期用户 |
任何需要高效小型语言模型用于其他下游任务的人。 |
非预期用途 |
该模型不应被用于故意为人们创造敌对或排斥性的环境。 |
指标(模型性能)
在SQuAD1.1评估数据集上的推理性能。对于所有长度自适应(LA)模型,我们展示了在不进行令牌丢弃的情况下运行模型的性能,以及根据为满足我们的准确率约束而找到的最佳长度配置在令牌丢弃配置下运行模型的性能。
模型 |
模型大小 (Mb) |
每层令牌数 |
准确率 (F1) |
延迟 (ms) |
FLOPs |
加速比 |
BERT - base |
415.4723 |
(384,384,384,384,384,384) |
88.5831 |
56.5679 |
3.53E + 10 |
1x |
TinyBERT - ours |
253.2077 |
(384,384,384,384,384,384) |
88.3959 |
32.4038 |
1.77E + 10 |
1.74x |
QuaTinyBERT - ours |
132.0665 |
(384,384,384,384,384,384) |
87.6755 |
15.5850 1.77E + 10 |
3.63x |
|
MiniLMv2 - ours |
115.0473 |
(384,384,384,384,384,384) |
88.7016 |
18.2312 |
4.76E + 09 |
3.10x |
QuaMiniLMv2 - ours |
84.8602 |
(384,384,384,384,384,384) |
88.5463 |
9.1466 |
4.76E + 09 |
6.18x |
LA - MiniLM |
115.0473 |
(384,384,384,384,384,384) |
89.2811 |
16.9900 |
4.76E + 09 |
3.33x |
LA - MiniLM |
115.0473 |
(269, 253, 252, 202, 104, 34) |
87.7637 |
11.4428 |
2.49E + 09 |
4.94x |
QuaLA - MiniLM |
84.8596 |
(384,384,384,384,384,384) |
88.8593 |
7.4443 |
4.76E + 09 |
7.6x |
QuaLA - MiniLM |
84.8596 |
(315,251,242,159,142,33) |
87.6828 |
6.4146 |
2.547E + 09 |
8.8x |
训练和评估数据
训练和评估数据 |
详情 |
数据集 |
SQuAD1.1数据集 |
动机 |
为多个下游语言任务构建一个高效且准确的基础模型。 |
伦理考量
伦理考量 |
详情 |
数据 |
SQuAD1.1数据集 |
人类生活 |
该模型并非旨在为对人类生活或繁荣至关重要的决策提供信息。它是一组聚合的带标签的维基百科文章。 |
缓解措施 |
在模型开发过程中未考虑额外的风险缓解策略。 |
风险和危害 |
大量研究探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人,2021年,以及Bender等人,2021年)。该模型生成的预测可能包括对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。除此之外,使用该模型所涉及的风险程度仍然未知。 |
注意事项和建议
用户(直接用户和下游用户)应了解该模型的风险、偏差和局限性。该模型没有额外的注意事项或建议。
BibTeX条目和引用信息
备注 |
详情 |
备注 |
在这个版本中,我们在摘要中添加了对源代码的引用。arXiv管理员注:与arXiv:2111.09645有文本重叠。 |
主题 |
计算与语言 (cs.CL) |
引用格式 |
arXiv:2210.17114 [cs.CL] |
- |
(或对于此版本,引用arXiv:2210.17114v2 [cs.CL])https://doi.org/10.48550/arXiv.2210.17114 |
🔧 技术细节
文档未提及技术实现细节,故跳过此章节。
📄 许可证
本项目采用MIT许可证。