🚀 模型詳情:QuaLA - MiniLM
本模型是一種名為QuaLA - MiniLM的全新方法的成果,該方法結合了知識蒸餾、長度自適應Transformer(LAT)技術以及低比特量化。我們對Dynamic - TinyBERT方法進行了擴展。此方法訓練出的單一模型能夠在給定計算預算的情況下適應任何推理場景,在SQuAD1.1數據集上實現了卓越的準確率 - 效率權衡。作者將他們的方法與其他高效方法進行了比較,發現其在準確率損失小於1%的情況下,速度提升了高達8.8倍。他們還在GitHub上公開了代碼。文章還討論了該領域的其他相關工作,包括動態Transformer和其他知識蒸餾方法。
✨ 主要特性
- 高效性:在SQuAD1.1數據集上,實現了高達8.8倍的速度提升,同時準確率損失小於1%。
- 適應性:單一模型可在給定計算預算下適應任何推理場景。
- 創新性:結合了知識蒸餾、長度自適應Transformer(LAT)技術和低比特量化。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
import ...
📚 詳細文檔
QuaLA - MiniLM訓練過程
為了在特定計算預算下使模型達到最佳的準確率 - 效率權衡,我們將長度配置設置為通過進化搜索找到的最佳設置,以匹配我們的計算約束。
模型信息
屬性 |
詳情 |
語言 |
英文 |
模型作者所屬公司 |
Intel |
日期 |
2023年5月4日 |
版本 |
1 |
類型 |
NLP - 小型語言模型 |
架構 |
在這項工作中,我們擴展了Dynamic - TinyBERT以生成一個效率更高的模型。首先,我們使用一個更小的MiniLM模型,該模型是從RoBERTa - Large教師模型中蒸餾而來,而非BERT - base。其次,我們應用LAT方法使模型具有長度適應性,最後,我們通過應用8位量化進一步提高模型的效率。由此產生的QuaLAMiniLM(量化長度自適應MiniLM)模型僅用30%的參數就優於BERT - base,並且在具有挑戰性的SQuAD1.1基準測試中展示了優於任何其他效率方法的準確率 - 加速權衡(在準確率損失<1%的情況下,速度提升高達8.8倍)。遵循LAT提出的概念,它提供了廣泛的準確率 - 效率權衡點,同時減輕了為準確率 - 效率曲線上的每個點重新訓練模型的需求。 |
論文或其他資源 |
https://arxiv.org/pdf/2210.17114.pdf |
許可證 |
待確定 |
問題或評論 |
Intel DevHub Discord |
預期用途
預期用途 |
詳情 |
主要預期用途 |
待確定 |
主要預期用戶 |
任何需要高效小型語言模型用於其他下游任務的人。 |
非預期用途 |
該模型不應被用於故意為人們創造敵對或排斥性的環境。 |
指標(模型性能)
在SQuAD1.1評估數據集上的推理性能。對於所有長度自適應(LA)模型,我們展示了在不進行令牌丟棄的情況下運行模型的性能,以及根據為滿足我們的準確率約束而找到的最佳長度配置在令牌丟棄配置下運行模型的性能。
模型 |
模型大小 (Mb) |
每層令牌數 |
準確率 (F1) |
延遲 (ms) |
FLOPs |
加速比 |
BERT - base |
415.4723 |
(384,384,384,384,384,384) |
88.5831 |
56.5679 |
3.53E + 10 |
1x |
TinyBERT - ours |
253.2077 |
(384,384,384,384,384,384) |
88.3959 |
32.4038 |
1.77E + 10 |
1.74x |
QuaTinyBERT - ours |
132.0665 |
(384,384,384,384,384,384) |
87.6755 |
15.5850 1.77E + 10 |
3.63x |
|
MiniLMv2 - ours |
115.0473 |
(384,384,384,384,384,384) |
88.7016 |
18.2312 |
4.76E + 09 |
3.10x |
QuaMiniLMv2 - ours |
84.8602 |
(384,384,384,384,384,384) |
88.5463 |
9.1466 |
4.76E + 09 |
6.18x |
LA - MiniLM |
115.0473 |
(384,384,384,384,384,384) |
89.2811 |
16.9900 |
4.76E + 09 |
3.33x |
LA - MiniLM |
115.0473 |
(269, 253, 252, 202, 104, 34) |
87.7637 |
11.4428 |
2.49E + 09 |
4.94x |
QuaLA - MiniLM |
84.8596 |
(384,384,384,384,384,384) |
88.8593 |
7.4443 |
4.76E + 09 |
7.6x |
QuaLA - MiniLM |
84.8596 |
(315,251,242,159,142,33) |
87.6828 |
6.4146 |
2.547E + 09 |
8.8x |
訓練和評估數據
訓練和評估數據 |
詳情 |
數據集 |
SQuAD1.1數據集 |
動機 |
為多個下游語言任務構建一個高效且準確的基礎模型。 |
倫理考量
倫理考量 |
詳情 |
數據 |
SQuAD1.1數據集 |
人類生活 |
該模型並非旨在為對人類生活或繁榮至關重要的決策提供信息。它是一組聚合的帶標籤的維基百科文章。 |
緩解措施 |
在模型開發過程中未考慮額外的風險緩解策略。 |
風險和危害 |
大量研究探討了語言模型的偏差和公平性問題(例如,參見Sheng等人,2021年,以及Bender等人,2021年)。該模型生成的預測可能包括對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。除此之外,使用該模型所涉及的風險程度仍然未知。 |
注意事項和建議
用戶(直接用戶和下游用戶)應瞭解該模型的風險、偏差和侷限性。該模型沒有額外的注意事項或建議。
BibTeX條目和引用信息
備註 |
詳情 |
備註 |
在這個版本中,我們在摘要中添加了對源代碼的引用。arXiv管理員注:與arXiv:2111.09645有文本重疊。 |
主題 |
計算與語言 (cs.CL) |
引用格式 |
arXiv:2210.17114 [cs.CL] |
- |
(或對於此版本,引用arXiv:2210.17114v2 [cs.CL])https://doi.org/10.48550/arXiv.2210.17114 |
🔧 技術細節
文檔未提及技術實現細節,故跳過此章節。
📄 許可證
本項目採用MIT許可證。