M

Multilingual MiniLM L12 H384

由microsoft開發
MiniLM是一種小型高效的預訓練語言模型,通過深度自注意力蒸餾技術壓縮Transformer模型,支持多語言理解與生成任務。
下載量 28.51k
發布時間 : 3/2/2022

模型概述

MiniLM是基於Transformer架構的輕量級多語言模型,通過知識蒸餾技術保留了原始大模型的性能,同時顯著減少參數規模,適用於跨語言文本分類、問答等任務。

模型特點

高效知識蒸餾
通過深度自注意力蒸餾技術壓縮原始Transformer模型,保留核心語言理解能力
多語言支持
支持16種語言的跨語言遷移學習,使用與XLM-R相同的分詞器
輕量級架構
僅12層Transformer結構,384隱藏單元,參數規模顯著小於同類多語言模型

模型能力

跨語言文本分類
跨語言問答
自然語言推理
多語言文本理解

使用案例

跨語言文本分類
XNLI跨語言自然語言推理
將英語訓練模型遷移到其他15種語言進行文本蘊含判斷
在XNLI基準測試中平均準確率71.1%,優於同等規模的mBERT模型
問答系統
MLQA跨語言問答
基於英語訓練的問答模型遷移到其他語言
在MLQA基準測試中F1分數63.2%,接近更大的XLM-R Base模型性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase