M

Multilingual Albert Base Cased 128k

由cservan開發
基於掩碼語言建模(MLM)目標預訓練的多語言ALBERT模型,支持60+種語言,具有參數共享的輕量級架構
下載量 277
發布時間 : 12/20/2023

模型概述

這是一個區分大小寫的多語言ALBERT模型,通過自監督方式在維基百科文本上預訓練,適用於下游任務的微調。模型採用Transformer層權重共享機制,具有較小的內存佔用。

模型特點

多語言支持
支持60多種語言的處理,包括主要歐洲和亞洲語言
參數共享架構
採用ALBERT特有的Transformer層權重共享機制,顯著減少模型參數數量
區分大小寫
與標準ALBERT不同,此模型能夠區分單詞的大小寫形式
高效預訓練
結合掩碼語言建模(MLM)和句子順序預測(SOP)兩種預訓練目標

模型能力

多語言文本理解
句子順序預測
掩碼詞預測
下游任務微調

使用案例

自然語言處理
槽填充任務
用於對話系統中的信息提取任務
在MultiATIS++數據集上達到89.14的準確率
文本分類
用於多語言文本分類任務
在SNIPS數據集上達到96.84的準確率
命名實體識別
用於識別文本中的命名實體
在CoNLL2003數據集上達到88.27的F1分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase