🚀 基於西班牙國家圖書館(BNE)數據訓練的Longformer基礎模型
本模型是基於西班牙國家圖書館的數據訓練的Longformer基礎模型,能夠處理更長的上下文輸入,為西班牙語的語言處理任務提供了強大的支持。
🚀 快速開始
模型使用示例
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])
✨ 主要特性
- 處理長上下文:使用Longformer架構,結合滑動窗口(局部)注意力和全局注意力,無需額外的聚合策略即可處理更大的上下文輸入。
- 可微調性:可在問答、文本分類或命名實體識別等非生成性下游任務上進行微調。
📚 詳細文檔
模型描述
longformer-base-4096-bne-es 是西班牙語 roberta-base-bne 掩碼語言模型的 Longformer 版本。這些模型的使用使我們能夠處理更大的上下文作為輸入,而無需額外的聚合策略。該模型從 roberta-base-bne 檢查點開始,並在來自西班牙國家圖書館的長文檔上進行了MLM預訓練。
Longformer模型使用了滑動窗口(局部)注意力和全局注意力的組合。全局注意力可根據任務進行用戶配置,以使模型學習特定任務的表示。有關如何設置全局注意力的更多詳細信息,請參考原始 論文。
有關語料庫、預訓練和評估的更多詳細信息,請查看官方 倉庫。
預期用途和限制
longformer-base-4096-bne-es 模型僅適用於掩碼語言建模以執行填空任務(嘗試推理API或閱讀下一部分)。
但是,它旨在在問答、文本分類或命名實體識別等非生成性下游任務上進行微調。
侷限性和偏差
在提交時,尚未採取措施來估計模型中嵌入的偏差和毒性。然而,我們清楚地知道,由於語料庫是使用爬蟲技術從多個網絡源收集的,我們的模型可能存在偏差。我們打算在未來對這些領域進行研究,如果完成,此模型卡片將進行更新。
訓練
訓練語料庫和預處理
西班牙國家圖書館 (Biblioteca Nacional de España) 每年對所有 .es 域名進行一次爬取。訓練語料庫由2009年至2019年進行的這些爬取的59TB WARC文件組成。
為了獲得高質量的訓練語料庫,語料庫經過了一系列操作的預處理,包括句子分割、語言檢測、過濾格式錯誤的句子以及重複內容的去重。在此過程中,文檔邊界得以保留。這產生了2TB的西班牙語清潔語料庫。進一步對語料庫進行全局去重,得到了570GB的文本。
語料庫的一些統計信息如下:
語料庫 |
文檔數量 |
標記數量 |
大小 (GB) |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
對於這個Longformer模型,我們使用了一個7.2GB的小隨機分區作為訓練分割,其中包含少於4096個標記的文檔。
分詞和預訓練
訓練語料庫使用了原始 RoBERTA 模型中使用的字節版本的字節對編碼(BPE)進行分詞,詞彙表大小為50,262個標記。RoBERTa-base-bne的預訓練包括一個掩碼語言模型訓練,遵循RoBERTa基礎模型採用的方法。訓練總共持續了40小時,使用了8個計算節點,每個節點配備2個32GB VRAM的AMD MI50 GPU。
評估
在下游任務上進行微調時,該模型取得了以下性能:
數據集 |
指標 |
Longformer-base |
MLDoc |
F1 |
0.9608 |
CoNLL-NERC |
F1 |
0.8757 |
CAPITEL-NERC |
F1 |
0.8985 |
PAWS-X |
F1 |
0.8878 |
UD-POS |
F1 |
0.9903 |
CAPITEL-POS |
F1 |
0.9853 |
SQAC |
F1 |
0.8026 |
STS |
綜合指標 |
0.8338 |
XNLI |
準確率 |
0.8210 |
附加信息
作者
巴塞羅那超級計算中心的文本挖掘單元(TeMU)(bsc - temu@bsc.es)
聯繫信息
如需進一步信息,請發送電子郵件至 <plantl - gob - es@bsc.es>
版權
版權歸西班牙數字化和人工智能國務秘書處(SEDIA)所有(2022年)
許可信息
Apache許可證,版本2.0
資金支持
這項工作由西班牙數字化和人工智能國務秘書處(SEDIA)在Plan - TL框架內資助。
免責聲明
本倉庫中發佈的模型具有通用用途,可供第三方使用。這些模型可能存在偏差和/或其他不良扭曲。
當第三方使用這些模型(或使用基於這些模型的系統)部署或向其他方提供系統和/或服務,或成為模型的用戶時,他們應注意減輕使用這些模型帶來的風險是他們的責任,並且在任何情況下都應遵守適用的法規,包括有關人工智能使用的法規。
在任何情況下,模型的所有者(SEDIA - 西班牙數字化和人工智能國務秘書處)和創建者(BSC - 巴塞羅那超級計算中心)均不對第三方使用這些模型產生的任何結果負責。