longformer-base-4096-bne-es開源西班牙語模型 - 處理長文本，支持問答與分類

首頁

Longformer Base 4096 Bne Es

由PlanTL-GOB-ES開發

基於Longformer架構的西班牙語掩碼語言模型，能夠處理長文本輸入，適用於問答、文本分類等任務

大型語言模型

Transformers

西班牙語開源協議:Apache-2.0 #西班牙語長文本處理 #滑動窗口注意力機制 #文檔級語言建模

下載量 52.76k

發布時間 : 11/2/2022

模型概述

該模型基於RoBERTa架構改進，專門針對西班牙語長文本處理優化，支持4096詞元的上下文長度，適用於多種自然語言處理任務

模型特點

長文本處理能力

支持4096詞元的上下文長度，無需額外聚合策略即可處理長文檔

改進的注意力機制

採用滑動窗口注意力與全局注意力相結合的方式，平衡計算效率與上下文理解

西班牙語優化

基於西班牙國家圖書館大規模語料訓練，專門針對西班牙語特性優化

模型能力

掩碼語言建模

文本分類

命名實體識別

問答系統

語義相似度計算

使用案例

文本分析

法律文檔分析

分析西班牙語法律文檔中的關鍵信息

新聞分類

對西班牙語新聞文章進行分類

在MLDoc數據集上F1得分0.9608

信息提取

命名實體識別

從西班牙語文檔中提取人名、地名等實體

在CoNLL-NERC數據集上F1得分0.8757

🚀 基於西班牙國家圖書館（BNE）數據訓練的Longformer基礎模型

本模型是基於西班牙國家圖書館的數據訓練的Longformer基礎模型，能夠處理更長的上下文輸入，為西班牙語的語言處理任務提供了強大的支持。

🚀 快速開始

模型使用示例

from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])

✨ 主要特性

處理長上下文：使用Longformer架構，結合滑動窗口（局部）注意力和全局注意力，無需額外的聚合策略即可處理更大的上下文輸入。
可微調性：可在問答、文本分類或命名實體識別等非生成性下游任務上進行微調。

📚 詳細文檔

模型描述

longformer-base-4096-bne-es 是西班牙語 roberta-base-bne 掩碼語言模型的 Longformer 版本。這些模型的使用使我們能夠處理更大的上下文作為輸入，而無需額外的聚合策略。該模型從 roberta-base-bne 檢查點開始，並在來自西班牙國家圖書館的長文檔上進行了MLM預訓練。

Longformer模型使用了滑動窗口（局部）注意力和全局注意力的組合。全局注意力可根據任務進行用戶配置，以使模型學習特定任務的表示。有關如何設置全局注意力的更多詳細信息，請參考原始論文。

有關語料庫、預訓練和評估的更多詳細信息，請查看官方倉庫。

預期用途和限制

longformer-base-4096-bne-es 模型僅適用於掩碼語言建模以執行填空任務（嘗試推理API或閱讀下一部分）。

但是，它旨在在問答、文本分類或命名實體識別等非生成性下游任務上進行微調。

侷限性和偏差

在提交時，尚未採取措施來估計模型中嵌入的偏差和毒性。然而，我們清楚地知道，由於語料庫是使用爬蟲技術從多個網絡源收集的，我們的模型可能存在偏差。我們打算在未來對這些領域進行研究，如果完成，此模型卡片將進行更新。

訓練

訓練語料庫和預處理

西班牙國家圖書館 (Biblioteca Nacional de España) 每年對所有 .es 域名進行一次爬取。訓練語料庫由2009年至2019年進行的這些爬取的59TB WARC文件組成。

為了獲得高質量的訓練語料庫，語料庫經過了一系列操作的預處理，包括句子分割、語言檢測、過濾格式錯誤的句子以及重複內容的去重。在此過程中，文檔邊界得以保留。這產生了2TB的西班牙語清潔語料庫。進一步對語料庫進行全局去重，得到了570GB的文本。

語料庫的一些統計信息如下：

語料庫	文檔數量	標記數量	大小 (GB)
BNE	201,080,084	135,733,450,668	570GB

對於這個Longformer模型，我們使用了一個7.2GB的小隨機分區作為訓練分割，其中包含少於4096個標記的文檔。

分詞和預訓練

訓練語料庫使用了原始 RoBERTA 模型中使用的字節版本的字節對編碼（BPE）進行分詞，詞彙表大小為50,262個標記。RoBERTa-base-bne的預訓練包括一個掩碼語言模型訓練，遵循RoBERTa基礎模型採用的方法。訓練總共持續了40小時，使用了8個計算節點，每個節點配備2個32GB VRAM的AMD MI50 GPU。

評估

在下游任務上進行微調時，該模型取得了以下性能：

數據集	指標	Longformer-base
MLDoc	F1	0.9608
CoNLL-NERC	F1	0.8757
CAPITEL-NERC	F1	0.8985
PAWS-X	F1	0.8878
UD-POS	F1	0.9903
CAPITEL-POS	F1	0.9853
SQAC	F1	0.8026
STS	綜合指標	0.8338
XNLI	準確率	0.8210