longformer_zh開源中文長文本處理模型 - 免費處理4096字符文檔序列

首頁

Longformer Zh

由ValkyriaLenneth開發

基於PyTorch的中文Longformer模型，能以線性複雜度處理最長4096字符的文檔序列，適用於中文長文本任務。

大型語言模型

Transformers

#長文本處理 #線性複雜度注意力 #中文全詞掩碼

下載量 418

發布時間 : 3/2/2022

模型概述

該模型融合了局部窗口注意力與任務導向的全局注意力，可完美替代標準自注意力模塊，特別適合處理中文長文本任務。

模型特點

線性複雜度處理長文本

相較於Transformer的O(n^2)複雜度，能以線性複雜度處理最長4096字符的文檔序列。

混合注意力機制

融合了局部窗口注意力與任務導向的全局注意力，可完美替代標準自注意力模塊。

全詞掩碼機制

引入全詞掩碼(WWM)機制適配中文特性，據查為首個開源的PyTorch版中文WWM實現。

模型能力

長文本處理

文本分類

閱讀理解

指代消解

情感分析

使用案例

情感分析

CCF情感分析

用於中文文本情感分類任務

開發集F1達到80.51，與Roberta-mid相當

閱讀理解

中文閱讀理解(CMRC)

用於中文閱讀理解任務

F1:86.15, EM:66.84，優於Bert基準

指代消解

指代消解任務

用於中文指代消解任務

Conll-F1:67.81，優於Bert和Roberta

🚀 中文預訓練Longformer模型 | Longformer_ZH with PyTorch

本項目開源了預訓練的中文Longformer模型參數。相比於Transformer的O(n^2)複雜度，Longformer能以線性複雜度處理最長4K字符級別的文檔序列。其注意力機制結合了標準自注意力與全局注意力，便於模型學習超長序列信息。項目還提供了模型加載方法和預訓練腳本，助力相關研究。

🚀 快速開始

下載模型

您可以使用谷歌雲盤或百度網盤下載我們的模型：

Google Drive: https://drive.google.com/file/d/1IDJ4aVTfSFUQLIqCYBtoRpnfbgHPoxB4/view?usp=sharing
百度雲: 鏈接：https://pan.baidu.com/s/1HaVDENx52I7ryPFpnQmq1w 提取碼：y601

我們同樣提供了Huggingface的自動下載方式：

from Longformer_zh import LongformerZhForMaksedLM
LongformerZhForMaksedLM.from_pretrained('ValkyriaLenneth/longformer_zh')

✨ 主要特性

高效處理長序列：相比Transformer的O(n^2)複雜度，Longformer以線性複雜度處理最長4K字符級別的文檔序列。
獨特注意力機制：Longformer Attention結合了標準自注意力與全局注意力，有助於模型更好地學習超長序列信息。
適配中文特性：基於Roberta_zh模型，引入Whole-Word-Masking機制，更適應中文語言特點。

📦 安裝指南

暫未提及具體安裝步驟，可按照上述快速開始部分進行模型下載和加載。

💻 使用示例

基礎用法

from Longformer_zh import LongformerZhForMaksedLM
LongformerZhForMaksedLM.from_pretrained('ValkyriaLenneth/longformer_zh')

📚 詳細文檔

注意事項

⚠️ 重要提示

直接使用 transformers.LongformerModel.from_pretrained 加載模型。

以下內容已經被棄用：區別於英文原版Longformer，中文Longformer的基礎是Roberta_zh模型，其本質上屬於 Transformers.BertModel 而非 RobertaModel，因此無法使用原版代碼直接加載。我們提供了修改後的中文Longformer文件，您可以使用其加載參數。如果您想將此參數用於更多任務，請參考Longformer_zh.py替換Attention Layer。

關於預訓練

預訓練語料：來自 https://github.com/brightmart/nlp_chinese_corpus，根據Longformer原文的設置，採用了多種語料混合的預訓練數據。
基礎模型：基於Roberta_zh_mid (https://github.com/brightmart/roberta_zh)，訓練腳本參考了https://github.com/allenai/longformer/blob/master/scripts/convert_model_to_long.ipynb。
特殊機制：引入了 Whole-Word-Masking 機制，代碼改寫自TensorFlow版本的Roberta_zh，是首個開源的Pytorch版本WWM，以便更好地適應中文特性。
訓練參數：模型 max_seq_length = 4096，在 4 * Titan RTX 上預訓練3K steps 大概用時4天。使用了 Nvidia.Apex 引入混合精度訓練以加速預訓練。數據預處理採用 Jieba 分詞與JIONLP進行數據清洗。