led-base-ilc開源模型 - 免費助力法律文檔摘要高效生成

首頁

Led Base Ilc

由d0r1h開發

基於ILC數據集微調的Longformer編碼器-解碼器模型，專門用於法律文檔摘要生成任務

文本生成

Transformers

其他開源協議:Apache-2.0 #長文檔摘要 #法律文書處理 #高ROUGE分數

下載量 28

發布時間 : 5/5/2022

模型概述

該模型是在ILC數據集上對led-base-16384進行微調的版本，擅長處理長文檔摘要生成任務，特別是法律領域的長文本摘要。

模型特點

長文檔處理能力

能夠處理長達16K token的文檔，適合法律文書等長文本摘要

法律領域優化

在ILC法律數據集上微調，對法律文本有更好的理解能力

高效注意力機制

採用Longformer的稀疏注意力模式，提高長文本處理效率

模型能力

法律文檔摘要生成

長文本理解

法律術語識別

使用案例

法律文書處理

法院案件摘要

自動生成法院案件文檔的簡明摘要

ROUGE分數顯著優於基礎模型

法律文件分析

從冗長的法律文件中提取關鍵信息

🚀 長former編碼器-解碼器（LED）在ILC數據集上微調

本模型是 led-base-16384 在 ILC 數據集上的微調版本。它能夠處理長文檔的摘要任務，為相關領域提供了有效的解決方案。

🚀 快速開始

本模型是 led-base-16384 在 ILC 數據集上的微調版本。

正如 Iz Beltagy、Matthew E. Peters、Arman Cohan 在 Longformer: The Long-Document Transformer 中所描述的，led-base-16384 是從 bart-base 初始化而來的，因為這兩個模型具有完全相同的架構。為了能夠處理 16K 個標記，bart-base 的位置嵌入矩陣被簡單地複製了 16 次。

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
device = "cuda" if torch.cuda.is_available() else "CPU"

checkpoint = "d0r1h/led-base-ilc"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, return_dict_in_generate=True).to(device)
case = "......."
input_ids = tokenizer(case, return_tensors="pt").input_ids.to(device)
global_attention_mask = torch.zeros_like(input_ids)
global_attention_mask[:, 0] = 1
sequences = model.generate(input_ids, 
                           global_attention_mask=global_attention_mask).sequences
summary = tokenizer.batch_decode(sequences, 
                                 skip_special_tokens=True)

💻 使用示例

基礎用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
device = "cuda" if torch.cuda.is_available() else "CPU"

checkpoint = "d0r1h/led-base-ilc"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, return_dict_in_generate=True).to(device)
case = "......."
input_ids = tokenizer(case, return_tensors="pt").input_ids.to(device)
global_attention_mask = torch.zeros_like(input_ids)
global_attention_mask[:, 0] = 1
sequences = model.generate(input_ids, 
                           global_attention_mask=global_attention_mask).sequences
summary = tokenizer.batch_decode(sequences, 
                                 skip_special_tokens=True)