LEDベースのILCオープンソースモデル - 無料で法律文書要約の効率的な生成を支援

ホーム

Led Base Ilc

d0r1hによって開発

ILCデータセットで微調整されたLongformerエンコーダー・デコーダーモデルで、法律文書の要約生成タスクに特化

テキスト生成

Transformers

その他オープンソースライセンス:Apache-2.0 #長文書要約 #法律文書処理 #高ROUGEスコア

ダウンロード数 28

リリース時間 : 5/5/2022

モデル概要

このモデルはILCデータセットでled-base-16384を微調整したバージョンで、長文書の要約生成タスク、特に法律分野の長文要約に優れています。

モデル特徴

長文書処理能力

最大16Kトークンの文書を処理可能で、法律文書などの長文要約に適しています

法律分野最適化

ILC法律データセットで微調整されており、法律テキストの理解力が向上

効率的な注意メカニズム

Longformerのスパースアテンションパターンを採用し、長文処理効率を向上

モデル能力

法律文書要約生成

長文理解

法律用語認識

使用事例

法律文書処理

裁判案件要約

裁判所案件文書の簡潔な要約を自動生成

ROUGEスコアがベースモデルを大幅に上回る

法律文書分析

冗長な法律文書から重要な情報を抽出

🚀 Longformer Encoder-Decoder (LED) をILCでファインチューニング

このモデルは、led-base-16384 を ILC データセットでファインチューニングしたバージョンです。

Iz Beltagy、Matthew E. Peters、Arman Cohanによる Longformer: The Long-Document Transformer で説明されているように、led-base-16384 は、両モデルがまったく同じアーキテクチャを共有しているため、bart-base から初期化されました。16Kトークンを処理できるようにするために、bart-base の位置埋め込み行列を単純に16回コピーしました。

🚀 クイックスタート

モデルの使用方法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
device = "cuda" if torch.cuda.is_available() else "CPU"

checkpoint = "d0r1h/led-base-ilc"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, return_dict_in_generate=True).to(device)
case = "......."
input_ids = tokenizer(case, return_tensors="pt").input_ids.to(device)
global_attention_mask = torch.zeros_like(input_ids)
global_attention_mask[:, 0] = 1
sequences = model.generate(input_ids, 
                           global_attention_mask=global_attention_mask).sequences
summary = tokenizer.batch_decode(sequences, 
                                 skip_special_tokens=True)

💻 使用例

基本的な使用法

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
device = "cuda" if torch.cuda.is_available() else "CPU"

checkpoint = "d0r1h/led-base-ilc"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint, return_dict_in_generate=True).to(device)
case = "......."
input_ids = tokenizer(case, return_tensors="pt").input_ids.to(device)
global_attention_mask = torch.zeros_like(input_ids)
global_attention_mask[:, 0] = 1
sequences = model.generate(input_ids, 
                           global_attention_mask=global_attention_mask).sequences
summary = tokenizer.batch_decode(sequences, 
                                 skip_special_tokens=True)