lsg-legal-small-uncased-4096オープンソースモデル - 法律の長いシーケンステキストを効率的に処理するために必須

ホーム

Lsg Legal Small Uncased 4096

ccdvによって開発

LEGAL-BERTの小型版で、局所+疎+グローバル注意力機構(LSG)を用いて長シーケンスを効率的に処理します。

大規模言語モデル

Transformers

英語#長文処理 #法律分野 #疎な注意力

ダウンロード数 1,088

リリース時間 : 3/2/2022

モデル概要

このモデルはLEGAL-BERTの小型版で、長シーケンスの法律テキストを処理するために特別に最適化されています。革新的な局所+疎+グローバル注意力機構(LSG)を採用しており、速度と性能の面でLongformerやBigBirdなどの従来の長シーケンス処理モデルを上回っています。

モデル特徴

効率的な長シーケンス処理

LSG注意力機構を採用しており、最大4096トークンのシーケンスを効率的に処理でき、性能は従来の長シーケンスモデルを上回っています。

柔軟な設定

グローバルトークン数、ブロックサイズ、疎因子などのさまざまなパラメータを調整して、さまざまなタスクの要件に適応できます。

複数の疎パターン

6種類の疎選択タイプ(bos_pooling/norm/pooling/lsh/stride/block_stride)を提供して、さまざまなシーンに対応します。

適応的パディング

ブロックサイズに満たないシーケンスを自動的にパディングします。トークナイザの切り捨てとパディング機能と併用することをお勧めします。

モデル能力

長文処理

法律テキスト分析

マスク埋め予測

シーケンス分類

使用事例

法律テキスト処理

法律文書分類

長い法律文書を自動的に分類します。

最大4096トークンの文書シーケンスを処理できます。

法律用語予測

法律テキストの欠落した用語を予測します。

例では、「capital」や「happiness」などの用語を正確に予測できることが示されています。

汎用NLPタスク

長文分類

長いコンテキスト理解が必要な分類タスクを処理します。

モデルの出力には分類ロジットが含まれます。

🚀 LSGモデル

このモデルは、長い文脈を扱うことができ、法的なテキストに特化したモデルです。Transformersライブラリを利用しており、Local + Sparse + Global attention (LSG) を用いることで、長いシーケンスを高速かつ効率的に処理します。

🚀 クイックスタート

このモデルはカスタムモデリングファイルに依存しているため、使用する際には trust_remote_code=True を追加する必要があります。

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("ccdv/legal-lsg-small-uncased-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/legal-lsg-small-uncased-4096")

✨ 主な機能

長いシーケンスの処理：LongformerやBigBirdよりも高速かつ効率的に長いシーケンスを処理できます。
自動パディング：シーケンスの長さがブロックサイズの倍数でない場合、自動的にパディングします。
エンコーダー - デコーダーのサポート：エンコーダー - デコーダーのアーキテクチャをサポートしています。

📦 インストール

このモデルはHugging FaceのTransformersライブラリを通じて利用できます。必要なバージョンは Transformers >= 4.36.1 です。

💻 使用例

基本的な使用法

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("ccdv/legal-lsg-small-uncased-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/legal-lsg-small-uncased-4096")

高度な使用法

from transformers import AutoModel

model = AutoModel.from_pretrained("ccdv/legal-lsg-small-uncased-4096", 
    trust_remote_code=True, 
    num_global_tokens=16,
    block_size=64,
    sparse_block_size=64,
    attention_probs_dropout_prob=0.0,
    sparsity_factor=4,
    sparsity_type="none",
    mask_first_token=True
)

マスク埋め込みタスクの例

from transformers import FillMaskPipeline, AutoModelForMaskedLM, AutoTokenizer

model = AutoModelForMaskedLM.from_pretrained("ccdv/legal-lsg-small-uncased-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/legal-lsg-small-uncased-4096")

SENTENCES = ["Paris is the <mask> of France.", "The goal of life is <mask>."]
pipeline = FillMaskPipeline(model, tokenizer)
output = pipeline(SENTENCES, top_k=1)
    
output = [o[0]["sequence"] for o in output]
print(output)  # ['Paris is the capital of France.', 'The goal of life is happiness.']

分類タスクの例

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("ccdv/legal-lsg-small-uncased-4096", 
    trust_remote_code=True, 
    pool_with_global=True, # pool with a global token instead of first token
)
tokenizer = AutoTokenizer.from_pretrained("ccdv/legal-lsg-small-uncased-4096")

SENTENCE = "This is a test for sequence classification. " * 300
token_ids = tokenizer(
    SENTENCE, 
    return_tensors="pt", 
    #pad_to_multiple_of=... # Optional
    truncation=True
    )
output = model(**token_ids)

print(output)  # SequenceClassifierOutput(loss=None, logits=tensor([[-0.3051, -0.1762]], grad_fn=<AddmmBackward>), hidden_states=None, attentions=None)

グローバルトークンのトレーニング例

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("ccdv/legal-lsg-small-uncased-4096", 
    trust_remote_code=True, 
    pool_with_global=True, # pool with a global token instead of first token
    num_global_tokens=16
)
tokenizer = AutoTokenizer.from_pretrained("ccdv/legal-lsg-small-uncased-4096")

for name, param in model.named_parameters():
    if "global_embeddings" not in name:
        param.requires_grad = False
    else:
        param.required_grad = True

📚 ドキュメント

パラメータ

以下のパラメータを変更することができます。

パラメータ	説明
num_global_tokens	グローバルトークンの数 (デフォルト: 1)
block_size	ローカルブロックサイズ (デフォルト: 128)
sparse_block_size	スパースブロックサイズ (デフォルト: 128)
sparsity_factor	スパース性の係数 (デフォルト: 2)
mask_first_token	最初のトークンをマスクするかどうか (デフォルト: False)

スパース選択タイプ

6種類の異なるスパース選択パターンがあります。最適なタイプはタスクに依存します。

sparsity_type="bos_pooling"：BOSトークンを使用した加重平均プーリング。一般的に最適な性能を発揮します。
sparsity_type="norm"：ノルムが最も高いトークンを選択します。スパース性の係数が小さい場合に最適です。
sparsity_type="pooling"：平均プーリングを使用してトークンをマージします。スパース性の係数が小さい場合に最適です。
sparsity_type="lsh"：LSHアルゴリズムを使用して類似したトークンをクラスタリングします。スパース性の係数が大きい場合に最適です。
sparsity_type="stride"：各ヘッドで異なるトークンを選択します。スパース性の係数がヘッド数より大きい場合は推奨されません。
sparsity_type="block_stride"：各ヘッドでブロック単位でトークンを選択します。スパース性の係数がヘッド数より大きい場合は推奨されません。

🔧 技術詳細

このモデルは、Local + Sparse + Global attention (LSG) を用いて長いシーケンスを処理します。これにより、LongformerやBigBirdよりも高速かつ効率的に長いシーケンスを処理できます。

📄 ライセンス

このモデルは、LEGAL-BERT モデルをベースにしています。関連する論文は以下の通りです。

@inproceedings{chalkidis-etal-2020-legal,
    title = "{LEGAL}-{BERT}: The Muppets straight out of Law School",
    author = "Chalkidis, Ilias  and
      Fergadiotis, Manos  and
      Malakasiotis, Prodromos  and
      Aletras, Nikolaos  and
      Androutsopoulos, Ion",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    doi = "10.18653/v1/2020.findings-emnlp.261",
    pages = "2898--2904"
}