LEGIT - SCRATCH - BARTオープンソースモデル - イタリアの法律長テキストを無料で処理し、法律文書を分析

ホーム

LEGIT SCRATCH BART

morenolqによって開発

LEGIT-BARTはTransformerベースの事前学習モデルシリーズで、イタリア法律テキスト処理に特化しており、長文処理や法律文書分析をサポートします。

大規模言語モデル

Transformers

その他オープンソースライセンス:MIT #イタリア法律テキスト生成 #長文処理(16kトークン)#法律要約生成

ダウンロード数 16

リリース時間 : 2/2/2025

モデル概要

LEGIT-BARTモデルはBART-ITアーキテクチャを基盤としており、イタリア法律コーパスで追加の事前学習を行い、法律テキスト生成や要約などのタスクに適しています。

モデル特徴

法律分野専用

イタリア法律テキストに特化した事前学習により、法律用語や構造を理解

長文処理能力

LSGアテンションメカニズム版は最大16,384トークンのコンテキスト処理をサポート

多様なモデル選択肢

基本版から長文処理版まで様々なバリエーションを提供し、異なるニーズに対応

包括的な法律データ学習

訓練データには法令、判例法、契約書など様々な法律文書タイプを含む

モデル能力

法律テキスト生成

法律文書要約

法律テキスト補完

長文法律文書処理

使用事例

法律文書処理

契約書要約生成

法律契約書の簡潔な要約を自動生成

法律条項補完

文脈に基づいて法律条項の内容を自動補完

法律研究

判例法分析

長文の裁判所判決文書を処理・分析

🚀 📌 モデルカード: LEGIT-BARTシリーズ

LEGIT-BART モデルは、イタリア語の法的テキスト処理 のための 事前学習済みトランスフォーマーベースのモデル のファミリーです。これらのモデルは BART-IT (morenolq/bart-it) をベースに構築され、イタリア語の法的コーパス でさらに事前学習されています。

🚀 クイックスタート

以下のコードを使って、モデルを簡単に使い始めることができます。

from transformers import BartForConditionalGeneration, AutoTokenizer

# トークナイザーとモデルを読み込む
model_name = "morenolq/LEGIT-SCRATCH-BART"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 入力例
input_text = "<mask> 1234: Il contratto si intende concluso quando..."
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

# 事前学習済みモデルでマスクを埋める
output_ids = model.generate(inputs.input_ids, max_length=150, num_beams=4, early_stopping=True)
output_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("📝:", output_text)

✨ 主な機能

💡 主な特徴:

Local-Sparse-Global (LSG) Attention による 拡張コンテキスト長（最大 16,384トークン） 📜
法令、判例、契約書 などの 法的文書で学習 📑
特定のタスクにはファインチューニングされていない（さらなる適応が必要）

📦 利用可能なモデル

モデル	説明	リンク
LEGIT-BART	`morenolq/bart-it` をイタリア語の法的テキストで継続事前学習	🔗 リンク
LEGIT-BART-LSG-4096	`morenolq/bart-it` を継続事前学習し、4,096トークンをサポート	🔗 リンク
LEGIT-BART-LSG-16384	`morenolq/bart-it` を継続事前学習し、16,384トークンをサポート	🔗 リンク
LEGIT-SCRATCH-BART	イタリア語の法的テキストからゼロから学習	🔗 リンク
LEGIT-SCRATCH-BART-LSG-4096	LSGアテンションでゼロから学習し、4,096トークンをサポート	🔗 リンク
LEGIT-SCRATCH-BART-LSG-16384	LSGアテンションでゼロから学習し、16,384トークンをサポート	🔗 リンク
BART-IT-LSG-4096	LSGアテンションを持つ `morenolq/bart-it` で、4,096トークンをサポート（法的適応なし）	🔗 リンク
BART-IT-LSG-16384	LSGアテンションを持つ `morenolq/bart-it` で、16,384トークンをサポート（法的適応なし）	🔗 リンク

🔧 技術詳細

アーキテクチャ

ベースモデル: morenolq/bart-it
トランスフォーマーエンコーダー-デコーダー
長文書用の LSGアテンション
ゼロから学習したモデル用の特定のトークナイザー（我々の実験では継続事前学習より性能が劣る）。

学習データ

データセット: joelniklaus/Multi_Legal_Pile
使用される法的テキストの種類:
- 立法（法律、法典、改正案）
- 判例（司法判決）
- 契約書（公的な法的合意）

💻 使用例

基本的な使用法

from transformers import BartForConditionalGeneration, AutoTokenizer

# Load tokenizer and model
model_name = "morenolq/LEGIT-SCRATCH-BART"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# Example input
input_text = "<mask> 1234: Il contratto si intende concluso quando..."
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

# Pre-trained model fill the mask
output_ids = model.generate(inputs.input_ids, max_length=150, num_beams=4, early_stopping=True)
output_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("📝:", output_text)

📄 ライセンス

このモデルは MIT ライセンスの下で提供されています。

⚠️ 重要提示

特定のタスクにはファインチューニングされていない：これらのモデルは法的テキストで事前学習されており、特定の法的NLPタスク（要約、質問応答など）にはさらなる適応が必要です。

バイアスと公平性：法的テキストには法制度に存在するバイアスが含まれている可能性があります。モデルの公平性と倫理的な使用を確保するために注意が必要です。

法的アドバイス：これらのモデルは専門的な法的アドバイスの代替品ではありません。法的問題については常に適格な法律専門家に相談してください。

📚 参考文献

LEGIT-BARTモデルを紹介する論文は現在査読中であり、公開され次第ここに更新されます。

@article{benedetto2025legitbart,
	title        = {LegItBART: a summarization model for Italian legal documents},
	author       = {Benedetto, Irene and La Quatra, Moreno and Cagliero, Luca},
	year         = 2025,
	journal      = {Artificial Intelligence and Law},
	publisher    = {Springer},
	pages        = {1--31},
	doi          = {10.1007/s10506-025-09436-y},
	url          = {doi.org/10.1007/s10506-025-09436-y}
}