Llama3.2 - 3B - Instruct - Legal - Summarizationオープンソースモデル - バイリンガル処理による法的事例の構造化要約生成

ホーム

Llama3.2 3B Instruct Legal Summarization

ahmadsakorによって開発

LLaMA - 3.2 - 3B - Instructをベースに微調整された法律事例まとめモデルで、アラビア語 - 英語のバイリンガル処理をサポートし、構造化されたJSON形式の法律事例まとめを生成します。

大規模言語モデル

Transformers

#法律事例の構造化まとめ #アラビア語 - 英語のバイリンガル処理 #JSON形式出力

ダウンロード数 1,741

リリース時間 : 10/18/2024

モデル概要

このモデルは法律事例のまとめに特化して最適化されており、法律テキストから重要な情報を抽出し、構造化されたJSON形式で出力します。キーは英語、値はアラビア語です。

モデル特徴

構造化JSON出力

構造化されたJSON形式の法律事例まとめを生成し、一貫した形式を維持します。

バイリンガル処理能力

バイリンガルの内容を効果的に処理し、キーは英語、値はアラビア語です。

重要な法律情報の抽出

事件情報、関係者、背景、重要な問題などの法律情報を体系的に抽出します。

パラメータ効率的な微調整

LoRA（低ランク適応）方法を使用して微調整し、注意力層を最適化しました。

モデル能力

法律テキストのまとめ

バイリンガル内容の処理

構造化情報の抽出

JSON形式の生成

使用事例

法律研究

事例の迅速なまとめ

長い法律文書から重要な情報を迅速に抽出し、構造化されたまとめを生成します。

法律研究の効率を向上させ、事件の要点を迅速に把握するのに便利です。

法律文書の分析

判決書の分析

裁判所の判決書を分析し、事件情報、判決理由、判決結果を抽出します。

法律関係者が判決の要点を迅速に把握するのに便利です。

🚀 法律事例要約ツール：微調整版LLaMA - 3.2 - 3B - Instruct

このモデルはMeta社のLLaMA - 3.2 - 3B - Instructを微調整したもので、法律事例の要約に特化して最適化されており、アラビア語と英語のバイリンガル対応が可能です。構造化されたJSON形式の法律事例要約を生成することができ、キーは英語、値はアラビア語で表されます。

✨ 主な機能

構造化されたJSON形式の法律事例要約を生成します。
キーが英語、値がアラビア語のバイリンガルコンテンツを効果的に処理します。
重要な法律情報を体系的に抽出します。
一貫した形式を維持します。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "ahmadsakor/Llama3.2-3B-Instruct-Legal-Summarization"

# Set the device map based on GPU availability
device_map = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32

# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)

tokenizer.pad_token = tokenizer.eos_token  # Use EOS token as padding token
tokenizer.padding_side = 'left'  # Left padding for batch alignment


# Load the model with the appropriate dtype and device mapping
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map=device_map
)

# Create the text generation pipeline
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=dtype,
    device_map=device_map
)

# System prompt for the AI assistant's task
system_prompt = """
You are a legal assistant AI that summarizes legal cases in JSON format following a specific template. 
Please ensure all outputs are structured and all keys are in English while the values are in Arabic. 
Be concise, informative, and follow the template strictly.
"""

# Template prompt for the legal text summary
template_prompt="""
###
Legal Text Summary Template
1. Case Information

Case Number: [Insert case number]
Date of Ruling: [Insert date of ruling]
Court: [Insert court name]
Main Case Topic: [Mention the main topic of the case]
Parties Involved: [Insert names of parties]

2. Persons involved including their:
 [List the Persons in the text including their roles in a structured format (Name, Role)]

3. Background of the Case

Overview: [Briefly describe the nature of the case and context]
List of Relevant Dates with corresponding events in Arabic (Date, Event).


4. Key Issues

[List the main legal issues or disputes in the case]

5. Arguments Presented

Claimant’s Arguments:
[Summarize the arguments made by the claimant]
Defendant’s Arguments:
[Summarize the arguments made by the defendant]

6. Court's Findings

Evidence Reviewed: [Mention the evidence the court relied on]
Rulings Made: [Summarize the rulings made by the court]
Legal Principles Applied: [List any relevant legal principles or statutes cited]

7. Outcome

Final Decision: [Describe the court's final decision]
Implications: [Discuss any implications of the ruling]

8. Additional Notes

[Any additional observations or relevant information that should be noted]
#####
Example of output json format:
{
  "case_information": {
    "case_number": "",
    "date_of_ruling": "",
    "court": "",
    "main_case_topic": "",
    "parties_involved": ""
  },
  "persons_involved": [
    {
      "name": "",
      "role": ""
    }
  ],
  "background_of_the_case": {
    "overview": "",
    "relevant_dates": [
      {
        "date": "",
        "event": ""
      }
    ]
  },
  "key_issues": [
  ],
  "arguments_presented": {
    "claimants_arguments": "",
    "defendants_arguments": ""
  },
  "courts_findings": {
    "evidence_reviewed": "",
    "rulings_made": "",
    "legal_principles_applied": [
    ]
  },
  "outcome": {
    "final_decision": "",
    "implications": ""
  },
  "additional_notes": {
    "observations": ""
  }
}
###
Input:\n
"""

full_text = "قرار محكمة النقض رقم 1530 بتاريخ 17 نوفمبر 2022 في القضية الجنحية رقم 20201162213 استئناف - عدم أداء القسط الجزافي - أثره. لم يظهر من وثائق الملف ما يفيد أداء القسط الجزافي أثناء المرحلة الاستئنافية، فإن المحكمة لما رتبت على ذلك عدم قبول الاستئناف تكون قد طبقت القانون تطبيقاً سليماً وأن ما أثير بهذا الخصوص يبقى غير مؤسس. رفض الطلب باسم الطاعن وفق تصريح أفضى به بواسطة الأستاذ (ه.ب) بتاريخ 17. تم استئناف القضية المرفوعة أمام المحكمة الابتدائية بتازة والرامي إلى نقض القرار الصادر عن غرفة الاستئناف، في القضية ذات العدد 7 القاضي بإلغاء الحكم الابتدائي بشأن تعويض مدني قدره 4500 درهم بعد مؤاخذة المطلوبين في النقض (ع-ر١) و(م.1) من أجل جنحة انتزاع عقار بمنزاله الغير والحكم على كل واحد منهم بشهر واحد حبسا موقوف التنفيذ وغرامة نافذة قدرها 500 درهم. إن محكمة النقض، بعد أن تلا المستشار السيد المحفوظ سندالي التقرير المكلف به في القضية، وبعد الإنصات إلى المحامي العام السيد محمد جعبة في مستنتجاته، وبعد المداولة طبقاً للقانون. نظراً للمذكرة المدلى بها من لدن الطاعن بواسطة الأستاذ (ع.) المحامي بمدينة مكناس والمقبول للترافع أمام محكمة النقض والمستوفية للشروط الشكلية المتطلبة قانوناً. في شأن وسيلتي النقض مجتمعتين المستدل بها على النقض والمتخذتين في مجموعها من حرق مقتضيات الفقرة السابعة من المادة 365 من قانون المسطرة الجنائية ونقصان التعليل المنزلي معللاً، حيث انعدامه ذلك أن المحكمة مصدرة القرار المطعون فيه حالفت مقتضيات المادة أعلاه عندما لم تعمل على استدعاء الشاهد (ل.ط) المستمع إليه الوحيد ابتدائياً بعد صرف باقي الشهود الحاضرين من القاعة، والذين لم يتم الاستماع إليهم بدون توضيح السبب في ذلك. كما أن القرار موضوع النقض عندما قضى بعدم قبول استئناف العارض بعلة عدم أداء القسط الجزافي، فإنه استند على علة مخالفة للقانون بحيث إن العارض أدى القسط الجزافي أمامها. كما أن المحكمة باقتصارها على تبني النقاش الذي راج أمام محكمة البداية دون إتمامها بأي إجراء من إجراءات التحقيق للتأكد من صحة المعطيات المستقاة ابتدائياً والتي مكنت من بلوغ النتيجة التي وصلت إليها. علماً أن التقاضي هو على مستوى درجتين قانونيتين، كما أن المحكمة عندما اعتبرت تصريح الشاهد (ل.ط) بمثابة إقرار بمفهوم المخالفة على عدم ثبوت الحيازة علماً أنها لم تستمع إليه أمامها حتى تتمكن من بسط رقابتها على تصريحاته والبحث في باقي أوجه التصرف والاستغلال التي دفع بها العارض والتأكد والتدقيق في الحيازة المادية المطلوبة، وهو ما يجعلها مخالفة لمقتضيات الفصل 570 من القانون الجنائي، ما يكون معه القرار في مجمله على غير أساس وعرضة للنقض والإبطال. لكن حيث من جهة أولى فإنه ينفي في الملف ما يفيد أداء القسط الجنائي أثناء المرحلة الاستئنافية، فإن المحكمة لما رتبت على عدم قبول الاستئناف، تكون قد طبقت القانون تطبيقاً سليماً وأن ما أثير بهذا الخصوص يبقى غير مقبول. المحكمة النقض لصالحها برفض الطلب ورد مبلغ الضمانة لمودعه بعد استخلاص المصاريف القضائية. وبه صدر القرار وتلي في الجلسة العلنية المنعقدة بالتاريخ المذكور أعلاه بقاعة الجلسات العادية بمحكمة النقض الكائنة بشارع النخيل حي الرياض بالرباط، وكانت الهيئة الحاكمة متركبة من السادة: عبد الحكيم إدريسي قيطون رئيساً والمستشارين: المحفوظ سندالي مقرراً والمصطفى بارز ومحمد الغزاوي وفتيحة غزال، وبحضور المحامي العام السيد محمد جعبة الذي كان يمثل النيابة العامة وعاونه كاتبة الضبط السيدة سعاد عزيزي."
user_part = template_prompt + '\n' + full_text
prompt = (
    f"<|start_header_id|>system<|end_header_id|>\n{system_prompt}\n"
    f"<|start_header_id|>user<|end_header_id|>\n{user_part}\n"
    f"<|start_header_id|>assistant<|end_header_id|>\n"
)

# Generate the summary using the pipeline
generated_outputs = pipe(
    prompt,
    max_new_tokens=1500,  # Limit the number of tokens in the output
    num_return_sequences=1,  # Return a single sequence
    pad_token_id=pipe.tokenizer.eos_token_id,
    padding=True,
    return_full_text=False,
)

print (generated_outputs[0]["generated_text"])

📚 ドキュメント

モデル詳細

属性	詳細
ベースモデル	meta - llama/Llama - 3.2 - 3B - Instruct
タスク	法律事例の要約
言語サポート	バイリンガル（アラビア語の内容、英語の構造）
微調整方法	LoRA（低ランク適応）
学習フレームワーク	🤗 Transformers + DeepSpeed + PEFT
ライセンス	[ベースのLLaMAモデルと同じ]

想定用途

このモデルは以下の目的で使用されます。

構造化されたJSON形式で法律事例を要約する。
法律文書から重要な情報を抽出する。
バイリンガルの要約（アラビア語の内容、英語の構造）を生成する。
法律研究や文書分析をサポートする。

学習詳細

学習データ

このモデルは専用の法律事例データセットで学習されており、各サンプルは以下の構造化形式に従っています。

案件情報（番号、日付、裁判所）
関係者
案件の背景
重要な問題
提示された主張
裁判所の調査結果
結果
追加の注記

学習プロセス

微調整方法：LoRA（低ランク適応）
LoRA設定：
- ランク：64
- アルファ：16
- 対象モジュール：注意力層（q_proj、k_proj、v_proj、o_proj、gate_proj、up_proj、down_proj）
- ドロップアウト率：0.05

学習ハイパーパラメータ

{
    "per_device_train_batch_size": 1,
    "gradient_accumulation_steps": 32,
    "num_train_epochs": 3,
    "learning_rate": 2e-4,
    "bf16": true,
    "max_seq_length": 10500,
    "evaluation_strategy": "steps",
    "eval_steps": 500,
    "save_steps": 500
}

性能と制限事項

利点

構造的に良好なJSON要約を生成します。
バイリンガルコンテンツを効果的に処理します。
一貫した形式を維持します。
重要な法律情報を体系的に抽出します。

制限事項

最大入力長：10500トークン。
アラビア語 - 英語の法律コンテンツに限定されます。
テンプレートに沿った形式の入力が必要です。
学習領域以外の複雑な法律用語を処理できない可能性があります。

出力例

{
  "case_information": {
    "case_number": "حالة رقم ١٢٣٤",
    "date_of_ruling": "٢٠٢٣/٠١/١٥",
    "court": "المحكمة العليا",
    "main_case_topic": "نزاع تجاري",
    "parties_involved": "شركة أ ضد شركة ب"
  },
  "persons_involved": [
    {
      "name": "محمد أحمد",
      "role": "المدعي"
    }
  ],
  "background_of_the_case": {
    "overview": "نزاع تجاري حول عقد توريد..."
  }
  // Additional fields omitted for brevity
}