Llama3.2 3B Instruct Legal Summarization
LLaMA - 3.2 - 3B - Instructをベースに微調整された法律事例まとめモデルで、アラビア語 - 英語のバイリンガル処理をサポートし、構造化されたJSON形式の法律事例まとめを生成します。
ダウンロード数 1,741
リリース時間 : 10/18/2024
モデル概要
このモデルは法律事例のまとめに特化して最適化されており、法律テキストから重要な情報を抽出し、構造化されたJSON形式で出力します。キーは英語、値はアラビア語です。
モデル特徴
構造化JSON出力
構造化されたJSON形式の法律事例まとめを生成し、一貫した形式を維持します。
バイリンガル処理能力
バイリンガルの内容を効果的に処理し、キーは英語、値はアラビア語です。
重要な法律情報の抽出
事件情報、関係者、背景、重要な問題などの法律情報を体系的に抽出します。
パラメータ効率的な微調整
LoRA(低ランク適応)方法を使用して微調整し、注意力層を最適化しました。
モデル能力
法律テキストのまとめ
バイリンガル内容の処理
構造化情報の抽出
JSON形式の生成
使用事例
法律研究
事例の迅速なまとめ
長い法律文書から重要な情報を迅速に抽出し、構造化されたまとめを生成します。
法律研究の効率を向上させ、事件の要点を迅速に把握するのに便利です。
法律文書の分析
判決書の分析
裁判所の判決書を分析し、事件情報、判決理由、判決結果を抽出します。
法律関係者が判決の要点を迅速に把握するのに便利です。
🚀 法律事例要約ツール:微調整版LLaMA - 3.2 - 3B - Instruct
このモデルはMeta社のLLaMA - 3.2 - 3B - Instructを微調整したもので、法律事例の要約に特化して最適化されており、アラビア語と英語のバイリンガル対応が可能です。構造化されたJSON形式の法律事例要約を生成することができ、キーは英語、値はアラビア語で表されます。
✨ 主な機能
- 構造化されたJSON形式の法律事例要約を生成します。
- キーが英語、値がアラビア語のバイリンガルコンテンツを効果的に処理します。
- 重要な法律情報を体系的に抽出します。
- 一貫した形式を維持します。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "ahmadsakor/Llama3.2-3B-Instruct-Legal-Summarization"
# Set the device map based on GPU availability
device_map = "cuda" if torch.cuda.is_available() else "cpu"
dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
# Load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token # Use EOS token as padding token
tokenizer.padding_side = 'left' # Left padding for batch alignment
# Load the model with the appropriate dtype and device mapping
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=dtype,
device_map=device_map
)
# Create the text generation pipeline
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=dtype,
device_map=device_map
)
# System prompt for the AI assistant's task
system_prompt = """
You are a legal assistant AI that summarizes legal cases in JSON format following a specific template.
Please ensure all outputs are structured and all keys are in English while the values are in Arabic.
Be concise, informative, and follow the template strictly.
"""
# Template prompt for the legal text summary
template_prompt="""
###
Legal Text Summary Template
1. Case Information
Case Number: [Insert case number]
Date of Ruling: [Insert date of ruling]
Court: [Insert court name]
Main Case Topic: [Mention the main topic of the case]
Parties Involved: [Insert names of parties]
2. Persons involved including their:
[List the Persons in the text including their roles in a structured format (Name, Role)]
3. Background of the Case
Overview: [Briefly describe the nature of the case and context]
List of Relevant Dates with corresponding events in Arabic (Date, Event).
4. Key Issues
[List the main legal issues or disputes in the case]
5. Arguments Presented
Claimant’s Arguments:
[Summarize the arguments made by the claimant]
Defendant’s Arguments:
[Summarize the arguments made by the defendant]
6. Court's Findings
Evidence Reviewed: [Mention the evidence the court relied on]
Rulings Made: [Summarize the rulings made by the court]
Legal Principles Applied: [List any relevant legal principles or statutes cited]
7. Outcome
Final Decision: [Describe the court's final decision]
Implications: [Discuss any implications of the ruling]
8. Additional Notes
[Any additional observations or relevant information that should be noted]
#####
Example of output json format:
{
"case_information": {
"case_number": "",
"date_of_ruling": "",
"court": "",
"main_case_topic": "",
"parties_involved": ""
},
"persons_involved": [
{
"name": "",
"role": ""
}
],
"background_of_the_case": {
"overview": "",
"relevant_dates": [
{
"date": "",
"event": ""
}
]
},
"key_issues": [
],
"arguments_presented": {
"claimants_arguments": "",
"defendants_arguments": ""
},
"courts_findings": {
"evidence_reviewed": "",
"rulings_made": "",
"legal_principles_applied": [
]
},
"outcome": {
"final_decision": "",
"implications": ""
},
"additional_notes": {
"observations": ""
}
}
###
Input:\n
"""
full_text = "قرار محكمة النقض رقم 1530 بتاريخ 17 نوفمبر 2022 في القضية الجنحية رقم 20201162213 استئناف - عدم أداء القسط الجزافي - أثره. لم يظهر من وثائق الملف ما يفيد أداء القسط الجزافي أثناء المرحلة الاستئنافية، فإن المحكمة لما رتبت على ذلك عدم قبول الاستئناف تكون قد طبقت القانون تطبيقاً سليماً وأن ما أثير بهذا الخصوص يبقى غير مؤسس. رفض الطلب باسم الطاعن وفق تصريح أفضى به بواسطة الأستاذ (ه.ب) بتاريخ 17. تم استئناف القضية المرفوعة أمام المحكمة الابتدائية بتازة والرامي إلى نقض القرار الصادر عن غرفة الاستئناف، في القضية ذات العدد 7 القاضي بإلغاء الحكم الابتدائي بشأن تعويض مدني قدره 4500 درهم بعد مؤاخذة المطلوبين في النقض (ع-ر١) و(م.1) من أجل جنحة انتزاع عقار بمنزاله الغير والحكم على كل واحد منهم بشهر واحد حبسا موقوف التنفيذ وغرامة نافذة قدرها 500 درهم. إن محكمة النقض، بعد أن تلا المستشار السيد المحفوظ سندالي التقرير المكلف به في القضية، وبعد الإنصات إلى المحامي العام السيد محمد جعبة في مستنتجاته، وبعد المداولة طبقاً للقانون. نظراً للمذكرة المدلى بها من لدن الطاعن بواسطة الأستاذ (ع.) المحامي بمدينة مكناس والمقبول للترافع أمام محكمة النقض والمستوفية للشروط الشكلية المتطلبة قانوناً. في شأن وسيلتي النقض مجتمعتين المستدل بها على النقض والمتخذتين في مجموعها من حرق مقتضيات الفقرة السابعة من المادة 365 من قانون المسطرة الجنائية ونقصان التعليل المنزلي معللاً، حيث انعدامه ذلك أن المحكمة مصدرة القرار المطعون فيه حالفت مقتضيات المادة أعلاه عندما لم تعمل على استدعاء الشاهد (ل.ط) المستمع إليه الوحيد ابتدائياً بعد صرف باقي الشهود الحاضرين من القاعة، والذين لم يتم الاستماع إليهم بدون توضيح السبب في ذلك. كما أن القرار موضوع النقض عندما قضى بعدم قبول استئناف العارض بعلة عدم أداء القسط الجزافي، فإنه استند على علة مخالفة للقانون بحيث إن العارض أدى القسط الجزافي أمامها. كما أن المحكمة باقتصارها على تبني النقاش الذي راج أمام محكمة البداية دون إتمامها بأي إجراء من إجراءات التحقيق للتأكد من صحة المعطيات المستقاة ابتدائياً والتي مكنت من بلوغ النتيجة التي وصلت إليها. علماً أن التقاضي هو على مستوى درجتين قانونيتين، كما أن المحكمة عندما اعتبرت تصريح الشاهد (ل.ط) بمثابة إقرار بمفهوم المخالفة على عدم ثبوت الحيازة علماً أنها لم تستمع إليه أمامها حتى تتمكن من بسط رقابتها على تصريحاته والبحث في باقي أوجه التصرف والاستغلال التي دفع بها العارض والتأكد والتدقيق في الحيازة المادية المطلوبة، وهو ما يجعلها مخالفة لمقتضيات الفصل 570 من القانون الجنائي، ما يكون معه القرار في مجمله على غير أساس وعرضة للنقض والإبطال. لكن حيث من جهة أولى فإنه ينفي في الملف ما يفيد أداء القسط الجنائي أثناء المرحلة الاستئنافية، فإن المحكمة لما رتبت على عدم قبول الاستئناف، تكون قد طبقت القانون تطبيقاً سليماً وأن ما أثير بهذا الخصوص يبقى غير مقبول. المحكمة النقض لصالحها برفض الطلب ورد مبلغ الضمانة لمودعه بعد استخلاص المصاريف القضائية. وبه صدر القرار وتلي في الجلسة العلنية المنعقدة بالتاريخ المذكور أعلاه بقاعة الجلسات العادية بمحكمة النقض الكائنة بشارع النخيل حي الرياض بالرباط، وكانت الهيئة الحاكمة متركبة من السادة: عبد الحكيم إدريسي قيطون رئيساً والمستشارين: المحفوظ سندالي مقرراً والمصطفى بارز ومحمد الغزاوي وفتيحة غزال، وبحضور المحامي العام السيد محمد جعبة الذي كان يمثل النيابة العامة وعاونه كاتبة الضبط السيدة سعاد عزيزي."
user_part = template_prompt + '\n' + full_text
prompt = (
f"<|start_header_id|>system<|end_header_id|>\n{system_prompt}\n"
f"<|start_header_id|>user<|end_header_id|>\n{user_part}\n"
f"<|start_header_id|>assistant<|end_header_id|>\n"
)
# Generate the summary using the pipeline
generated_outputs = pipe(
prompt,
max_new_tokens=1500, # Limit the number of tokens in the output
num_return_sequences=1, # Return a single sequence
pad_token_id=pipe.tokenizer.eos_token_id,
padding=True,
return_full_text=False,
)
print (generated_outputs[0]["generated_text"])
📚 ドキュメント
モデル詳細
属性 | 詳細 |
---|---|
ベースモデル | meta - llama/Llama - 3.2 - 3B - Instruct |
タスク | 法律事例の要約 |
言語サポート | バイリンガル(アラビア語の内容、英語の構造) |
微調整方法 | LoRA(低ランク適応) |
学習フレームワーク | 🤗 Transformers + DeepSpeed + PEFT |
ライセンス | [ベースのLLaMAモデルと同じ] |
想定用途
このモデルは以下の目的で使用されます。
- 構造化されたJSON形式で法律事例を要約する。
- 法律文書から重要な情報を抽出する。
- バイリンガルの要約(アラビア語の内容、英語の構造)を生成する。
- 法律研究や文書分析をサポートする。
学習詳細
学習データ
このモデルは専用の法律事例データセットで学習されており、各サンプルは以下の構造化形式に従っています。
- 案件情報(番号、日付、裁判所)
- 関係者
- 案件の背景
- 重要な問題
- 提示された主張
- 裁判所の調査結果
- 結果
- 追加の注記
学習プロセス
- 微調整方法:LoRA(低ランク適応)
- LoRA設定:
- ランク:64
- アルファ:16
- 対象モジュール:注意力層(q_proj、k_proj、v_proj、o_proj、gate_proj、up_proj、down_proj)
- ドロップアウト率:0.05
学習ハイパーパラメータ
{
"per_device_train_batch_size": 1,
"gradient_accumulation_steps": 32,
"num_train_epochs": 3,
"learning_rate": 2e-4,
"bf16": true,
"max_seq_length": 10500,
"evaluation_strategy": "steps",
"eval_steps": 500,
"save_steps": 500
}
性能と制限事項
利点
- 構造的に良好なJSON要約を生成します。
- バイリンガルコンテンツを効果的に処理します。
- 一貫した形式を維持します。
- 重要な法律情報を体系的に抽出します。
制限事項
- 最大入力長:10500トークン。
- アラビア語 - 英語の法律コンテンツに限定されます。
- テンプレートに沿った形式の入力が必要です。
- 学習領域以外の複雑な法律用語を処理できない可能性があります。
出力例
{
"case_information": {
"case_number": "حالة رقم ١٢٣٤",
"date_of_ruling": "٢٠٢٣/٠١/١٥",
"court": "المحكمة العليا",
"main_case_topic": "نزاع تجاري",
"parties_involved": "شركة أ ضد شركة ب"
},
"persons_involved": [
{
"name": "محمد أحمد",
"role": "المدعي"
}
],
"background_of_the_case": {
"overview": "نزاع تجاري حول عقد توريد..."
}
// Additional fields omitted for brevity
}
📄 ライセンス
このモデルのライセンスはllama3.2です。
お問い合わせ
このモデルに関する質問やフィードバックがある場合は、Hugging Faceのモデルリポジトリで問題を作成してください。
謝辞
このモデルの微調整には以下のツールが使用されています。
- 🤗 Transformers
- DeepSpeed
- PEFT(パラメータ効率的微調整)
- Weights & Biases(実験追跡用)
- モロッコ司法ポータル(法律事例のアクセス権を提供)
- Meta AI(ベースのLLaMAモデルを提供)
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98