DISC-LawLLMオープンソース法律大規模言語モデル - 無料で知的法律サービスを提供し、権利擁護を支援

Home

DISC LawLLM

Developed by ShengbinYue

復旦大学データインテリジェンス＆社会計算研究所が開発した中国語法律分野の大規模言語モデルで、知的法務サービスを提供

大規模言語モデル

Transformers

ChineseOpen Source License:Apache-2.0 #法律大規模言語モデル #司法推論 #法律質問応答

Downloads 253

Release Time : 9/21/2023

Model Overview

DISC-LawLLMはBaichuan-13B-baseをファインチューニングした中国語法律大規模モデルで、法律文書処理、法律推論、知識検索能力を備えている

Model Features

法律文書汎用処理能力

文書や法規など様々な法律文書を処理可能

法律思考と推論能力

法律論理的推論能力を備え、事件分析が可能

法律知識検索能力

関連法律知識を検索・提供可能

高品質トレーニングデータ

DISC-Law-SFTデータセットを使用、40万件以上の法律関連データを含む

Model Capabilities

法律情報抽出

法律事件検出

事件分類

司法判決予測

事例マッチング

法律文書要約

法律質問応答

法律読解

Use Cases

法律専門アシスタント

法律文書処理

法律文書の自動処理と分析

判決予測

事件の可能性ある判決結果を予測

法律相談サービス

法律質問応答

ユーザーの法律関連質問に回答

司法試験補助

司法試験問題解答

司法試験関連問題の解答を支援

🚀 DISC-LawLLM

このリポジトリには、DISC-LawLLMが含まれており、ベースモデルとしてBaichuan-13b-baseのバージョンを使用しています。これは、中国の法務分野に特化した大規模言語モデルで、総合的な知的法務サービスを提供するために開発・オープンソース化されています。

デモ | 技術報告

注意: プロジェクトが継続的に開発されているため、このリポジトリ内のモデルウェイトは、現在デプロイされているデモのものと異なる場合があります。

🚀 クイックスタート

DISC-LawLLMは、復旦大学データ知能と社会計算研究室 (Fudan-DISC)によって開発・オープンソース化された、中国の法務分野に特化した大規模言語モデルです。総合的な知的法務サービスを提供することを目的としています。

✨ 主な機能

法務テキストの汎用処理能力
法的思考と推論能力
法的知識検索能力

また、以下の貢献もあります。

高品質のSFTデータセットと効果的なトレーニングパラダイム
中国の法務LLM評価フレームワーク

詳細は、ホームページをご確認ください。

📦 DISC-Law-SFTデータセット

高品質の教師付き微調整データセットであるDISC-Law-SFTを構築しました。このデータセットには、DISC-Law-SFT-PairとDISC-Law-SFT-Tripletの2つのサブセットがあり、法務情報抽出、判決予測、文書要約、法務質問応答などのさまざまな法務タスクを網羅しています。

データセット	タスク/ソース	サイズ	シナリオ
DISC-LawLLM-SFT-Pair	法務情報抽出	32K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	法務イベント検出	27K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	法務事件分類	20K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	法務判決予測	11K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	法務事件マッチング	8K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	法務文書要約	9K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	司法世論要約	6K	法務専門アシスタント
DISC-LawLLM-SFT-Pair	法務質問応答	93K	法務相談サービス
DISC-LawLLM-SFT-Pair	法務読解	38K	司法試験アシスタント
DISC-LawLLM-SFT-Pair	司法試験	12K	司法試験アシスタント
DISC-LawLLM-SFT-Triple	法務判決予測	16K	法務専門アシスタント
DISC-LawLLM-SFT-Triple	法務質問応答	23K	法務相談サービス
一般	Alpaca-GPT4	48K	一般シナリオ
一般	Firefly	60K	一般シナリオ
合計	-	403K	-

💻 使用例

基本的な使用法

>>>import torch
>>>>>>from transformers import AutoModelForCausalLM, AutoTokenizer
>>>from transformers.generation.utils import GenerationConfig
>>>tokenizer = AutoTokenizer.from_pretrained("ShengbinYue/DISC-LawLLM", use_fast=False, trust_remote_code=True)
>>>model = AutoModelForCausalLM.from_pretrained("ShengbinYue/DISC-LawLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>>model.generation_config = GenerationConfig.from_pretrained("ShengbinYue/DISC-LawLLM")
>>>messages = []
>>>messages.append({"role": "user", "content": "生产销售假冒伪劣商品罪如何判刑？"})
>>>response = model.chat(tokenizer, messages)
>>>print(response)

📚 免責事項

DISC-LawLLMには、現在の大規模言語モデルが克服していない問題や制限があります。多くのタスクやシナリオで中国の法務サービスを提供できますが、このモデルは参考目的のみで使用されるべきであり、専門の弁護士や法務専門家に取って代わることはできません。DISC-LawLLMのユーザーには、批判的に評価することをお勧めします。DISC-LawLLMの使用によって生じるいかなる問題、リスク、または悪影響についても、責任を負いません。

📚 引用

もし私たちの研究があなたに役立った場合、以下のように引用していただけると幸いです。

@misc{yue2023disclawllm,
    title={DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services}, 
    author={Shengbin Yue and Wei Chen and Siyuan Wang and Bingxuan Li and Chenchen Shen and Shujun Liu and Yuxuan Zhou and Yao Xiao and Song Yun and Wei Lin and Xuanjing Huang and Zhongyu Wei},
    year={2023},
    eprint={2309.11325},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

@inproceedings{yue2024lawllm,
  title={LawLLM: Intelligent Legal System with Legal Reasoning and Verifiable Retrieval},
  author={Yue, Shengbin and Liu, Shujun and Zhou, Yuxuan and Shen, Chenchen and Wang, Siyuan and Xiao, Yao and Li, Bingxuan and Song, Yun and Shen, Xiaoyu and Chen, Wei and others},
  booktitle={International Conference on Database Systems for Advanced Applications},
  pages={304--321},
  year={2024},
  organization={Springer}
}