🚀 DISC-LawLLM
このリポジトリには、DISC-LawLLMが含まれており、ベースモデルとしてBaichuan-13b-baseのバージョンを使用しています。これは、中国の法務分野に特化した大規模言語モデルで、総合的な知的法務サービスを提供するために開発・オープンソース化されています。
注意: プロジェクトが継続的に開発されているため、このリポジトリ内のモデルウェイトは、現在デプロイされているデモのものと異なる場合があります。
🚀 クイックスタート
DISC-LawLLMは、復旦大学データ知能と社会計算研究室 (Fudan-DISC)によって開発・オープンソース化された、中国の法務分野に特化した大規模言語モデルです。総合的な知的法務サービスを提供することを目的としています。
✨ 主な機能
- 法務テキストの汎用処理能力
- 法的思考と推論能力
- 法的知識検索能力
また、以下の貢献もあります。
- 高品質のSFTデータセットと効果的なトレーニングパラダイム
- 中国の法務LLM評価フレームワーク
詳細は、ホームページをご確認ください。
📦 DISC-Law-SFTデータセット
高品質の教師付き微調整データセットであるDISC-Law-SFTを構築しました。このデータセットには、DISC-Law-SFT-PairとDISC-Law-SFT-Tripletの2つのサブセットがあり、法務情報抽出、判決予測、文書要約、法務質問応答などのさまざまな法務タスクを網羅しています。
データセット |
タスク/ソース |
サイズ |
シナリオ |
DISC-LawLLM-SFT-Pair |
法務情報抽出 |
32K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
法務イベント検出 |
27K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
法務事件分類 |
20K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
法務判決予測 |
11K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
法務事件マッチング |
8K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
法務文書要約 |
9K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
司法世論要約 |
6K |
法務専門アシスタント |
DISC-LawLLM-SFT-Pair |
法務質問応答 |
93K |
法務相談サービス |
DISC-LawLLM-SFT-Pair |
法務読解 |
38K |
司法試験アシスタント |
DISC-LawLLM-SFT-Pair |
司法試験 |
12K |
司法試験アシスタント |
DISC-LawLLM-SFT-Triple |
法務判決予測 |
16K |
法務専門アシスタント |
DISC-LawLLM-SFT-Triple |
法務質問応答 |
23K |
法務相談サービス |
一般 |
Alpaca-GPT4 |
48K |
一般シナリオ |
一般 |
Firefly |
60K |
一般シナリオ |
合計 |
- |
403K |
- |
💻 使用例
基本的な使用法
>>>import torch
>>>>>>from transformers import AutoModelForCausalLM, AutoTokenizer
>>>from transformers.generation.utils import GenerationConfig
>>>tokenizer = AutoTokenizer.from_pretrained("ShengbinYue/DISC-LawLLM", use_fast=False, trust_remote_code=True)
>>>model = AutoModelForCausalLM.from_pretrained("ShengbinYue/DISC-LawLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>>model.generation_config = GenerationConfig.from_pretrained("ShengbinYue/DISC-LawLLM")
>>>messages = []
>>>messages.append({"role": "user", "content": "生产销售假冒伪劣商品罪如何判刑?"})
>>>response = model.chat(tokenizer, messages)
>>>print(response)
📚 免責事項
DISC-LawLLMには、現在の大規模言語モデルが克服していない問題や制限があります。多くのタスクやシナリオで中国の法務サービスを提供できますが、このモデルは参考目的のみで使用されるべきであり、専門の弁護士や法務専門家に取って代わることはできません。DISC-LawLLMのユーザーには、批判的に評価することをお勧めします。DISC-LawLLMの使用によって生じるいかなる問題、リスク、または悪影響についても、責任を負いません。
📚 引用
もし私たちの研究があなたに役立った場合、以下のように引用していただけると幸いです。
@misc{yue2023disclawllm,
title={DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services},
author={Shengbin Yue and Wei Chen and Siyuan Wang and Bingxuan Li and Chenchen Shen and Shujun Liu and Yuxuan Zhou and Yao Xiao and Song Yun and Wei Lin and Xuanjing Huang and Zhongyu Wei},
year={2023},
eprint={2309.11325},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{yue2024lawllm,
title={LawLLM: Intelligent Legal System with Legal Reasoning and Verifiable Retrieval},
author={Yue, Shengbin and Liu, Shujun and Zhou, Yuxuan and Shen, Chenchen and Wang, Siyuan and Xiao, Yao and Li, Bingxuan and Song, Yun and Shen, Xiaoyu and Chen, Wei and others},
booktitle={International Conference on Database Systems for Advanced Applications},
pages={304--321},
year={2024},
organization={Springer}
}
📄 ライセンス
このリポジトリ内のソースコードの使用は、Apache 2.0ライセンスに準拠しています。