🚀 DISC-LawLLM
DISC-LawLLM 是由復旦大學數據智能與社會計算實驗室(Fudan-DISC)開發並開源的大型語言模型,以百川 13B 基座模型為基礎,專注於中文法律領域,旨在提供全面的智能法律服務。
⚠️ 重要提示
由於項目仍在持續開發中,此倉庫中的模型權重可能與我們當前部署的演示版本有所不同。
🚀 快速開始
本倉庫包含 DISC-LawLLM,它以 Baichuan-13b-base 為基座模型。下面為你展示如何通過 Hugging Face Transformers 使用該模型:
>>>import torch
>>>>>>from transformers import AutoModelForCausalLM, AutoTokenizer
>>>from transformers.generation.utils import GenerationConfig
>>>tokenizer = AutoTokenizer.from_pretrained("ShengbinYue/DISC-LawLLM", use_fast=False, trust_remote_code=True)
>>>model = AutoModelForCausalLM.from_pretrained("ShengbinYue/DISC-LawLLM", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)
>>>model.generation_config = GenerationConfig.from_pretrained("ShengbinYue/DISC-LawLLM")
>>>messages = []
>>>messages.append({"role": "user", "content": "生產銷售假冒偽劣商品罪如何判刑?"})
>>>response = model.chat(tokenizer, messages)
>>>print(response)
✨ 主要特性
DISC-LawLLM 的優勢顯著,具備以下能力:
- 法律文本通用處理能力
- 法律思維與推理能力
- 法律知識檢索能力
此外,該項目的貢獻還包括:
- 高質量的 SFT 數據集和有效的訓練範式
- 中文法律大語言模型評估框架
更多信息請查看 HOME。
📦 DISC-Law-SFT 數據集
我們構建了一個高質量的監督微調數據集 DISC-Law-SFT,它包含兩個子集,分別是 DISC-Law-SFT-Pair 和 DISC-Law-SFT-Triplet。該數據集涵蓋了一系列法律任務,如法律信息提取、判決預測、文檔摘要和法律問答等,確保能覆蓋多樣化的場景。
數據集 |
任務/來源 |
規模 |
場景 |
DISC-LawLLM-SFT-Pair |
法律信息提取 |
32K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
法律事件檢測 |
27K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
法律案例分類 |
20K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
法律判決預測 |
11K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
法律案例匹配 |
8K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
法律文本摘要 |
9K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
司法輿情摘要 |
6K |
法律專業助理 |
DISC-LawLLM-SFT-Pair |
法律問答 |
93K |
法律諮詢服務 |
DISC-LawLLM-SFT-Pair |
法律閱讀理解 |
38K |
司法考試助理 |
DISC-LawLLM-SFT-Pair |
司法考試 |
12K |
司法考試助理 |
DISC-LawLLM-SFT-Triple |
法律判決預測 |
16K |
法律專業助理 |
DISC-LawLLM-SFT-Triple |
法律問答 |
23K |
法律諮詢服務 |
通用 |
Alpaca-GPT4 |
48K |
通用場景 |
通用 |
Firefly |
60K |
通用場景 |
總計 |
- |
403K |
- |
📄 免責聲明
DISC-LawLLM 存在當前大語言模型尚未克服的問題和侷限性。儘管它能在多種法律任務和場景中提供中文法律服務,但該模型僅供參考,不能替代專業律師和法律專家的意見。我們鼓勵用戶對 DISC-LawLLM 進行批判性評估。對於使用 DISC-LawLLM 可能產生的任何問題、風險或不良後果,我們不承擔責任。
📖 引用
如果我們的工作對你有幫助,請按以下方式引用:
@misc{yue2023disclawllm,
title={DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services},
author={Shengbin Yue and Wei Chen and Siyuan Wang and Bingxuan Li and Chenchen Shen and Shujun Liu and Yuxuan Zhou and Yao Xiao and Song Yun and Wei Lin and Xuanjing Huang and Zhongyu Wei},
year={2023},
eprint={2309.11325},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{yue2024lawllm,
title={LawLLM: Intelligent Legal System with Legal Reasoning and Verifiable Retrieval},
author={Yue, Shengbin and Liu, Shujun and Zhou, Yuxuan and Shen, Chenchen and Wang, Siyuan and Xiao, Yao and Li, Bingxuan and Song, Yun and Shen, Xiaoyu and Chen, Wei and others},
booktitle={International Conference on Database Systems for Advanced Applications},
pages={304--321},
year={2024},
organization={Springer}
}
📄 許可證
本倉庫中的源代碼使用遵循 Apache 2.0 許可證。