🚀 智海 - 錄問
智海 - 錄問(wisdomInterrogatory)是一款法律大模型,由浙江大學、阿里巴巴達摩院以及華院計算三家單位聯合設計研發。該模型旨在“普法共享和司法效能提升”,為法律智能化體系融入司法實踐、數字化案例建設、虛擬法律諮詢服務賦能等方面提供支持,構建數字化和智能化的司法基座。
🚀 快速開始
智海 - 錄問是專為法律領域打造的大模型。下面將為你介紹其訓練過程以及推理代碼的使用方法。
✨ 主要特性
- 跨單位合作研發:由浙江大學、阿里巴巴達摩院以及華院計算三家單位共同設計研發。
- 目標明確:以“普法共享和司法效能提升”為目標,提供多方面支持,形成司法基座能力。
- 分階段訓練:基於[Baichuan - 7B](https://github.com/baichuan - inc/baichuan - 7B)進行二次預訓練和指令微調訓練。
📦 安裝指南
推理環境安裝
transformers>=4.27.1
accelerate>=0.20.1
torch>=2.0.1
modelscope>=1.8.3
sentencepiece==0.1.99
💻 使用示例
基礎用法
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
from modelscope import AutoModelForCausalLM, AutoTokenizer, snapshot_download
import torch
model_id = "wisdomOcean/wisdomInterrogatory"
revision = 'v1.0.0'
model_dir = snapshot_download(model_id, revision)
def generate_response(prompt: str) -> str:
inputs = tokenizer(f'</s>Human:{prompt} </s>Assistant: ', return_tensors='pt')
inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=800,
repetition_penalty=1.2)
response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=True)
return response.split("Assistant: ")[1]
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_dir, device_map="auto",
torch_dtype=torch.float16,
trust_remote_code=True)
prompt = "如果喝了兩斤白酒後開車,會有什麼後果?"
resp = generate_response(prompt)
print(resp)
📚 詳細文檔
模型訓練
二次預訓練
我們的模型基座採用[Baichuan - 7B](https://github.com/baichuan - inc/baichuan - 7B),二次預訓練的目的是為通用大模型注入法律領域的知識。預訓練的數據涵蓋法律文書、司法案例以及法律問答數據,總量達40G。
指令微調訓練
在完成二次預訓練後,進入指令微調階段。我們使用了100k的指令微調訓練,旨在讓大模型具備問答能力,能夠直接與用戶進行交流。
📄 許可證
本模型的許可證為其他(other)。
⚠️ 免責聲明
本模型僅供學術研究之目的而提供,不保證結果的準確性、完整性或適用性。在使用模型生成的內容時,您應自行判斷其適用性,並自擔風險。