🚀 RoBERTa大模型基於CUAD數據集微調的模型卡片
本模型是使用CUAD數據集對“RoBERTa大模型”進行微調後的版本。該模型可用於法律合同審查,為法律領域的自然語言處理任務提供了有力支持。
🚀 快速開始
使用以下代碼開始使用該模型:
點擊展開
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("akdeniz27/roberta-large-cuad")
model = AutoModelForQuestionAnswering.from_pretrained("akdeniz27/roberta-large-cuad")
✨ 主要特性
- 專業領域適配:基於法律合同審查數據集CUAD進行微調,更適合法律領域的自然語言處理任務。
- Transformer架構:利用Transformer模型的強大性能,在法律合同審查任務上有較好的表現。
📚 詳細文檔
模型詳情
模型描述
合同理解Atticus數據集(CUAD),發音為“kwad”,是由Atticus項目策劃的用於法律合同審查的數據集。
合同審查是一項“大海撈針”的任務。我們發現Transformer模型在CUAD上有初步的性能表現,但這種性能受到模型設計和訓練數據集大小的強烈影響。儘管有一些有希望的結果,但仍有很大的改進空間。作為唯一由專家標註的大型專業NLP基準之一,CUAD可以作為更廣泛的NLP社區的一個具有挑戰性的研究基準。
- 開發者:TheAtticusProject
- 共享方(可選):HuggingFace
- 模型類型:語言模型
- 語言(NLP):英語
- 許可證:需要更多信息
- 相關模型:RoBERTA
- 更多信息資源:
用途
直接用途
法律合同審查
下游用途(可選)
需要更多信息
超出適用範圍的用途
該模型不應被用於故意為人們創造敵對或排斥性的環境。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見Sheng等人(2021)和Bender等人(2021))。該模型生成的預測可能包含跨受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
用戶(直接用戶和下游用戶)應該瞭解該模型的風險、偏差和侷限性。進一步的建議需要更多信息。
訓練詳情
訓練數據
更多詳細信息請參閱cuad數據集卡片。
訓練過程
需要更多信息
預處理
需要更多信息
速度、規模、時間
需要更多信息
評估
測試數據、因素和指標
測試數據
額外數據
研究人員可能對幾GB的未標記合同預訓練數據感興趣,這些數據可在此處獲取。
因素
需要更多信息
指標
需要更多信息
結果
我們為在CUAD上微調的三個最佳模型提供了檢查點:RoBERTa-base(約1億參數)、RoBERTa-large(約3億參數)和DeBERTa-xlarge(約9億參數)。
模型檢查
需要更多信息
環境影響
可以使用Lacoste等人(2019)中提出的機器學習影響計算器來估算碳排放。
- 硬件類型:需要更多信息
- 使用時長:需要更多信息
- 雲服務提供商:需要更多信息
- 計算區域:需要更多信息
- 碳排放:需要更多信息
技術規格(可選)
模型架構和目標
需要更多信息
計算基礎設施
硬件
需要更多信息
軟件
HuggingFace的Transformers庫。該模型在Python 3.8、PyTorch 1.7和Transformers 4.3/4.4版本下進行了測試。
引用
BibTeX:
@article{hendrycks2021cuad,
title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review},
author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball},
journal={NeurIPS},
year={2021}
}
術語表(可選)
需要更多信息
更多信息(可選)
有關CUAD和法律合同審查的更多詳細信息,請參閱Atticus項目網站。
模型卡片作者(可選)
TheAtticusProject
模型卡片聯繫方式
TheAtticusProject,與Ezi Ozoani和HuggingFace團隊合作
信息表格
屬性 |
詳情 |
模型類型 |
語言模型 |
訓練數據 |
更多詳細信息請參閱cuad數據集卡片 |
開發者 |
TheAtticusProject |
共享方 |
HuggingFace |
語言 |
英語 |
許可證 |
需要更多信息 |
相關模型 |
RoBERTA |
父模型 |
RoBERTA大模型 |
更多信息資源 |
GitHub倉庫;相關論文 |
直接用途 |
法律合同審查 |
下游用途 |
需要更多信息 |
超出適用範圍的用途 |
該模型不應被用於故意為人們創造敵對或排斥性的環境 |
測試數據額外數據 |
研究人員可能對幾GB的未標記合同預訓練數據感興趣,這些數據可在此處獲取 |
結果 |
為在CUAD上微調的三個最佳模型提供了檢查點:RoBERTa-base(約1億參數)、RoBERTa-large(約3億參數)和DeBERTa-xlarge(約9億參數) |
環境影響計算方式 |
可以使用Lacoste等人(2019)中提出的機器學習影響計算器來估算碳排放 |
軟件 |
HuggingFace的Transformers庫。該模型在Python 3.8、PyTorch 1.7和Transformers 4.3/4.4版本下進行了測試 |
引用 |
@article{hendrycks2021cuad, title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review}, author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball}, journal={NeurIPS}, year={2021}} |
更多信息 |
有關CUAD和法律合同審查的更多詳細信息,請參閱Atticus項目網站 |
模型卡片作者 |
TheAtticusProject |
模型卡片聯繫方式 |
TheAtticusProject,與Ezi Ozoani和HuggingFace團隊合作 |