🚀 RoBERTa大模型基于CUAD数据集微调的模型卡片
本模型是使用CUAD数据集对“RoBERTa大模型”进行微调后的版本。该模型可用于法律合同审查,为法律领域的自然语言处理任务提供了有力支持。
🚀 快速开始
使用以下代码开始使用该模型:
点击展开
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("akdeniz27/roberta-large-cuad")
model = AutoModelForQuestionAnswering.from_pretrained("akdeniz27/roberta-large-cuad")
✨ 主要特性
- 专业领域适配:基于法律合同审查数据集CUAD进行微调,更适合法律领域的自然语言处理任务。
- Transformer架构:利用Transformer模型的强大性能,在法律合同审查任务上有较好的表现。
📚 详细文档
模型详情
模型描述
合同理解Atticus数据集(CUAD),发音为“kwad”,是由Atticus项目策划的用于法律合同审查的数据集。
合同审查是一项“大海捞针”的任务。我们发现Transformer模型在CUAD上有初步的性能表现,但这种性能受到模型设计和训练数据集大小的强烈影响。尽管有一些有希望的结果,但仍有很大的改进空间。作为唯一由专家标注的大型专业NLP基准之一,CUAD可以作为更广泛的NLP社区的一个具有挑战性的研究基准。
- 开发者:TheAtticusProject
- 共享方(可选):HuggingFace
- 模型类型:语言模型
- 语言(NLP):英语
- 许可证:需要更多信息
- 相关模型:RoBERTA
- 更多信息资源:
用途
直接用途
法律合同审查
下游用途(可选)
需要更多信息
超出适用范围的用途
该模型不应被用于故意为人们创造敌对或排斥性的环境。
偏差、风险和局限性
大量研究已经探讨了语言模型的偏差和公平性问题(例如,参见Sheng等人(2021)和Bender等人(2021))。该模型生成的预测可能包含跨受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。
建议
用户(直接用户和下游用户)应该了解该模型的风险、偏差和局限性。进一步的建议需要更多信息。
训练详情
训练数据
更多详细信息请参阅cuad数据集卡片。
训练过程
需要更多信息
预处理
需要更多信息
速度、规模、时间
需要更多信息
评估
测试数据、因素和指标
测试数据
额外数据
研究人员可能对几GB的未标记合同预训练数据感兴趣,这些数据可在此处获取。
因素
需要更多信息
指标
需要更多信息
结果
我们为在CUAD上微调的三个最佳模型提供了检查点:RoBERTa-base(约1亿参数)、RoBERTa-large(约3亿参数)和DeBERTa-xlarge(约9亿参数)。
模型检查
需要更多信息
环境影响
可以使用Lacoste等人(2019)中提出的机器学习影响计算器来估算碳排放。
- 硬件类型:需要更多信息
- 使用时长:需要更多信息
- 云服务提供商:需要更多信息
- 计算区域:需要更多信息
- 碳排放:需要更多信息
技术规格(可选)
模型架构和目标
需要更多信息
计算基础设施
硬件
需要更多信息
软件
HuggingFace的Transformers库。该模型在Python 3.8、PyTorch 1.7和Transformers 4.3/4.4版本下进行了测试。
引用
BibTeX:
@article{hendrycks2021cuad,
title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review},
author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball},
journal={NeurIPS},
year={2021}
}
术语表(可选)
需要更多信息
更多信息(可选)
有关CUAD和法律合同审查的更多详细信息,请参阅Atticus项目网站。
模型卡片作者(可选)
TheAtticusProject
模型卡片联系方式
TheAtticusProject,与Ezi Ozoani和HuggingFace团队合作
信息表格
属性 |
详情 |
模型类型 |
语言模型 |
训练数据 |
更多详细信息请参阅cuad数据集卡片 |
开发者 |
TheAtticusProject |
共享方 |
HuggingFace |
语言 |
英语 |
许可证 |
需要更多信息 |
相关模型 |
RoBERTA |
父模型 |
RoBERTA大模型 |
更多信息资源 |
GitHub仓库;相关论文 |
直接用途 |
法律合同审查 |
下游用途 |
需要更多信息 |
超出适用范围的用途 |
该模型不应被用于故意为人们创造敌对或排斥性的环境 |
测试数据额外数据 |
研究人员可能对几GB的未标记合同预训练数据感兴趣,这些数据可在此处获取 |
结果 |
为在CUAD上微调的三个最佳模型提供了检查点:RoBERTa-base(约1亿参数)、RoBERTa-large(约3亿参数)和DeBERTa-xlarge(约9亿参数) |
环境影响计算方式 |
可以使用Lacoste等人(2019)中提出的机器学习影响计算器来估算碳排放 |
软件 |
HuggingFace的Transformers库。该模型在Python 3.8、PyTorch 1.7和Transformers 4.3/4.4版本下进行了测试 |
引用 |
@article{hendrycks2021cuad, title={CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review}, author={Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball}, journal={NeurIPS}, year={2021}} |
更多信息 |
有关CUAD和法律合同审查的更多详细信息,请参阅Atticus项目网站 |
模型卡片作者 |
TheAtticusProject |
模型卡片联系方式 |
TheAtticusProject,与Ezi Ozoani和HuggingFace团队合作 |