Setfit Contracts Clauses
这是一个基于SetFit框架的文本分类模型,专门用于合同条款分类任务,准确率达94.25%。
下载量 100
发布时间 : 5/11/2024
模型简介
该模型使用sentence-transformers/all-MiniLM-L6-v2作为句子嵌入模型,结合逻辑回归分类头,通过高效的小样本学习技术训练而成,适用于法律合同条款的自动分类。
模型特点
高效小样本学习
采用SetFit框架,通过对比学习和逻辑回归分类头实现高效的小样本学习
高准确率
在合同条款分类任务上达到94.25%的准确率
专业领域优化
专门针对法律合同条款文本进行优化
模型能力
合同条款分类
法律文本分析
小样本学习
使用案例
法律科技
合同条款自动分类
自动识别和分类合同中的各类条款
准确率达94.25%
法律文档分析
帮助法律专业人士快速分析合同文档
🚀 使用sentence-transformers/all-MiniLM-L6-v2的SetFit模型
这是一个基于SetFit的模型,可用于文本分类任务。该SetFit模型使用sentence-transformers/all-MiniLM-L6-v2作为句子嵌入模型,并使用LogisticRegression进行分类。
✨ 主要特性
- 采用高效的少样本学习技术,包括对句子嵌入模型进行对比学习微调,以及使用微调后的特征训练分类头。
- 在文本分类任务上取得了较高的准确率。
📦 安装指南
首先安装SetFit库:
pip install setfit
💻 使用示例
基础用法
from setfit import SetFitModel
# 从🤗 Hub下载模型
model = SetFitModel.from_pretrained("scholarly360/setfit-contracts-clauses")
# 进行推理
preds = model("In the event of a Change in Control, the Eligible Employee shall immediately be fully vested in his or her benefit under the Plan.")
📚 详细文档
模型详情
模型描述
属性 | 详情 |
---|---|
模型类型 | SetFit |
句子嵌入模型 | sentence-transformers/all-MiniLM-L6-v2 |
分类头 | LogisticRegression实例 |
最大序列长度 | 256个标记 |
类别数量 | 100个类别 |
模型来源
- 仓库:GitHub上的SetFit
- 论文:Efficient Few-Shot Learning Without Prompts
- 博客文章:SetFit: Efficient Few-Shot Learning Without Prompts
模型标签
标签 | 示例 |
---|---|
governing laws |
|
counterparts |
|
... | ... |
评估
指标
标签 | 准确率 |
---|---|
all | 0.9425 |
训练详情
训练集指标
训练集 | 最小值 | 中位数 | 最大值 |
---|---|---|---|
单词计数 | 8 | 48.2975 | 87 |
标签 | 训练样本数量 |
---|---|
governing laws | 4 |
counterparts | 4 |
... | ... |
训练超参数
- batch_size: (16, 16)
- num_epochs: (2, 2)
- max_steps: -1
- sampling_strategy: oversampling
- body_learning_rate: (2e-05, 1e-05)
- head_learning_rate: 0.01
- loss: CosineSimilarityLoss
- distance_metric: cosine_distance
- margin: 0.25
- end_to_end: False
- use_amp: False
- warmup_proportion: 0.1
- seed: 42
- eval_max_steps: -1
- load_best_model_at_end: True
训练结果
轮次 | 步数 | 训练损失 | 验证损失 |
---|---|---|---|
0.0001 | 1 | 0.1159 | - |
0.0051 | 50 | 0.1675 | - |
... | ... | ... | ... |
框架版本
- Python: 3.10.12
- SetFit: 1.0.3
- Sentence Transformers: 2.7.0
- Transformers: 4.40.2
- PyTorch: 2.2.1+cu121
- Datasets: 2.19.1
- Tokenizers: 0.19.1
📄 许可证
BibTeX引用
@article{https://doi.org/10.48550/arxiv.2209.11055,
doi = {10.48550/ARXIV.2209.11055},
url = {https://arxiv.org/abs/2209.11055},
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Efficient Few-Shot Learning Without Prompts},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98