Setfit Contracts Clauses
這是一個基於SetFit框架的文本分類模型,專門用於合同條款分類任務,準確率達94.25%。
下載量 100
發布時間 : 5/11/2024
模型概述
該模型使用sentence-transformers/all-MiniLM-L6-v2作為句子嵌入模型,結合邏輯迴歸分類頭,通過高效的小樣本學習技術訓練而成,適用於法律合同條款的自動分類。
模型特點
高效小樣本學習
採用SetFit框架,通過對比學習和邏輯迴歸分類頭實現高效的小樣本學習
高準確率
在合同條款分類任務上達到94.25%的準確率
專業領域優化
專門針對法律合同條款文本進行優化
模型能力
合同條款分類
法律文本分析
小樣本學習
使用案例
法律科技
合同條款自動分類
自動識別和分類合同中的各類條款
準確率達94.25%
法律文檔分析
幫助法律專業人士快速分析合同文檔
🚀 使用sentence-transformers/all-MiniLM-L6-v2的SetFit模型
這是一個基於SetFit的模型,可用於文本分類任務。該SetFit模型使用sentence-transformers/all-MiniLM-L6-v2作為句子嵌入模型,並使用LogisticRegression進行分類。
✨ 主要特性
- 採用高效的少樣本學習技術,包括對句子嵌入模型進行對比學習微調,以及使用微調後的特徵訓練分類頭。
- 在文本分類任務上取得了較高的準確率。
📦 安裝指南
首先安裝SetFit庫:
pip install setfit
💻 使用示例
基礎用法
from setfit import SetFitModel
# 從🤗 Hub下載模型
model = SetFitModel.from_pretrained("scholarly360/setfit-contracts-clauses")
# 進行推理
preds = model("In the event of a Change in Control, the Eligible Employee shall immediately be fully vested in his or her benefit under the Plan.")
📚 詳細文檔
模型詳情
模型描述
屬性 | 詳情 |
---|---|
模型類型 | SetFit |
句子嵌入模型 | sentence-transformers/all-MiniLM-L6-v2 |
分類頭 | LogisticRegression實例 |
最大序列長度 | 256個標記 |
類別數量 | 100個類別 |
模型來源
- 倉庫:GitHub上的SetFit
- 論文:Efficient Few-Shot Learning Without Prompts
- 博客文章:SetFit: Efficient Few-Shot Learning Without Prompts
模型標籤
標籤 | 示例 |
---|---|
governing laws |
|
counterparts |
|
... | ... |
評估
指標
標籤 | 準確率 |
---|---|
all | 0.9425 |
訓練詳情
訓練集指標
訓練集 | 最小值 | 中位數 | 最大值 |
---|---|---|---|
單詞計數 | 8 | 48.2975 | 87 |
標籤 | 訓練樣本數量 |
---|---|
governing laws | 4 |
counterparts | 4 |
... | ... |
訓練超參數
- batch_size: (16, 16)
- num_epochs: (2, 2)
- max_steps: -1
- sampling_strategy: oversampling
- body_learning_rate: (2e-05, 1e-05)
- head_learning_rate: 0.01
- loss: CosineSimilarityLoss
- distance_metric: cosine_distance
- margin: 0.25
- end_to_end: False
- use_amp: False
- warmup_proportion: 0.1
- seed: 42
- eval_max_steps: -1
- load_best_model_at_end: True
訓練結果
輪次 | 步數 | 訓練損失 | 驗證損失 |
---|---|---|---|
0.0001 | 1 | 0.1159 | - |
0.0051 | 50 | 0.1675 | - |
... | ... | ... | ... |
框架版本
- Python: 3.10.12
- SetFit: 1.0.3
- Sentence Transformers: 2.7.0
- Transformers: 4.40.2
- PyTorch: 2.2.1+cu121
- Datasets: 2.19.1
- Tokenizers: 0.19.1
📄 許可證
BibTeX引用
@article{https://doi.org/10.48550/arxiv.2209.11055,
doi = {10.48550/ARXIV.2209.11055},
url = {https://arxiv.org/abs/2209.11055},
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Efficient Few-Shot Learning Without Prompts},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98