🚀 行业BERT金融模型v0.1
industry-bert-sec-v0.1是一系列行业微调的句子嵌入模型的一部分,该模型基于BERT架构,在金融和监管领域表现出色,能为相关领域的文本提供高质量的嵌入表示。
🚀 快速开始
使用以下代码加载模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("llmware/industry-bert-sec-v0.1")
model = AutoModel.from_pretrained("llmware/industry-bert-sec-v0.1")
✨ 主要特性
- 行业针对性强:针对金融和监管领域进行微调,能更好地处理该领域的文本。
- 高质量嵌入:基于BERT架构,提供768维的句子嵌入,可作为金融和监管领域嵌入的“即插即用”替代品。
- 数据丰富:在广泛的美国证券交易委员会(SEC)公开监管文件及相关文档上进行训练。
📦 安装指南
使用transformers
库加载模型,确保已安装该库:
pip install transformers
📚 详细文档
模型描述
industry-bert-sec-v0.1是一个基于BERT的768参数句子嵌入模型,经过领域微调,旨在作为金融和监管领域嵌入的“即插即用”替代品。该模型在广泛的美国证券交易委员会(SEC)公开监管文件及相关文档上进行训练。
- 开发者:llmware
- 模型类型:基于BERT的行业领域微调句子嵌入架构
- 语言:英语
- 许可证:Apache 2.0
- 微调基础模型:基于BERT的模型,微调方法如下所述。
模型使用
使用transformers
库加载模型和分词器:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("llmware/industry-bert-sec-v0.1")
model = AutoModel.from_pretrained("llmware/industry-bert-sec-v0.1")
偏差、风险和局限性
这是一个语义嵌入模型,在公共领域的SEC文件和监管文档上进行微调。如果在该领域之外使用,结果可能会有所不同,并且像任何嵌入模型一样,向量嵌入空间中始终存在异常的可能性。数据集中没有针对安全或减轻潜在偏差采取具体的保障措施。
训练过程
该模型使用自定义的自监督程序和自定义数据集进行微调,该数据集将对比技术与样本中的随机失真注入相结合。该方法主要源自、改编并受到以下三篇研究论文的启发:TSDAE(Reimers)、DeClutr(Giorgi)和Contrastive Tension(Carlsson)。
引用
用于训练模型的自定义自监督训练协议源自并受到以下论文的启发:
@article{wang-2021-TSDAE,
title = "TSDAE: Using Transformer-based Sequential Denoising Auto-Encoderfor Unsupervised Sentence Embedding Learning",
author = "Wang, Kexin and Reimers, Nils and Gurevych, Iryna",
journal= "arXiv preprint arXiv:2104.06979",
month = "4",
year = "2021",
url = "https://arxiv.org/abs/2104.06979",
}
@inproceedings{giorgi-etal-2021-declutr,
title = {{D}e{CLUTR}: Deep Contrastive Learning for Unsupervised Textual Representations},
author = {Giorgi, John and Nitski, Osvald and Wang, Bo and Bader, Gary},
year = 2021,
month = aug,
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)},
publisher = {Association for Computational Linguistics},
address = {Online},
pages = {879--895},
doi = {10.18653/v1/2021.acl-long.72},
url = {https://aclanthology.org/2021.acl-long.72}
}
@article{Carlsson-2021-CT,
title = {Semantic Re-tuning with Contrastive Tension},
author= {Fredrik Carlsson, Amaru Cuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren},
year= {2021},
month= {"January"}
Published: 12 Jan 2021, Last Modified: 05 May 2023
}
模型卡片联系人
Darren Oberst @ llmware
📄 许可证
本模型使用Apache 2.0许可证。