🚀 行業BERT金融模型v0.1
industry-bert-sec-v0.1是一系列行業微調的句子嵌入模型的一部分,該模型基於BERT架構,在金融和監管領域表現出色,能為相關領域的文本提供高質量的嵌入表示。
🚀 快速開始
使用以下代碼加載模型:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("llmware/industry-bert-sec-v0.1")
model = AutoModel.from_pretrained("llmware/industry-bert-sec-v0.1")
✨ 主要特性
- 行業針對性強:針對金融和監管領域進行微調,能更好地處理該領域的文本。
- 高質量嵌入:基於BERT架構,提供768維的句子嵌入,可作為金融和監管領域嵌入的“即插即用”替代品。
- 數據豐富:在廣泛的美國證券交易委員會(SEC)公開監管文件及相關文檔上進行訓練。
📦 安裝指南
使用transformers
庫加載模型,確保已安裝該庫:
pip install transformers
📚 詳細文檔
模型描述
industry-bert-sec-v0.1是一個基於BERT的768參數句子嵌入模型,經過領域微調,旨在作為金融和監管領域嵌入的“即插即用”替代品。該模型在廣泛的美國證券交易委員會(SEC)公開監管文件及相關文檔上進行訓練。
- 開發者:llmware
- 模型類型:基於BERT的行業領域微調句子嵌入架構
- 語言:英語
- 許可證:Apache 2.0
- 微調基礎模型:基於BERT的模型,微調方法如下所述。
模型使用
使用transformers
庫加載模型和分詞器:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("llmware/industry-bert-sec-v0.1")
model = AutoModel.from_pretrained("llmware/industry-bert-sec-v0.1")
偏差、風險和侷限性
這是一個語義嵌入模型,在公共領域的SEC文件和監管文檔上進行微調。如果在該領域之外使用,結果可能會有所不同,並且像任何嵌入模型一樣,向量嵌入空間中始終存在異常的可能性。數據集中沒有針對安全或減輕潛在偏差採取具體的保障措施。
訓練過程
該模型使用自定義的自監督程序和自定義數據集進行微調,該數據集將對比技術與樣本中的隨機失真注入相結合。該方法主要源自、改編並受到以下三篇研究論文的啟發:TSDAE(Reimers)、DeClutr(Giorgi)和Contrastive Tension(Carlsson)。
引用
用於訓練模型的自定義自監督訓練協議源自並受到以下論文的啟發:
@article{wang-2021-TSDAE,
title = "TSDAE: Using Transformer-based Sequential Denoising Auto-Encoderfor Unsupervised Sentence Embedding Learning",
author = "Wang, Kexin and Reimers, Nils and Gurevych, Iryna",
journal= "arXiv preprint arXiv:2104.06979",
month = "4",
year = "2021",
url = "https://arxiv.org/abs/2104.06979",
}
@inproceedings{giorgi-etal-2021-declutr,
title = {{D}e{CLUTR}: Deep Contrastive Learning for Unsupervised Textual Representations},
author = {Giorgi, John and Nitski, Osvald and Wang, Bo and Bader, Gary},
year = 2021,
month = aug,
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)},
publisher = {Association for Computational Linguistics},
address = {Online},
pages = {879--895},
doi = {10.18653/v1/2021.acl-long.72},
url = {https://aclanthology.org/2021.acl-long.72}
}
@article{Carlsson-2021-CT,
title = {Semantic Re-tuning with Contrastive Tension},
author= {Fredrik Carlsson, Amaru Cuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren},
year= {2021},
month= {"January"}
Published: 12 Jan 2021, Last Modified: 05 May 2023
}
模型卡片聯繫人
Darren Oberst @ llmware
📄 許可證
本模型使用Apache 2.0許可證。