🚀 industry-bert-sec-v0.1
industry-bert-sec-v0.1は、業界向けに微調整された系列の文埋め込みモデルの一部です。このモデルは、金融や規制分野における埋め込み表現に使用でき、特定の分野に特化した高精度な表現を提供します。
🚀 クイックスタート
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("llmware/industry-bert-sec-v0.1")
model = AutoModel.from_pretrained("llmware/industry-bert-sec-v0.1")
✨ 主な機能
industry-bert-sec-v0.1は、BERTベースの768パラメータの文埋め込みモデルで、金融および規制分野の埋め込み表現に「そのまま使用可能」な代替手段として設計されています。このモデルは、米国証券取引委員会(SEC)の公開されている幅広い規制ファイリングや関連文書を使用して学習されています。
属性 |
详情 |
モデルタイプ |
BERTベースの業界向け微調整済み文埋め込みモデルアーキテクチャ |
開発者 |
llmware |
言語 |
英語 |
ライセンス |
Apache 2.0 |
微調整元モデル |
BERTベースのモデル、微調整方法は以下に説明 |
🔧 技術詳細
トレーニング手順
このモデルは、独自の自己教師付き学習手順と独自のデータセットを使用して微調整されました。この手順では、コントラスト学習手法とサンプルに対する歪みの確率的注入を組み合わせています。この方法論は、主に以下の3つの研究論文から派生、適応、および着想を得ています。
- TSDAE (Reimers)
- DeClutr (Giorgi)
- Contrastive Tension (Carlsson)
バイアス、リスク、制限事項
このモデルは、公共のSECファイリングと規制文書を使用して微調整された意味的な埋め込みモデルです。この分野以外で使用すると結果が異なる可能性があり、他の埋め込みモデルと同様に、ベクトル埋め込み空間に異常が生じる可能性が常にあります。データセットの安全性や潜在的なバイアスを軽減するための特別な対策は講じられていません。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。
引用
モデルの学習に使用された独自の自己教師付き学習プロトコルは、以下の論文から派生および着想を得ています。
@article{wang-2021-TSDAE,
title = "TSDAE: Using Transformer-based Sequential Denoising Auto-Encoderfor Unsupervised Sentence Embedding Learning",
author = "Wang, Kexin and Reimers, Nils and Gurevych, Iryna",
journal= "arXiv preprint arXiv:2104.06979",
month = "4",
year = "2021",
url = "https://arxiv.org/abs/2104.06979",
}
@inproceedings{giorgi-etal-2021-declutr,
title = {{D}e{CLUTR}: Deep Contrastive Learning for Unsupervised Textual Representations},
author = {Giorgi, John and Nitski, Osvald and Wang, Bo and Bader, Gary},
year = 2021,
month = aug,
booktitle = {Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)},
publisher = {Association for Computational Linguistics},
address = {Online},
pages = {879--895},
doi = {10.18653/v1/2021.acl-long.72},
url = {https://aclanthology.org/2021.acl-long.72}
}
@article{Carlsson-2021-CT,
title = {Semantic Re-tuning with Contrastive Tension},
author= {Fredrik Carlsson, Amaru Cuba Gyllensten, Evangelia Gogoulou, Erik Ylipää Hellqvist, Magnus Sahlgren},
year= {2021},
month= {"January"}
Published: 12 Jan 2021, Last Modified: 05 May 2023
}
モデルカードの問い合わせ先
Darren Oberst @ llmware