🚀 SEC-BERT
SEC-BERTは、金融ドメイン向けのBERTモデルファミリーです。金融分野の自然言語処理(NLP)研究やフィンテックアプリケーションの支援を目的としています。
🚀 クイックスタート
SEC-BERTは、金融ドメイン向けのBERTモデルファミリーで、金融NLP研究やフィンテックアプリケーションを支援することを目的としています。SEC-BERTには以下のモデルが含まれています。
- SEC-BERT-BASE (このモデル): 金融文書で学習されたBERT-BASEと同じアーキテクチャ。
- SEC-BERT-NUM: SEC-BERT-BASEと同じですが、すべての数値トークンを[NUM]疑似トークンに置き換えることで、すべての数値表現を統一的に扱い、それらの断片化を防ぎます。
- SEC-BERT-SHAPE: SEC-BERT-BASEと同じですが、数値をその形状を表す疑似トークンに置き換えるため、(既知の形状の)数値表現が断片化されなくなります。例えば、'53.2' は '[XX.X]' に、'40,200.5' は '[XX,XXX.X]' になります。
✨ 主な機能
SEC-BERTは金融ドメイン向けに特化したBERTモデルで、金融文書に対する理解や解析能力が高いです。異なるバリエーション(SEC-BERT-BASE、SEC-BERT-NUM、SEC-BERT-SHAPE)があり、数値表現の扱い方を変えることで、様々な金融NLPタスクに対応できます。
📚 ドキュメント
事前学習コーパス
このモデルは、1993年から2019年までの260,773件の10-Kファイリングを使って事前学習されました。これらのファイリングは、米国証券取引委員会(SEC)から公開されています。
事前学習の詳細
- 事前学習コーパス上でBertWordPieceTokenizerを最初から学習させることで、30kのサブワードからなる新しい語彙を作成しました。
- Google BERTのGitHubリポジトリに提供されている公式コードを使ってBERTを学習させました。
- その後、Hugging FaceのTransformersの変換スクリプトを使って、TFチェックポイントを目的の形式に変換し、PyTorchとTF2のユーザーが2行のコードでモデルをロードできるようにしました。
- 英語のBERT-BASEモデル(12層、768隠れ層、12ヘッド、1億1000万パラメータ)と同様のモデルを公開します。
- 同じ学習設定を選択しました。すなわち、バッチサイズ256、シーケンス長512のデータで100万ステップの学習を行い、初期学習率は1e-4としました。
- [TensorFlow Research Cloud (TRC)]((https://sites.research.google/trc)から無料で提供された単一のGoogle Cloud TPU v3-8を使用することができ、またGCP research creditsも活用しました。これらのGoogleのプログラムに大きな感謝を申し上げます。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-base")
model = AutoModel.from_pretrained("nlpaueb/sec-bert-base")
モデルの予測結果
サンプル1
サンプル |
マスクトークン |
Total net sales [MASK] 2% or $5.4 billion during 2019 compared to 2018. |
decreased |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
increased (0.221), were (0.131), are (0.103), rose (0.075), of (0.058) |
SEC-BERT-BASE |
increased (0.678), decreased (0.282), declined (0.017), grew (0.016), rose (0.004) |
SEC-BERT-NUM |
increased (0.753), decreased (0.211), grew (0.019), declined (0.010), rose (0.006) |
SEC-BERT-SHAPE |
increased (0.747), decreased (0.214), grew (0.021), declined (0.013), rose (0.002) |
サンプル2
サンプル |
マスクトークン |
Total net sales decreased 2% or $5.4 [MASK] during 2019 compared to 2018. |
billion |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
billion (0.841), million (0.097), trillion (0.028), ##m (0.015), ##bn (0.006) |
SEC-BERT-BASE |
million (0.972), billion (0.028), millions (0.000), ##million (0.000), m (0.000) |
SEC-BERT-NUM |
million (0.974), billion (0.012), , (0.010), thousand (0.003), m (0.000) |
SEC-BERT-SHAPE |
million (0.978), billion (0.021), % (0.000), , (0.000), millions (0.000) |
サンプル3
サンプル |
マスクトークン |
Total net sales decreased [MASK]% or $5.4 billion during 2019 compared to 2018. |
2 |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
20 (0.031), 10 (0.030), 6 (0.029), 4 (0.027), 30 (0.027) |
SEC-BERT-BASE |
13 (0.045), 12 (0.040), 11 (0.040), 14 (0.035), 10 (0.035) |
SEC-BERT-NUM |
[NUM] (1.000), one (0.000), five (0.000), three (0.000), seven (0.000) |
SEC-BERT-SHAPE |
[XX] (0.316), [XX.X] (0.253), [X.X] (0.237), [X] (0.188), [X.XX] (0.002) |
サンプル4
サンプル |
マスクトークン |
Total net sales decreased 2[MASK] or $5.4 billion during 2019 compared to 2018. |
% |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
% (0.795), percent (0.174), ##fold (0.009), billion (0.004), times (0.004) |
SEC-BERT-BASE |
% (0.924), percent (0.076), points (0.000), , (0.000), times (0.000) |
SEC-BERT-NUM |
% (0.882), percent (0.118), million (0.000), units (0.000), bps (0.000) |
SEC-BERT-SHAPE |
% (0.961), percent (0.039), bps (0.000), , (0.000), bcf (0.000) |
サンプル5
サンプル |
マスクトークン |
Total net sales decreased 2% or $[MASK] billion during 2019 compared to 2018. |
5.4 |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
1 (0.074), 4 (0.045), 3 (0.044), 2 (0.037), 5 (0.034) |
SEC-BERT-BASE |
1 (0.218), 2 (0.136), 3 (0.078), 4 (0.066), 5 (0.048) |
SEC-BERT-NUM |
[NUM] (1.000), l (0.000), 1 (0.000), - (0.000), 30 (0.000) |
SEC-BERT-SHAPE |
[X.X] (0.787), [X.XX] (0.095), [XX.X] (0.049), [X.XXX] (0.046), [X] (0.013) |
サンプル6
サンプル |
マスクトークン |
Total net sales decreased 2% or $5.4 billion during [MASK] compared to 2018. |
2019 |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
2017 (0.485), 2018 (0.169), 2016 (0.164), 2015 (0.070), 2014 (0.022) |
SEC-BERT-BASE |
2019 (0.990), 2017 (0.007), 2018 (0.003), 2020 (0.000), 2015 (0.000) |
SEC-BERT-NUM |
[NUM] (1.000), as (0.000), fiscal (0.000), year (0.000), when (0.000) |
SEC-BERT-SHAPE |
[XXXX] (1.000), as (0.000), year (0.000), periods (0.000), , (0.000) |
サンプル7
サンプル |
マスクトークン |
Total net sales decreased 2% or $5.4 billion during 2019 compared to [MASK]. |
2018 |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
2017 (0.100), 2016 (0.097), above (0.054), inflation (0.050), previously (0.037) |
SEC-BERT-BASE |
2018 (0.999), 2019 (0.000), 2017 (0.000), 2016 (0.000), 2014 (0.000) |
SEC-BERT-NUM |
[NUM] (1.000), year (0.000), last (0.000), sales (0.000), fiscal (0.000) |
SEC-BERT-SHAPE |
[XXXX] (1.000), year (0.000), sales (0.000), prior (0.000), years (0.000) |
サンプル8
サンプル |
マスクトークン |
During 2019, the Company [MASK] $67.1 billion of its common stock and paid dividend equivalents of $14.1 billion. |
repurchased |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
held (0.229), sold (0.192), acquired (0.172), owned (0.052), traded (0.033) |
SEC-BERT-BASE |
repurchased (0.913), issued (0.036), purchased (0.029), redeemed (0.010), sold (0.003) |
SEC-BERT-NUM |
repurchased (0.917), purchased (0.054), reacquired (0.013), issued (0.005), acquired (0.003) |
SEC-BERT-SHAPE |
repurchased (0.902), purchased (0.068), issued (0.010), reacquired (0.008), redeemed (0.006) |
サンプル9
サンプル |
マスクトークン |
During 2019, the Company repurchased $67.1 billion of its common [MASK] and paid dividend equivalents of $14.1 billion. |
stock |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
stock (0.835), assets (0.039), equity (0.025), debt (0.021), bonds (0.017) |
SEC-BERT-BASE |
stock (0.857), shares (0.135), equity (0.004), units (0.002), securities (0.000) |
SEC-BERT-NUM |
stock (0.842), shares (0.157), equity (0.000), securities (0.000), units (0.000) |
SEC-BERT-SHAPE |
stock (0.888), shares (0.109), equity (0.001), securities (0.001), stocks (0.000) |
サンプル10
サンプル |
マスクトークン |
During 2019, the Company repurchased $67.1 billion of its common stock and paid [MASK] equivalents of $14.1 billion. |
dividend |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
cash (0.276), net (0.128), annual (0.083), the (0.040), debt (0.027) |
SEC-BERT-BASE |
dividend (0.890), cash (0.018), dividends (0.016), share (0.013), tax (0.010) |
SEC-BERT-NUM |
dividend (0.735), cash (0.115), share (0.087), tax (0.025), stock (0.013) |
SEC-BERT-SHAPE |
dividend (0.655), cash (0.248), dividends (0.042), share (0.019), out (0.003) |
サンプル11
サンプル |
マスクトークン |
During 2019, the Company repurchased $67.1 billion of its common stock and paid dividend [MASK] of $14.1 billion. |
equivalents |
モデル |
予測結果 (確率) |
BERT-BASE-UNCASED |
revenue (0.085), earnings (0.078), rates (0.065), amounts (0.064), proceeds (0.062) |
SEC-BERT-BASE |
payments (0.790), distributions (0.087), equivalents (0.068), cash (0.013), amounts (0.004) |
SEC-BERT-NUM |
payments (0.845), equivalents (0.097), distributions (0.024), increases (0.005), dividends (0.004) |
SEC-BERT-SHAPE |
payments (0.784), equivalents (0.093), distributions (0.043), dividends (0.015), requirements (0.009) |
📄 ライセンス
このモデルは、CC BY-SA 4.0ライセンスの下で公開されています。
🔧 技術詳細
論文に関する情報や引用方法を以下に示します。
論文情報
このモデルを使用する場合は、以下の論文を引用してください。
FiNER: Financial Numeric Entity Recognition for XBRL Tagging
Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos and George Paliouras
In the Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022) (Long Papers), Dublin, Republic of Ireland, May 22 - 27, 2022
BibTeX引用
@inproceedings{loukas-etal-2022-finer,
title = {FiNER: Financial Numeric Entity Recognition for XBRL Tagging},
author = {Loukas, Lefteris and
Fergadiotis, Manos and
Chalkidis, Ilias and
Spyropoulou, Eirini and
Malakasiotis, Prodromos and
Androutsopoulos, Ion and
Paliouras George},
booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022)},
publisher = {Association for Computational Linguistics},
location = {Dublin, Republic of Ireland},
year = {2022},
url = {https://arxiv.org/abs/2203.06482}
}
開発者について
AUEBの自然言語処理グループは、コンピュータが自然言語テキストを処理および生成できるようにするアルゴリズム、モデル、およびシステムを開発しています。
このグループの現在の研究興味は以下の通りです。
- データベース、オントロジー、文書コレクション、およびWebに対する質問応答システム、特にバイオメディカル質問応答
- データベースおよびオントロジーからの自然言語生成、特にセマンティックWebオントロジー
- テキスト分類、スパムや虐待的なコンテンツのフィルタリングを含む
- 情報抽出と意見マイニング、法的テキスト分析やセンチメント分析を含む
- ギリシャ語の自然言語処理ツール、例えばパーサーや固有表現認識器
- 自然言語処理における機械学習、特にディープラーニング
このグループは、アテネ経済大学情報学部の情報処理研究室の一部です。
Manos Fergadiotis 代表 AUEBの自然言語処理グループ