sec-bert-shapeオープンソース金融AIモデル - 財務データの完全性を維持し、金融分析を支援する

ホーム

Sec Bert Shape

nlpauebによって開発

金融分野向けのBERTバリアントで、数値形態の疑似マーキング処理により財務データの完全性を維持します。

大規模言語モデル

Transformers

英語#金融数値の形態処理 #財務報告分析 #SEC文書の事前学習

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

金融テキスト用に特別に設計されたBERTモデルで、数字を形態疑似マーカー（例：'53.2'→'[XX.X]'）に変換することで財務数値の処理を最適化し、10 - K年次報告書などの金融文書分析に適しています。

モデル特徴

数値形態の標準化

数字を214種類の事前定義された形態マーカー（例：'[XX.X]'）に統一変換し、数字の断片化問題を回避します。

金融分野の事前学習

26万件のSEC 10 - K年次報告書を基に学習し、財務テキストの特徴に深く適合しています。

多バージョン対応

基本版/数字版/形態版の3種類のバリアントを提供し、さまざまなシーンのニーズを満たします。

モデル能力

財務テキストのマスク予測

金融数値の形態識別

財務動詞の予測

数値単位の推測

使用事例

財務報告分析

財務指標の変化予測

年次報告書の売上高/利益などの指標の増減傾向を予測します。

動詞予測タスクでの精度が基本BERTより3倍向上しました。

数値単位の補完

財務数値の単位（百万/十億など）を自動的に補完します。

単位予測の精度>97%

規制文書処理

XBRLマーキング支援

財務数値エンティティを識別してXBRLマーキングの生成を支援します。

関連技術はACL 2022論文に掲載されています。

🚀 SEC-BERT

SEC-BERTは金融ドメイン向けのBERTモデルファミリーで、金融NLP研究やFinTechアプリケーションを支援することを目的としています。金融文書に特化したこのモデル群は、金融分野の自然言語処理タスクにおいて高い性能を発揮します。

🚀 クイックスタート

SEC-BERTは金融ドメイン向けのBERTモデルファミリーで、金融NLP研究やFinTechアプリケーションを支援することを目的としています。SEC-BERTには以下のモデルが含まれます：

SEC-BERT-BASE：BERT-BASEと同じアーキテクチャで、金融文書で学習されたモデルです。
SEC-BERT-NUM：SEC-BERT-BASEと同じですが、すべての数値トークンを[NUM]疑似トークンに置き換えることで、すべての数値表現を統一的に扱い、断片化を防ぎます。
SEC-BERT-SHAPE (このモデル)：SEC-BERT-BASEと同じですが、数値をその形状を表す疑似トークンに置き換えることで、数値表現（既知の形状のもの）が断片化されないようにします。例えば、'53.2' は '[XX.X]' に、'40,200.5' は '[XX,XXX.X]' になります。

✨ 主な機能

SEC-BERTは金融ドメイン向けに特化したBERTモデルで、金融文書の理解や分析に役立ちます。具体的には、以下のような機能があります：

金融文書の前処理に最適化されたモデルで、数値表現の扱いが強化されています。
金融分野の自然言語処理タスクにおいて、高い性能を発揮します。

📦 インストール

事前学習済みモデルの読み込み

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-shape")
model = AutoModel.from_pretrained("nlpaueb/sec-bert-shape")

💻 使用例

基本的な使用法

import re
import spacy
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-shape")
spacy_tokenizer = spacy.load("en_core_web_sm")

sentence = "Total net sales decreased 2% or $5.4 billion during 2019 compared to 2018."

def sec_bert_shape_preprocess(text):
    tokens = [t.text for t in spacy_tokenizer(sentence)]

    processed_text = []
    for token in tokens:
        if re.fullmatch(r"(\d+[\d,.]*)|([,.]\d+)", token):
            shape = '[' + re.sub(r'\d', 'X', token) + ']'
            if shape in tokenizer.additional_special_tokens:
                processed_text.append(shape)
            else:
                processed_text.append('[NUM]')
        else:
            processed_text.append(token)
            
    return ' '.join(processed_text)
        
tokenized_sentence = tokenizer.tokenize(sec_bert_shape_preprocess(sentence))
print(tokenized_sentence)
"""
['total', 'net', 'sales', 'decreased', '[X]', '%', 'or', '$', '[X.X]', 'billion', 'during', '[XXXX]', 'compared', 'to', '[XXXX]', '.']
"""

SEC-BERTバリアントを言語モデルとして使用する

サンプル	マスクされたトークン
Total net sales [MASK] 2% or $5.4 billion during 2019 compared to 2018.	decreased

モデル	予測結果 (確率)
BERT-BASE-UNCASED	increased (0.221), were (0.131), are (0.103), rose (0.075), of (0.058)
SEC-BERT-BASE	increased (0.678), decreased (0.282), declined (0.017), grew (0.016), rose (0.004)
SEC-BERT-NUM	increased (0.753), decreased (0.211), grew (0.019), declined (0.010), rose (0.006)
SEC-BERT-SHAPE	increased (0.747), decreased (0.214), grew (0.021), declined (0.013), rose (0.002)

（他の表も同様に記載）

📚 ドキュメント

事前学習コーパス

このモデルは、1993年から2019年までの260,773件の10-Kファイリングで事前学習されています。これらのファイリングは、米国証券取引委員会 (SEC) から公開されています。

事前学習の詳細

事前学習コーパスを使用して、BertWordPieceTokenizer をゼロから学習させ、30kのサブワードからなる新しい語彙を作成しました。
Google BERTのGitHubリポジトリで提供されている公式コードを使用して、BERTを学習させました。
Hugging Face の Transformers 変換スクリプトを使用して、TFチェックポイントを目的の形式に変換し、PyTorchとTF2のユーザーが2行のコードでモデルを読み込めるようにしました。
英語のBERT-BASEモデルと同様のモデル（12層、768隠れ層、12ヘッド、1億1000万パラメータ）をリリースしました。
同じ学習設定を選択しました：バッチサイズ256、シーケンス長512で100万ステップの学習を行い、初期学習率は1e-4としました。
TensorFlow Research Cloud (TRC) から無料で提供されている単一のGoogle Cloud TPU v3-8を使用し、GCP research credits も活用しました。両方のGoogleプログラムに感謝いたします！

テキストの前処理

SEC-BERT-SHAPEを使用するには、テキストを前処理して、すべての数値トークンを214個の事前定義された形状疑似トークンのリストから対応する形状疑似トークンに置き換える必要があります。数値トークンがどの形状疑似トークンにも対応しない場合は、[NUM]疑似トークンに置き換えます。以下に、簡単な文を前処理する方法の例を示します。このアプローチは非常にシンプルですので、必要に応じて変更してください。

出版物

このモデルを使用する場合は、以下の論文を引用してください： FiNER: Financial Numeric Entity Recognition for XBRL Tagging Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos and George Paliouras In the Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022) (Long Papers), Dublin, Republic of Ireland, May 22 - 27, 2022

@inproceedings{loukas-etal-2022-finer,
    title = {FiNER: Financial Numeric Entity Recognition for XBRL Tagging},
    author = {Loukas, Lefteris and
      Fergadiotis, Manos and
      Chalkidis, Ilias and
      Spyropoulou, Eirini and
      Malakasiotis, Prodromos and
      Androutsopoulos, Ion and
      Paliouras George},
    booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022)},
    publisher = {Association for Computational Linguistics},
    location = {Dublin, Republic of Ireland},
    year = {2022},
    url = {https://arxiv.org/abs/2203.06482}
}