sec-bert-base开源金融领域模型 - 支持金融研究和金融科技应用

首页

Sec Bert Base

由 nlpaueb 开发

SEC-BERT是面向金融领域的BERT模型系列，基于美国证券交易委员会(SEC)的10-K年报文件训练，支持金融自然语言处理研究和金融科技应用。

大型语言模型

Transformers

英语#金融文本分析 #财报数据理解 #数字实体识别

下载量 749

发布时间 : 3/2/2022

模型简介

SEC-BERT是专门针对金融领域优化的BERT模型，主要用于处理金融文档中的自然语言理解任务，如财务报告分析、金融实体识别等。

模型特点

金融领域优化

专门基于260,773份10-K年报文件训练，对金融术语和表达有更好的理解

多种变体模型

提供基础版、数字处理版(SEC-BERT-NUM)和数字形状版(SEC-BERT-SHAPE)三种变体

金融实体识别

在金融数值实体识别任务上表现优异，如百分比、金额、年份等

模型能力

金融文本理解

财务报告分析

金融实体识别

金融数值处理

使用案例

财务报告分析

销售额变化分析

分析年度报告中销售额变化趋势

能准确预测'增长'或'下降'等财务趋势词汇

金融实体识别

金融数值识别

识别报告中的金额、百分比等数值信息

对数字和单位的识别准确率高于通用BERT模型

🚀 SEC-BERT

SEC-BERT 是一系列面向金融领域的 BERT 模型，旨在助力金融自然语言处理研究和金融科技应用。

🚀 快速开始

SEC-BERT 由以下模型组成：

SEC-BERT-BASE（本模型）：与 BERT-BASE 架构相同，在金融文档上进行训练。
SEC-BERT-NUM：与 SEC-BERT-BASE 相同，但将每个数字标记替换为 [NUM] 伪标记，以统一方式处理所有数字表达式，避免其碎片化。
SEC-BERT-SHAPE：与 SEC-BERT-BASE 相同，但将数字替换为表示数字形状的伪标记，因此（已知形状的）数字表达式不再碎片化，例如，'53.2' 变为 '[XX.X]'，'40,200.5' 变为 '[XX,XXX.X]'。

✨ 主要特性

SEC-BERT 专为金融领域设计，能够更好地处理金融文本中的专业术语和语义，为金融自然语言处理研究和金融科技应用提供有力支持。

📦 安装指南

加载预训练模型

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-base")
model = AutoModel.from_pretrained("nlpaueb/sec-bert-base")

📚 详细文档

预训练语料库

该模型在 1993 - 2019 年的 260,773 份 10 - K 报告上进行了预训练，这些报告可在美国证券交易委员会（SEC）公开获取。

预训练详情

我们通过在预训练语料库上从头开始训练 BertWordPieceTokenizer，创建了一个包含 30k 子词的新词汇表。
我们使用 Google BERT 的 GitHub 仓库中提供的官方代码来训练 BERT。
然后，我们使用 Hugging Face 的 Transformers 转换脚本将 TF 检查点转换为所需格式，以便 PyTorch 和 TF2 用户都能在两行代码中加载模型。
我们发布了一个与英文 BERT - BASE 模型类似的模型（12 层、768 隐藏层、12 头、1.1 亿参数）。
我们选择遵循相同的训练设置：100 万次训练步骤，批次大小为 256 个长度为 512 的序列，初始学习率为 1e - 4。
我们能够使用由 TensorFlow 研究云（TRC）免费提供的单个 Google Cloud TPU v3 - 8，同时还利用了 GCP 研究信用额度。非常感谢这两个 Google 项目对我们的支持！

使用 SEC-BERT 变体作为语言模型

示例 1

示例	掩码标记
与 2018 年相比，2019 年总净销售额 [MASK] 2% 或 54 亿美元。	decreased

模型	预测结果（概率）
BERT - BASE - UNCASED	increased (0.221), were (0.131), are (0.103), rose (0.075), of (0.058)
SEC - BERT - BASE	increased (0.678), decreased (0.282), declined (0.017), grew (0.016), rose (0.004)
SEC - BERT - NUM	increased (0.753), decreased (0.211), grew (0.019), declined (0.010), rose (0.006)
SEC - BERT - SHAPE	increased (0.747), decreased (0.214), grew (0.021), declined (0.013), rose (0.002)

示例 2

示例	掩码标记
与 2018 年相比，2019 年总净销售额下降了 2% 或 5.4 [MASK]。	billion

模型	预测结果（概率）
BERT - BASE - UNCASED	billion (0.841), million (0.097), trillion (0.028), ##m (0.015), ##bn (0.006)
SEC - BERT - BASE	million (0.972), billion (0.028), millions (0.000), ##million (0.000), m (0.000)
SEC - BERT - NUM	million (0.974), billion (0.012), , (0.010), thousand (0.003), m (0.000)
SEC - BERT - SHAPE	million (0.978), billion (0.021), % (0.000), , (0.000), millions (0.000)

示例 3

示例	掩码标记
与 2018 年相比，2019 年总净销售额下降了 [MASK]% 或 54 亿美元。	2

模型	预测结果（概率）
BERT - BASE - UNCASED	20 (0.031), 10 (0.030), 6 (0.029), 4 (0.027), 30 (0.027)
SEC - BERT - BASE	13 (0.045), 12 (0.040), 11 (0.040), 14 (0.035), 10 (0.035)
SEC - BERT - NUM	[NUM] (1.000), one (0.000), five (0.000), three (0.000), seven (0.000)
SEC - BERT - SHAPE	[XX] (0.316), [XX.X] (0.253), [X.X] (0.237), [X] (0.188), [X.XX] (0.002)

示例 4

示例	掩码标记
与 2018 年相比，2019 年总净销售额下降了 2[MASK] 或 54 亿美元。	%

模型	预测结果（概率）
BERT - BASE - UNCASED	% (0.795), percent (0.174), ##fold (0.009), billion (0.004), times (0.004)
SEC - BERT - BASE	% (0.924), percent (0.076), points (0.000), , (0.000), times (0.000)
SEC - BERT - NUM	% (0.882), percent (0.118), million (0.000), units (0.000), bps (0.000)
SEC - BERT - SHAPE	% (0.961), percent (0.039), bps (0.000), , (0.000), bcf (0.000)

示例 5

示例	掩码标记
与 2018 年相比，2019 年总净销售额下降了 2% 或 $[MASK] 十亿美元。	5.4

模型	预测结果（概率）
BERT - BASE - UNCASED	1 (0.074), 4 (0.045), 3 (0.044), 2 (0.037), 5 (0.034)
SEC - BERT - BASE	1 (0.218), 2 (0.136), 3 (0.078), 4 (0.066), 5 (0.048)
SEC - BERT - NUM	[NUM] (1.000), l (0.000), 1 (0.000), - (0.000), 30 (0.000)
SEC - BERT - SHAPE	[X.X] (0.787), [X.XX] (0.095), [XX.X] (0.049), [X.XXX] (0.046), [X] (0.013)

示例 6

示例	掩码标记
与 2018 年相比，2019 年总净销售额下降了 2% 或 54 亿美元。在 [MASK] 期间。	2019

模型	预测结果（概率）
BERT - BASE - UNCASED	2017 (0.485), 2018 (0.169), 2016 (0.164), 2015 (0.070), 2014 (0.022)
SEC - BERT - BASE	2019 (0.990), 2017 (0.007), 2018 (0.003), 2020 (0.000), 2015 (0.000)
SEC - BERT - NUM	[NUM] (1.000), as (0.000), fiscal (0.000), year (0.000), when (0.000)
SEC - BERT - SHAPE	[XXXX] (1.000), as (0.000), year (0.000), periods (0.000), , (0.000)

示例 7

示例	掩码标记
与 [MASK] 相比，2019 年总净销售额下降了 2% 或 54 亿美元。	2018

模型	预测结果（概率）
BERT - BASE - UNCASED	2017 (0.100), 2016 (0.097), above (0.054), inflation (0.050), previously (0.037)
SEC - BERT - BASE	2018 (0.999), 2019 (0.000), 2017 (0.000), 2016 (0.000), 2014 (0.000)
SEC - BERT - NUM	[NUM] (1.000), year (0.000), last (0.000), sales (0.000), fiscal (0.000)
SEC - BERT - SHAPE	[XXXX] (1.000), year (0.000), sales (0.000), prior (0.000), years (0.000)

示例 8

示例	掩码标记
2019 年期间，该公司 [MASK] 了 671 亿美元的普通股，并支付了 141 亿美元的股息等价物。	repurchased

模型	预测结果（概率）
BERT - BASE - UNCASED	held (0.229), sold (0.192), acquired (0.172), owned (0.052), traded (0.033)
SEC - BERT - BASE	repurchased (0.913), issued (0.036), purchased (0.029), redeemed (0.010), sold (0.003)
SEC - BERT - NUM	repurchased (0.917), purchased (0.054), reacquired (0.013), issued (0.005), acquired (0.003)
SEC - BERT - SHAPE	repurchased (0.902), purchased (0.068), issued (0.010), reacquired (0.008), redeemed (0.006)

示例 9

示例	掩码标记
2019 年期间，该公司回购了 671 亿美元的 [MASK] 股，并支付了 141 亿美元的股息等价物。	stock

模型	预测结果（概率）
BERT - BASE - UNCASED	stock (0.835), assets (0.039), equity (0.025), debt (0.021), bonds (0.017)
SEC - BERT - BASE	stock (0.857), shares (0.135), equity (0.004), units (0.002), securities (0.000)
SEC - BERT - NUM	stock (0.842), shares (0.157), equity (0.000), securities (0.000), units (0.000)
SEC - BERT - SHAPE	stock (0.888), shares (0.109), equity (0.001), securities (0.001), stocks (0.000)

示例 10

示例	掩码标记
2019 年期间，该公司回购了 671 亿美元的普通股，并支付了 [MASK] 等价物 141 亿美元。	dividend

模型	预测结果（概率）
BERT - BASE - UNCASED	cash (0.276), net (0.128), annual (0.083), the (0.040), debt (0.027)
SEC - BERT - BASE	dividend (0.890), cash (0.018), dividends (0.016), share (0.013), tax (0.010)
SEC - BERT - NUM	dividend (0.735), cash (0.115), share (0.087), tax (0.025), stock (0.013)
SEC - BERT - SHAPE	dividend (0.655), cash (0.248), dividends (0.042), share (0.019), out (0.003)

示例 11

示例	掩码标记
2019 年期间，该公司回购了 671 亿美元的普通股，并支付了股息 [MASK] 141 亿美元。	equivalents

模型	预测结果（概率）
BERT - BASE - UNCASED	revenue (0.085), earnings (0.078), rates (0.065), amounts (0.064), proceeds (0.062)
SEC - BERT - BASE	payments (0.790), distributions (0.087), equivalents (0.068), cash (0.013), amounts (0.004)
SEC - BERT - NUM	payments (0.845), equivalents (0.097), distributions (0.024), increases (0.005), dividends (0.004)
SEC - BERT - SHAPE	payments (0.784), equivalents (0.093), distributions (0.043), dividends (0.015), requirements (0.009)

论文引用

如果您使用此模型，请引用以下文章： FiNER: Financial Numeric Entity Recognition for XBRL Tagging Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos 和 George Paliouras 发表于第 60 届计算语言学协会年会（ACL 2022）（长论文），爱尔兰都柏林，2022 年 5 月 22 - 27 日

@inproceedings{loukas-etal-2022-finer,
    title = {FiNER: Financial Numeric Entity Recognition for XBRL Tagging},
    author = {Loukas, Lefteris and
      Fergadiotis, Manos and
      Chalkidis, Ilias and
      Spyropoulou, Eirini and
      Malakasiotis, Prodromos and
      Androutsopoulos, Ion and
      Paliouras George},
    booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022)},
    publisher = {Association for Computational Linguistics},
    location = {Dublin, Republic of Ireland},
    year = {2022},
    url = {https://arxiv.org/abs/2203.06482}
}