Sec Bert Base
SEC-BERT是面向金融領域的BERT模型系列,基於美國證券交易委員會(SEC)的10-K年報文件訓練,支持金融自然語言處理研究和金融科技應用。
下載量 749
發布時間 : 3/2/2022
模型概述
SEC-BERT是專門針對金融領域優化的BERT模型,主要用於處理金融文檔中的自然語言理解任務,如財務報告分析、金融實體識別等。
模型特點
金融領域優化
專門基於260,773份10-K年報文件訓練,對金融術語和表達有更好的理解
多種變體模型
提供基礎版、數字處理版(SEC-BERT-NUM)和數字形狀版(SEC-BERT-SHAPE)三種變體
金融實體識別
在金融數值實體識別任務上表現優異,如百分比、金額、年份等
模型能力
金融文本理解
財務報告分析
金融實體識別
金融數值處理
使用案例
財務報告分析
銷售額變化分析
分析年度報告中銷售額變化趨勢
能準確預測'增長'或'下降'等財務趨勢詞彙
金融實體識別
金融數值識別
識別報告中的金額、百分比等數值信息
對數字和單位的識別準確率高於通用BERT模型
🚀 SEC-BERT
SEC-BERT 是一系列面向金融領域的 BERT 模型,旨在助力金融自然語言處理研究和金融科技應用。

🚀 快速開始
SEC-BERT 由以下模型組成:
- SEC-BERT-BASE(本模型):與 BERT-BASE 架構相同,在金融文檔上進行訓練。
- SEC-BERT-NUM:與 SEC-BERT-BASE 相同,但將每個數字標記替換為 [NUM] 偽標記,以統一方式處理所有數字表達式,避免其碎片化。
- SEC-BERT-SHAPE:與 SEC-BERT-BASE 相同,但將數字替換為表示數字形狀的偽標記,因此(已知形狀的)數字表達式不再碎片化,例如,'53.2' 變為 '[XX.X]','40,200.5' 變為 '[XX,XXX.X]'。
✨ 主要特性
SEC-BERT 專為金融領域設計,能夠更好地處理金融文本中的專業術語和語義,為金融自然語言處理研究和金融科技應用提供有力支持。
📦 安裝指南
加載預訓練模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-base")
model = AutoModel.from_pretrained("nlpaueb/sec-bert-base")
📚 詳細文檔
預訓練語料庫
該模型在 1993 - 2019 年的 260,773 份 10 - K 報告上進行了預訓練,這些報告可在 美國證券交易委員會(SEC) 公開獲取。
預訓練詳情
- 我們通過在預訓練語料庫上從頭開始訓練 BertWordPieceTokenizer,創建了一個包含 30k 子詞的新詞彙表。
- 我們使用 Google BERT 的 GitHub 倉庫 中提供的官方代碼來訓練 BERT。
- 然後,我們使用 Hugging Face 的 Transformers 轉換腳本將 TF 檢查點轉換為所需格式,以便 PyTorch 和 TF2 用戶都能在兩行代碼中加載模型。
- 我們發佈了一個與英文 BERT - BASE 模型類似的模型(12 層、768 隱藏層、12 頭、1.1 億參數)。
- 我們選擇遵循相同的訓練設置:100 萬次訓練步驟,批次大小為 256 個長度為 512 的序列,初始學習率為 1e - 4。
- 我們能夠使用由 TensorFlow 研究雲(TRC) 免費提供的單個 Google Cloud TPU v3 - 8,同時還利用了 GCP 研究信用額度。非常感謝這兩個 Google 項目對我們的支持!
使用 SEC-BERT 變體作為語言模型
示例 1
示例 | 掩碼標記 |
---|---|
與 2018 年相比,2019 年總淨銷售額 [MASK] 2% 或 54 億美元。 | decreased |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | increased (0.221), were (0.131), are (0.103), rose (0.075), of (0.058) |
SEC - BERT - BASE | increased (0.678), decreased (0.282), declined (0.017), grew (0.016), rose (0.004) |
SEC - BERT - NUM | increased (0.753), decreased (0.211), grew (0.019), declined (0.010), rose (0.006) |
SEC - BERT - SHAPE | increased (0.747), decreased (0.214), grew (0.021), declined (0.013), rose (0.002) |
示例 2
示例 | 掩碼標記 |
---|---|
與 2018 年相比,2019 年總淨銷售額下降了 2% 或 5.4 [MASK]。 | billion |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | billion (0.841), million (0.097), trillion (0.028), ##m (0.015), ##bn (0.006) |
SEC - BERT - BASE | million (0.972), billion (0.028), millions (0.000), ##million (0.000), m (0.000) |
SEC - BERT - NUM | million (0.974), billion (0.012), , (0.010), thousand (0.003), m (0.000) |
SEC - BERT - SHAPE | million (0.978), billion (0.021), % (0.000), , (0.000), millions (0.000) |
示例 3
示例 | 掩碼標記 |
---|---|
與 2018 年相比,2019 年總淨銷售額下降了 [MASK]% 或 54 億美元。 | 2 |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | 20 (0.031), 10 (0.030), 6 (0.029), 4 (0.027), 30 (0.027) |
SEC - BERT - BASE | 13 (0.045), 12 (0.040), 11 (0.040), 14 (0.035), 10 (0.035) |
SEC - BERT - NUM | [NUM] (1.000), one (0.000), five (0.000), three (0.000), seven (0.000) |
SEC - BERT - SHAPE | [XX] (0.316), [XX.X] (0.253), [X.X] (0.237), [X] (0.188), [X.XX] (0.002) |
示例 4
示例 | 掩碼標記 |
---|---|
與 2018 年相比,2019 年總淨銷售額下降了 2[MASK] 或 54 億美元。 | % |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | % (0.795), percent (0.174), ##fold (0.009), billion (0.004), times (0.004) |
SEC - BERT - BASE | % (0.924), percent (0.076), points (0.000), , (0.000), times (0.000) |
SEC - BERT - NUM | % (0.882), percent (0.118), million (0.000), units (0.000), bps (0.000) |
SEC - BERT - SHAPE | % (0.961), percent (0.039), bps (0.000), , (0.000), bcf (0.000) |
示例 5
示例 | 掩碼標記 |
---|---|
與 2018 年相比,2019 年總淨銷售額下降了 2% 或 $[MASK] 十億美元。 | 5.4 |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | 1 (0.074), 4 (0.045), 3 (0.044), 2 (0.037), 5 (0.034) |
SEC - BERT - BASE | 1 (0.218), 2 (0.136), 3 (0.078), 4 (0.066), 5 (0.048) |
SEC - BERT - NUM | [NUM] (1.000), l (0.000), 1 (0.000), - (0.000), 30 (0.000) |
SEC - BERT - SHAPE | [X.X] (0.787), [X.XX] (0.095), [XX.X] (0.049), [X.XXX] (0.046), [X] (0.013) |
示例 6
示例 | 掩碼標記 |
---|---|
與 2018 年相比,2019 年總淨銷售額下降了 2% 或 54 億美元。在 [MASK] 期間。 | 2019 |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | 2017 (0.485), 2018 (0.169), 2016 (0.164), 2015 (0.070), 2014 (0.022) |
SEC - BERT - BASE | 2019 (0.990), 2017 (0.007), 2018 (0.003), 2020 (0.000), 2015 (0.000) |
SEC - BERT - NUM | [NUM] (1.000), as (0.000), fiscal (0.000), year (0.000), when (0.000) |
SEC - BERT - SHAPE | [XXXX] (1.000), as (0.000), year (0.000), periods (0.000), , (0.000) |
示例 7
示例 | 掩碼標記 |
---|---|
與 [MASK] 相比,2019 年總淨銷售額下降了 2% 或 54 億美元。 | 2018 |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | 2017 (0.100), 2016 (0.097), above (0.054), inflation (0.050), previously (0.037) |
SEC - BERT - BASE | 2018 (0.999), 2019 (0.000), 2017 (0.000), 2016 (0.000), 2014 (0.000) |
SEC - BERT - NUM | [NUM] (1.000), year (0.000), last (0.000), sales (0.000), fiscal (0.000) |
SEC - BERT - SHAPE | [XXXX] (1.000), year (0.000), sales (0.000), prior (0.000), years (0.000) |
示例 8
示例 | 掩碼標記 |
---|---|
2019 年期間,該公司 [MASK] 了 671 億美元的普通股,並支付了 141 億美元的股息等價物。 | repurchased |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | held (0.229), sold (0.192), acquired (0.172), owned (0.052), traded (0.033) |
SEC - BERT - BASE | repurchased (0.913), issued (0.036), purchased (0.029), redeemed (0.010), sold (0.003) |
SEC - BERT - NUM | repurchased (0.917), purchased (0.054), reacquired (0.013), issued (0.005), acquired (0.003) |
SEC - BERT - SHAPE | repurchased (0.902), purchased (0.068), issued (0.010), reacquired (0.008), redeemed (0.006) |
示例 9
示例 | 掩碼標記 |
---|---|
2019 年期間,該公司回購了 671 億美元的 [MASK] 股,並支付了 141 億美元的股息等價物。 | stock |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | stock (0.835), assets (0.039), equity (0.025), debt (0.021), bonds (0.017) |
SEC - BERT - BASE | stock (0.857), shares (0.135), equity (0.004), units (0.002), securities (0.000) |
SEC - BERT - NUM | stock (0.842), shares (0.157), equity (0.000), securities (0.000), units (0.000) |
SEC - BERT - SHAPE | stock (0.888), shares (0.109), equity (0.001), securities (0.001), stocks (0.000) |
示例 10
示例 | 掩碼標記 |
---|---|
2019 年期間,該公司回購了 671 億美元的普通股,並支付了 [MASK] 等價物 141 億美元。 | dividend |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | cash (0.276), net (0.128), annual (0.083), the (0.040), debt (0.027) |
SEC - BERT - BASE | dividend (0.890), cash (0.018), dividends (0.016), share (0.013), tax (0.010) |
SEC - BERT - NUM | dividend (0.735), cash (0.115), share (0.087), tax (0.025), stock (0.013) |
SEC - BERT - SHAPE | dividend (0.655), cash (0.248), dividends (0.042), share (0.019), out (0.003) |
示例 11
示例 | 掩碼標記 |
---|---|
2019 年期間,該公司回購了 671 億美元的普通股,並支付了股息 [MASK] 141 億美元。 | equivalents |
模型 | 預測結果(概率) |
---|---|
BERT - BASE - UNCASED | revenue (0.085), earnings (0.078), rates (0.065), amounts (0.064), proceeds (0.062) |
SEC - BERT - BASE | payments (0.790), distributions (0.087), equivalents (0.068), cash (0.013), amounts (0.004) |
SEC - BERT - NUM | payments (0.845), equivalents (0.097), distributions (0.024), increases (0.005), dividends (0.004) |
SEC - BERT - SHAPE | payments (0.784), equivalents (0.093), distributions (0.043), dividends (0.015), requirements (0.009) |
論文引用
如果您使用此模型,請引用以下文章: FiNER: Financial Numeric Entity Recognition for XBRL Tagging Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos 和 George Paliouras 發表於第 60 屆計算語言學協會年會(ACL 2022)(長論文),愛爾蘭都柏林,2022 年 5 月 22 - 27 日
@inproceedings{loukas-etal-2022-finer,
title = {FiNER: Financial Numeric Entity Recognition for XBRL Tagging},
author = {Loukas, Lefteris and
Fergadiotis, Manos and
Chalkidis, Ilias and
Spyropoulou, Eirini and
Malakasiotis, Prodromos and
Androutsopoulos, Ion and
Paliouras George},
booktitle = {Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL 2022)},
publisher = {Association for Computational Linguistics},
location = {Dublin, Republic of Ireland},
year = {2022},
url = {https://arxiv.org/abs/2203.06482}
}
關於我們
雅典經濟與商業大學自然語言處理小組 致力於開發讓計算機處理和生成自然語言文本的算法、模型和系統。
該小組目前的研究興趣包括:
- 用於數據庫、本體、文檔集合和網絡的問答系統,特別是生物醫學問答;
- 從數據庫和本體,特別是語義網絡本體中進行自然語言生成;
- 文本分類,包括過濾垃圾郵件和濫用內容;
- 信息提取和觀點挖掘,包括法律文本分析和情感分析;
- 用於希臘語的自然語言處理工具,例如解析器和命名實體識別器;
- 自然語言處理中的機器學習,特別是深度學習。
該小組隸屬於雅典經濟與商業大學信息學系信息處理實驗室。
Manos Fergadiotis 代表 雅典經濟與商業大學自然語言處理小組
📄 許可證
本項目採用 CC - BY - SA 4.0 許可證。
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98