Filing Classification Xlmr
基於XLM-RoBERTa-Large微調的財務文件分類模型,支持37種文件類型的分類任務。
下載量 40
發布時間 : 4/5/2025
模型概述
該模型專為財務文件的多元文本分類設計,能夠將輸入文本(Markdown格式)分類為37個預定義的文件類型之一,如年度報告、季度報告等。
模型特點
多語言支持
基於XLM-RoBERTa-Large架構,能夠處理多種語言的財務文件。
高準確率
在常見文件類型上達到96.2%的準確率,適合主流財務文件分類需求。
Markdown格式優化
專門針對Markdown格式的財務文件進行優化,確保最佳分類性能。
模型能力
財務文件分類
多語言文本處理
Markdown格式解析
使用案例
金融分析
自動文件歸檔
自動將公司財務文件分類到預定義的37個類別中,提高歸檔效率。
準確率高達96.2%(常見類別)
合規檢查
幫助合規團隊快速識別和分類各類財務報告,確保符合監管要求。
數據管理
數據集構建
為金融數據分析項目自動分類和標記大量財務文件。
🚀 金融報告文件分類器模型卡片
本模型基於Hugging Face的AutoTrain訓練,可對金融報告文件進行多類別文本分類,能將輸入文本準確分類到37種預定義的文件類型中,在常見文件類型上表現出色。
🚀 快速開始
你可以通過Hugging Face的transformers
庫使用此模型:
from transformers import pipeline
# 加載分類器管道(請替換為你在Hugging Face Hub上的實際模型倉庫ID)
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)
# 示例用法
filing_text = """
## ACME Corp Q4 Results
ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""
# 獲取前5個預測結果及其得分(置信度)
predictions = classifier(filing_text, top_k=5)
print(predictions)
# 預期輸出格式:
# [{'label': 'Quarterly Report', 'score': 0.98}, {'label': 'Earnings Release', 'score': 0.01}, ...]
# --- 獲取所有類別的概率 ---
# from transformers import AutoTokenizer, AutoModelForSequenceClassification
# import torch
#
# tokenizer = AutoTokenizer.from_pretrained(model_repo_id)
# model = AutoModelForSequenceClassification.from_pretrained(model_repo_id)
# inputs = tokenizer(filing_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
# with torch.no_grad():
# logits = model(**inputs).logits
# probabilities = torch.softmax(logits, dim=-1)[0] # 獲取第一個項目的概率
# results = [{"label": model.config.id2label[i], "score": prob.item()} for i, prob in enumerate(probabilities)]
# results.sort(key=lambda x: x["score"], reverse=True)
# print(results)
✨ 主要特性
- 多語言支持:支持英語和多種歐洲語言,基於XLM - RoBERTa基礎模型,適用於多語言金融文件分類。
- 高精度分類:在常見金融文件類型上表現出很高的準確率和加權F1分數,能有效對金融報告文件進行分類。
- 易於使用:可通過Hugging Face的
transformers
庫輕鬆調用,方便集成到各類應用中。
📦 安裝指南
文檔未提及安裝步驟,暫不展示。
💻 使用示例
基礎用法
from transformers import pipeline
# 加載分類器管道(請替換為你在Hugging Face Hub上的實際模型倉庫ID)
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)
# 示例用法
filing_text = """
## ACME Corp Q4 Results
ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""
# 獲取前5個預測結果及其得分(置信度)
predictions = classifier(filing_text, top_k=5)
print(predictions)
高級用法
# --- 獲取所有類別的概率 ---
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained(model_repo_id)
model = AutoModelForSequenceClassification.from_pretrained(model_repo_id)
inputs = tokenizer(filing_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
with torch.no_grad():
logits = model(**inputs).logits
probabilities = torch.softmax(logits, dim=-1)[0] # 獲取第一個項目的概率
results = [{"label": model.config.id2label[i], "score": prob.item()} for i, prob in enumerate(probabilities)]
results.sort(key=lambda x: x["score"], reverse=True)
print(results)
📚 詳細文檔
模型詳情
- 模型名稱:
FinancialReports/filing-classification-xlmr
(基於AutoTrain項目和組織的假設倉庫ID) - 描述:該模型是
FacebookAI/xlm - roberta - large
的微調版本,用於對金融報告文件進行多類別文本分類。它將輸入文本(預期為Markdown格式)分類到37個預定義的文件類型類別之一。 - 基礎模型:[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
- 開發者:FinancialReports (financialreports.eu)
- 模型版本:1.0
- 微調框架:Hugging Face AutoTrain
預期用途
- 主要用途:根據金融報告文件的文本內容,自動將其分類到37個類別之一(如年度報告、季度報告、董事交易等)。
- 主要用戶:金融分析師、數據提供商、監管合規團隊、與FinancialReports相關的研究人員。
- 非預期用途:該模型不適用於情感分析、命名實體識別或超出37種金融文件類型定義的分類任務。對於與訓練數據差異較大的文件類型,其性能無法保證。
訓練數據
- 數據集:該模型在約14,233份金融報告文件的組合數據集上進行了微調。
- 數據來源:
- 約9,700份通過Labelbox進行自定義標註的文件,可能來自歐洲公司(可能是多語言的)。
- 約4,500份來自美國EDGAR數據庫的文件(英語)。
- 預處理:在訓練前,文檔文本被轉換為Markdown格式。AutoTrain處理了訓練/驗證集的劃分(通常為80/20或90/10)。
- 標籤:數據集涵蓋37種不同的文件類型分類。由於數據來源的原因,存在類別不平衡的情況,某些文件類型比其他類型更常見。
訓練過程
- 框架:在Hugging Face Space中運行的Hugging Face AutoTrain UI。
- 硬件:Nvidia T4 GPU(小配置)。
- 基礎模型:
FacebookAI/xlm - roberta - large
- 關鍵超參數(來自AutoTrain):
- 訓練輪數(Epochs):3
- 批次大小(Batch Size):8
- 學習率(Learning Rate):5e - 5
- 最大序列長度(Max Sequence Length):512
- 優化器(Optimizer):AdamW
- 調度器(Scheduler):線性預熱
- 混合精度(Mixed Precision):fp16
評估結果
AutoTrain基於其內部驗證集劃分報告了以下指標:
指標 | 值 |
---|---|
損失(Loss) | 0.1687 |
準確率/微觀F1(Accuracy / F1 Micro) | 0.9617 (96.2%) |
加權F1(F1 Weighted) | 0.9597 (96.0%) |
宏F1(F1 Macro) | 0.6470 (64.7%) |
解讀:該模型在整體準確率和加權F1分數上表現非常高,表明在數據集中最常見的文件類型上表現出色。然而,較低的宏F1分數(64.7%)揭示了一個關鍵限制:模型在處理不太常見(少數)的文件類型時存在較大困難。高整體準確率主要是由正確分類多數類別驅動的。由於訓練數據中固有的類別不平衡,模型在所有37個類別上的性能參差不齊。
侷限性和偏差
- 稀有類別的性能:如評估指標所示,模型正確識別不常見文件類型的能力明顯低於常見類型。用戶在依賴稀有類別的預測時應謹慎,並考慮使用置信度分數。
- 數據源偏差:訓練數據主要來自歐洲和美國。該模型在處理來自其他地理區域或使用XLM - RoBERTa或訓練數據中未充分代表的語言編寫的文件時,其性能未知且可能較低。
- Markdown格式:模型期望輸入文本為Markdown格式,與訓練數據類似。在純文本或其他格式上的性能可能會下降。
- 分佈外數據:該模型只能將文檔分類到其訓練的37種類型中,無法識別全新或意外的文件類型。
- 歧義性:一些文件可能在類別之間存在真正的歧義或邊界模糊,可能導致低置信度預測或錯誤分類。
引用信息
@misc{financialreports_filing_classifier_2025,
author = {FinancialReports},
title = {XLM-RoBERTa-Large Financial Filing Classifier},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{[https://huggingface.co/FinancialReports/filing-classification-xlmr](https://www.google.com/search?q=https://huggingface.co/FinancialReports/filing-classification-xlmr)}} # Assumed URL
}
🔧 技術細節
文檔未提及技術實現細節,暫不展示。
📄 許可證
本模型使用Apache - 2.0許可證。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基於DistilBERT-base-uncased在SST-2情感分析數據集上微調的文本分類模型,準確率91.3%
文本分類 英語
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基於XLM-RoBERTa的多語言檢測模型,支持20種語言的文本分類
文本分類
Transformers 支持多種語言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
該模型通過動態生成數據集來改進在線仇恨檢測,專注於從最差案例中學習以提高檢測效果。
文本分類
Transformers 英語

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基於bert-base-multilingual-uncased微調的多語言情感分析模型,支持6種語言的商品評論情感分析
文本分類 支持多種語言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基於DistilRoBERTa-base微調的英文文本情感分類模型,可預測埃克曼六種基本情緒及中性類別。
文本分類
Transformers 英語

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基於RoBERTuito的西班牙語推文情感分析模型,支持POS(積極)/NEG(消極)/NEU(中性)三類情感分類
文本分類 西班牙語
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基於金融通訊文本預訓練的BERT模型,專注於金融自然語言處理領域。finbert-tone是其微調版本,用於金融情感分析任務。
文本分類
Transformers 英語

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基於RoBERTa-base的多標籤情感分類模型,在go_emotions數據集上訓練,支持28種情感標籤識別。
文本分類
Transformers 英語

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一個基於XLM-T模型微調的多語言情感分析模型,支持19種語言,專門針對社交媒體文本的情感預測。
文本分類
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基於MultiNLI、Fever-NLI和ANLI數據集訓練的DeBERTa-v3模型,擅長零樣本分類和自然語言推理任務
文本分類
Transformers 英語

D
MoritzLaurer
613.93k
204
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98