Filing Classification Xlmr
基于XLM-RoBERTa-Large微调的财务文件分类模型,支持37种文件类型的分类任务。
下载量 40
发布时间 : 4/5/2025
模型简介
该模型专为财务文件的多元文本分类设计,能够将输入文本(Markdown格式)分类为37个预定义的文件类型之一,如年度报告、季度报告等。
模型特点
多语言支持
基于XLM-RoBERTa-Large架构,能够处理多种语言的财务文件。
高准确率
在常见文件类型上达到96.2%的准确率,适合主流财务文件分类需求。
Markdown格式优化
专门针对Markdown格式的财务文件进行优化,确保最佳分类性能。
模型能力
财务文件分类
多语言文本处理
Markdown格式解析
使用案例
金融分析
自动文件归档
自动将公司财务文件分类到预定义的37个类别中,提高归档效率。
准确率高达96.2%(常见类别)
合规检查
帮助合规团队快速识别和分类各类财务报告,确保符合监管要求。
数据管理
数据集构建
为金融数据分析项目自动分类和标记大量财务文件。
🚀 金融报告文件分类器模型卡片
本模型基于Hugging Face的AutoTrain训练,可对金融报告文件进行多类别文本分类,能将输入文本准确分类到37种预定义的文件类型中,在常见文件类型上表现出色。
🚀 快速开始
你可以通过Hugging Face的transformers
库使用此模型:
from transformers import pipeline
# 加载分类器管道(请替换为你在Hugging Face Hub上的实际模型仓库ID)
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)
# 示例用法
filing_text = """
## ACME Corp Q4 Results
ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""
# 获取前5个预测结果及其得分(置信度)
predictions = classifier(filing_text, top_k=5)
print(predictions)
# 预期输出格式:
# [{'label': 'Quarterly Report', 'score': 0.98}, {'label': 'Earnings Release', 'score': 0.01}, ...]
# --- 获取所有类别的概率 ---
# from transformers import AutoTokenizer, AutoModelForSequenceClassification
# import torch
#
# tokenizer = AutoTokenizer.from_pretrained(model_repo_id)
# model = AutoModelForSequenceClassification.from_pretrained(model_repo_id)
# inputs = tokenizer(filing_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
# with torch.no_grad():
# logits = model(**inputs).logits
# probabilities = torch.softmax(logits, dim=-1)[0] # 获取第一个项目的概率
# results = [{"label": model.config.id2label[i], "score": prob.item()} for i, prob in enumerate(probabilities)]
# results.sort(key=lambda x: x["score"], reverse=True)
# print(results)
✨ 主要特性
- 多语言支持:支持英语和多种欧洲语言,基于XLM - RoBERTa基础模型,适用于多语言金融文件分类。
- 高精度分类:在常见金融文件类型上表现出很高的准确率和加权F1分数,能有效对金融报告文件进行分类。
- 易于使用:可通过Hugging Face的
transformers
库轻松调用,方便集成到各类应用中。
📦 安装指南
文档未提及安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import pipeline
# 加载分类器管道(请替换为你在Hugging Face Hub上的实际模型仓库ID)
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)
# 示例用法
filing_text = """
## ACME Corp Q4 Results
ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""
# 获取前5个预测结果及其得分(置信度)
predictions = classifier(filing_text, top_k=5)
print(predictions)
高级用法
# --- 获取所有类别的概率 ---
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained(model_repo_id)
model = AutoModelForSequenceClassification.from_pretrained(model_repo_id)
inputs = tokenizer(filing_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
with torch.no_grad():
logits = model(**inputs).logits
probabilities = torch.softmax(logits, dim=-1)[0] # 获取第一个项目的概率
results = [{"label": model.config.id2label[i], "score": prob.item()} for i, prob in enumerate(probabilities)]
results.sort(key=lambda x: x["score"], reverse=True)
print(results)
📚 详细文档
模型详情
- 模型名称:
FinancialReports/filing-classification-xlmr
(基于AutoTrain项目和组织的假设仓库ID) - 描述:该模型是
FacebookAI/xlm - roberta - large
的微调版本,用于对金融报告文件进行多类别文本分类。它将输入文本(预期为Markdown格式)分类到37个预定义的文件类型类别之一。 - 基础模型:[FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
- 开发者:FinancialReports (financialreports.eu)
- 模型版本:1.0
- 微调框架:Hugging Face AutoTrain
预期用途
- 主要用途:根据金融报告文件的文本内容,自动将其分类到37个类别之一(如年度报告、季度报告、董事交易等)。
- 主要用户:金融分析师、数据提供商、监管合规团队、与FinancialReports相关的研究人员。
- 非预期用途:该模型不适用于情感分析、命名实体识别或超出37种金融文件类型定义的分类任务。对于与训练数据差异较大的文件类型,其性能无法保证。
训练数据
- 数据集:该模型在约14,233份金融报告文件的组合数据集上进行了微调。
- 数据来源:
- 约9,700份通过Labelbox进行自定义标注的文件,可能来自欧洲公司(可能是多语言的)。
- 约4,500份来自美国EDGAR数据库的文件(英语)。
- 预处理:在训练前,文档文本被转换为Markdown格式。AutoTrain处理了训练/验证集的划分(通常为80/20或90/10)。
- 标签:数据集涵盖37种不同的文件类型分类。由于数据来源的原因,存在类别不平衡的情况,某些文件类型比其他类型更常见。
训练过程
- 框架:在Hugging Face Space中运行的Hugging Face AutoTrain UI。
- 硬件:Nvidia T4 GPU(小配置)。
- 基础模型:
FacebookAI/xlm - roberta - large
- 关键超参数(来自AutoTrain):
- 训练轮数(Epochs):3
- 批次大小(Batch Size):8
- 学习率(Learning Rate):5e - 5
- 最大序列长度(Max Sequence Length):512
- 优化器(Optimizer):AdamW
- 调度器(Scheduler):线性预热
- 混合精度(Mixed Precision):fp16
评估结果
AutoTrain基于其内部验证集划分报告了以下指标:
指标 | 值 |
---|---|
损失(Loss) | 0.1687 |
准确率/微观F1(Accuracy / F1 Micro) | 0.9617 (96.2%) |
加权F1(F1 Weighted) | 0.9597 (96.0%) |
宏F1(F1 Macro) | 0.6470 (64.7%) |
解读:该模型在整体准确率和加权F1分数上表现非常高,表明在数据集中最常见的文件类型上表现出色。然而,较低的宏F1分数(64.7%)揭示了一个关键限制:模型在处理不太常见(少数)的文件类型时存在较大困难。高整体准确率主要是由正确分类多数类别驱动的。由于训练数据中固有的类别不平衡,模型在所有37个类别上的性能参差不齐。
局限性和偏差
- 稀有类别的性能:如评估指标所示,模型正确识别不常见文件类型的能力明显低于常见类型。用户在依赖稀有类别的预测时应谨慎,并考虑使用置信度分数。
- 数据源偏差:训练数据主要来自欧洲和美国。该模型在处理来自其他地理区域或使用XLM - RoBERTa或训练数据中未充分代表的语言编写的文件时,其性能未知且可能较低。
- Markdown格式:模型期望输入文本为Markdown格式,与训练数据类似。在纯文本或其他格式上的性能可能会下降。
- 分布外数据:该模型只能将文档分类到其训练的37种类型中,无法识别全新或意外的文件类型。
- 歧义性:一些文件可能在类别之间存在真正的歧义或边界模糊,可能导致低置信度预测或错误分类。
引用信息
@misc{financialreports_filing_classifier_2025,
author = {FinancialReports},
title = {XLM-RoBERTa-Large Financial Filing Classifier},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{[https://huggingface.co/FinancialReports/filing-classification-xlmr](https://www.google.com/search?q=https://huggingface.co/FinancialReports/filing-classification-xlmr)}} # Assumed URL
}
🔧 技术细节
文档未提及技术实现细节,暂不展示。
📄 许可证
本模型使用Apache - 2.0许可证。
Distilbert Base Uncased Finetuned Sst 2 English
Apache-2.0
基于DistilBERT-base-uncased在SST-2情感分析数据集上微调的文本分类模型,准确率91.3%
文本分类 英语
D
distilbert
5.2M
746
Xlm Roberta Base Language Detection
MIT
基于XLM-RoBERTa的多语言检测模型,支持20种语言的文本分类
文本分类
Transformers 支持多种语言

X
papluca
2.7M
333
Roberta Hate Speech Dynabench R4 Target
该模型通过动态生成数据集来改进在线仇恨检测,专注于从最差案例中学习以提高检测效果。
文本分类
Transformers 英语

R
facebook
2.0M
80
Bert Base Multilingual Uncased Sentiment
MIT
基于bert-base-multilingual-uncased微调的多语言情感分析模型,支持6种语言的商品评论情感分析
文本分类 支持多种语言
B
nlptown
1.8M
371
Emotion English Distilroberta Base
基于DistilRoBERTa-base微调的英文文本情感分类模型,可预测埃克曼六种基本情绪及中性类别。
文本分类
Transformers 英语

E
j-hartmann
1.1M
402
Robertuito Sentiment Analysis
基于RoBERTuito的西班牙语推文情感分析模型,支持POS(积极)/NEG(消极)/NEU(中性)三类情感分类
文本分类 西班牙语
R
pysentimiento
1.0M
88
Finbert Tone
FinBERT是一款基于金融通讯文本预训练的BERT模型,专注于金融自然语言处理领域。finbert-tone是其微调版本,用于金融情感分析任务。
文本分类
Transformers 英语

F
yiyanghkust
998.46k
178
Roberta Base Go Emotions
MIT
基于RoBERTa-base的多标签情感分类模型,在go_emotions数据集上训练,支持28种情感标签识别。
文本分类
Transformers 英语

R
SamLowe
848.12k
565
Xlm Emo T
XLM-EMO是一个基于XLM-T模型微调的多语言情感分析模型,支持19种语言,专门针对社交媒体文本的情感预测。
文本分类
Transformers 其他

X
MilaNLProc
692.30k
7
Deberta V3 Base Mnli Fever Anli
MIT
基于MultiNLI、Fever-NLI和ANLI数据集训练的DeBERTa-v3模型,擅长零样本分类和自然语言推理任务
文本分类
Transformers 英语

D
MoritzLaurer
613.93k
204
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98