🚀 金融レポートファイリング分類器モデルカード
このモデルは、金融ファイリング文書の多クラステキスト分類を行うために設計された、FacebookAI/xlm - roberta - large
の微調整バージョンです。入力テキストを37種類の事前定義されたファイリングタイプカテゴリのいずれかに分類します。
🚀 クイックスタート
このモデルはHugging Faceの transformers
ライブラリを通じて使用できます。以下に使用例を示します。
from transformers import pipeline
model_repo_id = "FinancialReports/filing-classification-xlmr"
classifier = pipeline("text-classification", model=model_repo_id)
filing_text = """
## ACME Corp Q4 Results
ACME Corporation today announced financial results for its fourth quarter ended December 31...
(Insert markdown filing text here)
"""
predictions = classifier(filing_text, top_k=5)
print(predictions)
✨ 主な機能
- 金融ファイリング文書を37種類の事前定義されたカテゴリに自動分類します。
- 多言語対応で、XLM - RoBERTaのマルチリンガル能力を活用しています。
📦 インストール
このモデルを使用するには、Hugging Faceの transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデル詳細
- モデル名:
FinancialReports/filing-classification-xlmr
(AutoTrainプロジェクトと組織に基づくリポジトリID)
- 説明: このモデルは、金融ファイリング文書の多クラステキスト分類用に設計された、
FacebookAI/xlm - roberta - large
の微調整バージョンです。入力テキスト(Markdown形式が想定される)を37種類の事前定義されたファイリングタイプカテゴリのいずれかに分類します。
- ベースモデル: [FacebookAI/xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large)
- 開発者: FinancialReports (financialreports.eu)
- モデルバージョン: 1.0
- 微調整フレームワーク: Hugging Face AutoTrain
想定される使用方法
- 主な用途: 金融ファイリング文書をそのテキスト内容に基づいて37種類のカテゴリ(例: 年次報告書、四半期報告書、取締役の取引報告など)に自動分類すること。
- 主なユーザー: 金融アナリスト、データプロバイダー、規制コンプライアンスチーム、FinancialReportsに関連する研究者。
- 想定外の使用方法: このモデルは、感情分析、固有表現抽出、または定義された37種類の金融ファイリングタイプ以外の分類タスクには設計されていません。トレーニングデータと大きく異なるファイリングタイプに対する性能は保証されません。
トレーニングデータ
- データセット: このモデルは、約14,233件の金融ファイリング文書の結合データセットで微調整されました。
- データソース:
- 約9,700件の文書はLabelboxを通じてカスタムラベル付けされ、おそらく欧州の企業に由来する(多言語の可能性があります)。
- 約4,500件の文書は米国のEDGARデータベースから取得されました(英語)。
- 前処理: 文書テキストはトレーニング前にMarkdown形式に変換されました。AutoTrainがトレーニング/検証分割を処理しました(通常は80/20または90/10)。
- ラベル: データセットは37種類の異なるファイリングタイプ分類をカバーしています。データソースのため、一部のファイリングタイプが他のタイプよりもはるかに頻繁に出現する不均衡があります。
トレーニング手順
- フレームワーク: Hugging Face AutoTrain UI(Hugging Face Space内で実行)
- ハードウェア: Nvidia T4 GPU(小規模構成)
- ベースモデル:
FacebookAI/xlm - roberta - large
- 主要なハイパーパラメータ(AutoTrainから):
- エポック数: 3
- バッチサイズ: 8
- 学習率: 5e - 5
- 最大シーケンス長: 512
- オプティマイザ: AdamW
- スケジューラ: 線形ウォームアップ
- ミックスト精度: fp16
評価結果
AutoTrainによる内部検証分割に基づいて報告されたメトリクスは以下の通りです。
メトリクス |
値 |
損失 |
0.1687 |
正解率 / F1マイクロ |
0.9617 (96.2%) |
F1ウェイト付き |
0.9597 (96.0%) |
F1マクロ |
0.6470 (64.7%) |
解釈:
このモデルは非常に高い全体的な正解率とウェイト付きF1スコアを達成しており、データセット内の最も一般的なファイリングタイプに対する優れた性能を示しています。しかし、大幅に低い マクロF1スコア(64.7%) は、重要な制限を明らかにしています。このモデルは、頻度の低い(少数派の)ファイリングタイプに対してかなり苦労しています。高い全体的な正解率は、主に多数派クラスの正しい分類によって駆動されています。トレーニングデータに内在するクラス不均衡のため、すべての37クラスにわたる性能は不均一です。
制限とバイアス
- 稀なクラスに対する性能: 評価メトリクスが示すように、このモデルが稀なファイリングタイプを正しく識別する能力は、一般的なタイプに比べて大幅に低くなっています。ユーザーは、稀なカテゴリの予測に依存する際には注意が必要で、信頼度スコアを考慮することを検討すべきです。
- データソースのバイアス: トレーニングデータは主に欧州と米国のソースから取得されています。このモデルが他の地理的地域のファイリングや、XLM - RoBERTaまたはトレーニングデータで十分に表現されていない言語で書かれたファイリングに対する性能は不明で、おそらく低くなります。
- Markdown形式: このモデルは、トレーニングデータと同様に、入力テキストがMarkdown形式であることを想定しています。プレーンテキストや他の形式では性能が低下する可能性があります。
- 分布外データ: このモデルは、トレーニングされた37種類のタイプに文書を分類することしかできません。まったく新しいまたは予想外のファイリングタイプを識別することはできません。
- 曖昧さ: 一部のファイリングは、カテゴリ間で本当に曖昧または境界的な場合があり、低い信頼度の予測や誤分類につながる可能性があります。
🔧 技術詳細
モデル構造
このモデルは、FacebookAI/xlm - roberta - large
をベースにしており、金融ファイリング分類タスクに合わせて微調整されています。
トレーニングハイパーパラメータ
- エポック数: 3
- バッチサイズ: 8
- 学習率: 5e - 5
- 最大シーケンス長: 512
- オプティマイザ: AdamW
- スケジューラ: 線形ウォームアップ
- ミックスト精度: fp16
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
引用
@misc{financialreports_filing_classifier_2025,
author = {FinancialReports},
title = {XLM-RoBERTa-Large Financial Filing Classifier},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face Model Hub},
howpublished = {\url{[https://huggingface.co/FinancialReports/filing-classification-xlmr](https://www.google.com/search?q=https://huggingface.co/FinancialReports/filing-classification-xlmr)}}
}