tabpfn - mix - 1.0分類器がオープンソース化！表形式データに基づき、分類問題を効率的に解決

ホーム

Tabpfn Mix 1.0 Classifier

autogluonによって開発

表データに基づく基礎モデルで、事前学習データはランダム分類器の混合から生成された合成データセットに由来します

分子モデル

Safetensors

オープンソースライセンス:Apache-2.0 #表データ分類 #合成データ事前学習 #Transformerアーキテクチャ

ダウンロード数 19.77k

リリース時間 : 11/22/2024

モデル概要

TabPFNMixは表データ分類のための基礎モデルで、Transformerアーキテクチャを採用し、合成データセットで事前学習されており、構造化データの分類タスクに適しています

モデル特徴

合成データ事前学習

モデルの事前学習データは完全にランダム分類器の混合から生成された合成データセットに由来します

文脈学習メカニズム

TabPFNやTabForestPFNと類似した文脈学習戦略を統合しています

効率的な分類

表データ分類に最適化されており、パラメータ規模は適度（3700万）です

モデル能力

表データ分類

構造化データ処理

自動機械学習

使用事例

ビジネス分析

顧客分類

顧客特徴データに基づいて分類予測を行います

金融リスク管理

信用リスク評価

財務データに基づいて顧客の信用リスクレベルを予測します

🚀 TabPFNMix Classifier

TabPFNMix分類器は、ランダム分類器の混合からサンプリングされた純粋な合成データセットで事前学習された表形式の基礎モデルです。このモデルは、表形式のデータに対する分類タスクを効果的に解決することができます。

🚀 クイックスタート

TabPFNMix分類器を使い始めるには、まずAutoGluonをインストールする必要があります。以下のコマンドを実行してください。

pip install autogluon

✨ 主な機能

TabPFNMixは、3700万個のパラメータを持つ12層のエンコーダ - デコーダTransformerに基づいています。TabPFNやTabForestPFNで使用されているものと同様のコンテキスト内学習を組み込んだ事前学習戦略を採用しています。

📦 インストール

TabPFNMix分類器を使用するには、AutoGluonをインストールする必要があります。以下のコマンドを実行してください。

pip install autogluon

💻 使用例

基本的な使用法

以下は、TabPFNMix分類器を使用して微調整と推論を行う最小限のコード例です。

import pandas as pd

from autogluon.tabular import TabularPredictor


if __name__ == '__main__':
    train_data = pd.read_csv('https://autogluon.s3.amazonaws.com/datasets/Inc/train.csv')
    subsample_size = 5000  
    if subsample_size is not None and subsample_size < len(train_data):
        train_data = train_data.sample(n=subsample_size, random_state=0)
    test_data = pd.read_csv('https://autogluon.s3.amazonaws.com/datasets/Inc/test.csv')

    tabpfnmix_default = {
        "model_path_classifier": "autogluon/tabpfn-mix-1.0-classifier",
        "model_path_regressor": "autogluon/tabpfn-mix-1.0-regressor",
        "n_ensembles": 1,
        "max_epochs": 30,
    }

    hyperparameters = {
        "TABPFNMIX": [
            tabpfnmix_default,
        ],
    }

    label = "class"

    predictor = TabularPredictor(label=label)
    predictor = predictor.fit(
        train_data=train_data,
        hyperparameters=hyperparameters,
        verbosity=3,
    )

    predictor.leaderboard(test_data, display=True)

📚 ドキュメント

もしTabPFNMixがあなたの研究に役立つと思われる場合は、関連する論文を引用していただけると幸いです。

@article{erickson2020autogluon,
  title={Autogluon-tabular: Robust and accurate automl for structured data},
  author={Erickson, Nick and Mueller, Jonas and Shirkov, Alexander and Zhang, Hang and Larroy, Pedro and Li, Mu and Smola, Alexander},
  journal={arXiv preprint arXiv:2003.06505},
  year={2020}
}

@article{hollmann2022tabpfn,
  title={Tabpfn: A transformer that solves small tabular classification problems in a second},
  author={Hollmann, Noah and M{\"u}ller, Samuel and Eggensperger, Katharina and Hutter, Frank},
  journal={arXiv preprint arXiv:2207.01848},
  year={2022}
}

@article{breejen2024context,
  title={Why In-Context Learning Transformers are Tabular Data Classifiers},
  author={Breejen, Felix den and Bae, Sangmin and Cha, Stephen and Yun, Se-Young},
  journal={arXiv preprint arXiv:2405.13396},
  year={2024}
}