🚀 ポリクリム (policlim) モデル
このモデルは、(政治的な)テキストにおける気候変動の顕著性を検出する機能を持っています。政治マニフェストから得られた3,434の手動アノテーション付きの疑似文を使用して、ベースのXLM - robertaをファインチューニングし、気候変動の顕著性を検出します。
🚀 クイックスタート
このモデルは、テキスト分類に使用することも、追加のタスクにファインチューニングするためのベースモデルとして使用することもできます。simpletransformers
パッケージを使用すると、このプロセスは非常に簡単になります。
import simpletransformers
from simpletransformers.classification import ClassificationModel, ClassificationArgs
data = pd.read_csv('your_data.csv')
model = ClassificationModel(
model_type = "xlmroberta", model_name = 'policlim'
)
preds,output = model.predict(data['text'].tolist())
from sklearn.metrics import f1_score, precision, accuracy, recall
new_train = pd.read_csv('your_new_train_data.csv')
new_test = pd.read_csv('your_new_test_data.csv')
new_eval = pd.read_csv('your_new_eval_data.csv')
model = ClassificationModel(
model_type="xlmroberta",
model_name="policlim",
num_labels=2,
ignore_mismatched_sizes=True,
use_cuda=True
)
model.train_model(train_df = new_train, eval_df = new_test,
f1_train = f1_score(labels, preds,average=None)
)
result, model_outputs, wrong_predictions = model.eval_model(val_df,
f1_eval = f1_score(labels, preds,average=None),
precision = precision(labels, preds,average=None),
recall = recall(labels, preds,average=None),
acc = accuracy_score(labels, preds,average=None)
)
print('\n\nこれは、テストデータセットでモデルをテストした結果です:\n')
print(result)
✨ 主な機能
このモデルは、政治マニフェストなどのテキストにおける気候変動の顕著性を検出することができます。また、ベースモデルとして、他のタスクにファインチューニングすることも可能です。
📚 ドキュメント
モデルの説明
このモデルは、(政治的な)テキストにおける気候変動の顕著性を検出します。政治マニフェストから取得した3,434の手動アノテーション付きの疑似文を使用して、ベースのXLM - robertaをファインチューニングします。モデルは、検証用のF1スコアが.935、精度が.957を達成しています。
このモデルを使用して、政治マニフェストの気候変動の顕著性を分類しています。その最初のステップは、以下のワーキングペーパーに詳細が記載されています。この論文には、トレーニングセット、手順、モデルの評価、および最終的なデータセットのすべての関連情報が含まれています。
引用情報
@techreport{sanford2024policlim,
title={Policlim: A Dataset of Climate Change Discourse in the Political Manifestos of 45 Countries from 1990-2022},
author={Sanford, Mary and Pianta, Silvia and Schmid, Nicolas and Musto, Giorgio},
type={Working paper},
doi={https://osf.io/preprints/osf/bq356_v4},
year={2025}
}
モデルのソース
📄 ライセンス
READMEにライセンス情報が記載されていないため、このセクションは省略されています。
🔧 技術詳細
このモデルは、FacebookAI/xlm - roberta - base
をベースモデルとして使用し、3,434の手動アノテーション付きの疑似文を使用してファインチューニングされています。評価指標として、F1スコアと精度が使用されており、検証用のF1スコアが.935、精度が.957を達成しています。
モデルカードの作成者
Mary Sanford, mary.sanford@cmcc.it