xlm-roberta-large-twitter-cap-minor開源多語言文本分類模型

首頁

Xlm Roberta Large Twitter Cap Minor

由poltextlab開發

基於xlm-roberta-large架構的多語言文本分類模型，專為Comparative Agendas Project的次要主題編碼設計。

文本分類

Safetensors

其他開源協議:MIT #多語言政策分析 #零樣本主題分類 #政治議程編碼

下載量 21

發布時間 : 5/8/2025

模型概述

該模型在標有Comparative Agendas Project次要主題編碼的多語言（英語、丹麥語、匈牙利語）訓練數據上微調而成，適用於零樣本文本分類任務。

模型特點

多語言支持

支持英語、丹麥語和匈牙利語三種語言的文本分類。

零樣本分類

能夠在未見過的類別上進行文本分類，適用於多樣化的應用場景。

學術專用

模型主要面向學術用途，非學術機構使用需申請授權。

模型能力

多語言文本分類

零樣本學習

使用案例

政策分析

政治議程分析

分析政治文本中的次要主題，用於Comparative Agendas Project研究。

在英語測試集上達到0.67的準確率和0.61的加權平均F1分數。

社會科學研究

跨語言文本分類

對多語言社會科學文本進行自動分類和主題識別。

🚀 xlm-roberta-large-twitter-cap-minor

本項目的模型是基於xlm-roberta-large微調而來，可用於多語言文本分類，能有效處理英文、丹麥語和匈牙利語等不同語言的文本分類任務，為相關學術研究提供了有力支持。

🚀 快速開始

模型描述

這是一個基於xlm-roberta-large的模型，在多語言（英語、丹麥語、匈牙利語）訓練數據上進行了微調。這些訓練數據使用了來自比較議程項目的次要主題代碼進行標註。

如何使用模型

from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
    model="poltextlab/xlm-roberta-large-twitter-cap-minor",
    task="text-classification",
    tokenizer=tokenizer,
    use_fast=False,
    truncation=True,
    max_length=512,
    token="<your_hf_read_only_token>"
)

text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)

⚠️ 重要提示

由於該模型採用了受限訪問機制，在加載模型時必須傳遞token參數。在早期版本的Transformers包中，可能需要使用use_auth_token參數代替。

✨ 主要特性

多語言支持：支持英語、丹麥語和匈牙利語等多語言文本分類。
基於微調：在xlm-roberta-large基礎上進行微調，提高了特定任務的性能。

📦 安裝指南

此部分原文檔未提及具體安裝命令，故跳過。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
    model="poltextlab/xlm-roberta-large-twitter-cap-minor",
    task="text-classification",
    tokenizer=tokenizer,
    use_fast=False,
    truncation=True,
    max_length=512,
    token="<your_hf_read_only_token>"
)

text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)

高級用法

原文檔未提及高級用法相關代碼，故不展示。

📚 詳細文檔

模型性能

該模型在包含15349個英語示例的測試集（佔英語數據的20%）上進行了評估。

準確率：0.67。
加權平均F1分數：0.61

合作

通過擴展訓練集可以顯著提高模型性能。我們歡迎大家提交任何領域和語言的CAP編碼語料，可以發送至poltextlab{at}poltextlab{dot}com，也可以使用CAP Babel Machine。

調試與問題解決

此架構使用sentencepiece分詞器。在transformers==4.27之前的版本中運行該模型，需要手動安裝該分詞器。

如果在使用from_pretrained()方法加載模型時遇到RuntimeError，添加ignore_mismatched_sizes=True應該可以解決問題。

🔧 技術細節

原文檔未提供足夠詳細的技術實現細節（未超過50字），故跳過。

📄 許可證

本項目採用MIT許可證。

屬性	詳情
模型類型	基於`xlm-roberta-large`微調的多語言文本分類模型
訓練數據	多語言（英語、丹麥語、匈牙利語），使用比較議程項目的次要主題代碼標註
指標	準確率、加權平均F1分數
受限訪問提示	我們的模型僅供學術使用。如果您不屬於學術機構，請說明使用我們模型的理由。請允許我們在幾個工作日內手動審核訂閱申請。
受限訪問字段	姓名、國家、機構、機構郵箱、請說明您的學術用例