🚀 xlm-roberta-large-pooled-cap-media-minor
本項目的模型是基於xlm-roberta-large
微調而來,可用於多語言文本分類,在特定的多語言訓練數據上表現出色,能有效處理多種主題的文本分類任務。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
model="poltextlab/xlm-roberta-large-pooled-cap-media-minor",
task="text-classification",
tokenizer=tokenizer,
use_fast=False,
truncation=True,
max_length=512,
token="<your_hf_read_only_token>"
)
text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)
受限訪問說明
由於模型採用了受限訪問機制,在加載模型時必須傳遞 token
參數。在早期版本的 Transformers 包中,可能需要使用 use_auth_token
參數代替。
✨ 主要特性
📚 詳細文檔
模型描述
這是一個在多語言(英語、丹麥語)訓練數據上微調的xlm-roberta-large
模型,訓練數據使用了來自 Comparative Agendas Project 的 次要主題代碼 進行標註。此外,還添加了以下 7 種媒體代碼:
- 州和地方政府管理 (24)
- 天氣和自然災害 (26)
- 火災 (27)
- 體育和娛樂 (29)
- 訃告 (30)
- 教堂和宗教 (31)
- 其他雜項和人文關懷 (99)
模型性能
該模型在包含 91331 個示例的測試集上進行了評估,加權平均 F1 分數達到了 0.68。
合作說明
通過擴展訓練集可以顯著提高模型性能。歡迎大家提交任何領域和語言的 CAP 編碼語料庫,可通過發送郵件至 poltextlab{at}poltextlab{dot}com 或使用 CAP Babel Machine 進行提交。
調試與問題解決
此模型架構使用了 sentencepiece
分詞器。在 transformers==4.27
之前的版本中運行該模型,需要手動安裝該分詞器。
如果在使用 from_pretrained()
方法加載模型時遇到 RuntimeError
,添加 ignore_mismatched_sizes=True
參數應該可以解決問題。
📄 許可證
本模型採用 MIT 許可證。
⚠️ 重要提示
我們的模型僅供學術使用。如果您不屬於學術機構,請提供使用我們模型的理由。請允許我們在幾個工作日內手動審核訂閱申請。
💡 使用建議
請在提交使用申請時,詳細填寫姓名、國家、機構、機構郵箱以及學術用例等信息。