🚀 xlm-roberta-large-pooled-cap-minor
本項目基於xlm-roberta-large
模型,在多語言(英語、丹麥語)訓練數據上進行微調。這些數據使用了比較議程項目的次要主題代碼進行標註,可用於零樣本分類和文本分類等任務。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
model="poltextlab/xlm-roberta-large-pooled-cap-minor",
task="text-classification",
tokenizer=tokenizer,
use_fast=False,
token="<your_hf_read_only_token>"
)
text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)
受限訪問說明
由於該模型採用受限訪問,在加載模型時必須傳遞 token
參數。在早期版本的 Transformers 包中,可能需要使用 use_auth_token
參數代替。
✨ 主要特性
- 多語言支持:在英語和丹麥語的訓練數據上進行微調,適用於多語言場景。
- 特定領域標註:使用比較議程項目的次要主題代碼進行標註,可用於特定領域的文本分類。
📚 詳細文檔
模型描述
xlm-roberta-large-pooled-cap-minor
是一個基於 xlm-roberta-large
微調的模型,訓練數據為多語言(英語、丹麥語),並使用了比較議程項目的次要主題代碼進行標註。
模型性能
該模型在 15349 個英語測試樣本(佔英語數據的 20%)上進行了評估:
推理平臺
此模型被 CAP Babel Machine 使用,這是一個開源且免費的自然語言處理工具,旨在簡化和加速比較研究項目。
合作事宜
通過擴展訓練集可以顯著提高模型性能。我們歡迎大家向 poltextlab{at}poltextlab{dot}com 提交任何領域和語言的 CAP 編碼語料庫,也可以使用 CAP Babel Machine 進行提交。
調試與問題解決
該模型架構使用 sentencepiece
分詞器。在 transformers==4.27
之前的版本中運行模型,需要手動安裝該分詞器。
如果在使用 from_pretrained()
方法加載模型時遇到 RuntimeError
,添加 ignore_mismatched_sizes=True
應該可以解決問題。
📄 許可證
本模型採用 MIT 許可證。
⚠️ 重要提示
我們的模型僅供學術使用。如果您不屬於學術機構,請說明使用我們模型的理由。請允許我們在幾個工作日內手動審核訂閱申請。
💡 使用建議
在使用模型時,請確保按照受限訪問的要求正確傳遞 token
參數,以避免出現訪問問題。同時,若遇到 RuntimeError
,可嘗試添加 ignore_mismatched_sizes=True
解決。