🚀 xlm-roberta-large-pooled-cap-media-minor
本项目的模型是基于xlm-roberta-large
微调而来,可用于多语言文本分类,在特定的多语言训练数据上表现出色,能有效处理多种主题的文本分类任务。
🚀 快速开始
模型使用示例
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
model="poltextlab/xlm-roberta-large-pooled-cap-media-minor",
task="text-classification",
tokenizer=tokenizer,
use_fast=False,
truncation=True,
max_length=512,
token="<your_hf_read_only_token>"
)
text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)
受限访问说明
由于模型采用了受限访问机制,在加载模型时必须传递 token
参数。在早期版本的 Transformers 包中,可能需要使用 use_auth_token
参数代替。
✨ 主要特性
📚 详细文档
模型描述
这是一个在多语言(英语、丹麦语)训练数据上微调的xlm-roberta-large
模型,训练数据使用了来自 Comparative Agendas Project 的 次要主题代码 进行标注。此外,还添加了以下 7 种媒体代码:
- 州和地方政府管理 (24)
- 天气和自然灾害 (26)
- 火灾 (27)
- 体育和娱乐 (29)
- 讣告 (30)
- 教堂和宗教 (31)
- 其他杂项和人文关怀 (99)
模型性能
该模型在包含 91331 个示例的测试集上进行了评估,加权平均 F1 分数达到了 0.68。
合作说明
通过扩展训练集可以显著提高模型性能。欢迎大家提交任何领域和语言的 CAP 编码语料库,可通过发送邮件至 poltextlab{at}poltextlab{dot}com 或使用 CAP Babel Machine 进行提交。
调试与问题解决
此模型架构使用了 sentencepiece
分词器。在 transformers==4.27
之前的版本中运行该模型,需要手动安装该分词器。
如果在使用 from_pretrained()
方法加载模型时遇到 RuntimeError
,添加 ignore_mismatched_sizes=True
参数应该可以解决问题。
📄 许可证
本模型采用 MIT 许可证。
⚠️ 重要提示
我们的模型仅供学术使用。如果您不属于学术机构,请提供使用我们模型的理由。请允许我们在几个工作日内手动审核订阅申请。
💡 使用建议
请在提交使用申请时,详细填写姓名、国家、机构、机构邮箱以及学术用例等信息。