🚀 xlm-roberta-large-pooled-cap-minor
本项目基于xlm-roberta-large
模型,在多语言(英语、丹麦语)训练数据上进行微调。这些数据使用了比较议程项目的次要主题代码进行标注,可用于零样本分类和文本分类等任务。
🚀 快速开始
模型使用示例
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
model="poltextlab/xlm-roberta-large-pooled-cap-minor",
task="text-classification",
tokenizer=tokenizer,
use_fast=False,
token="<your_hf_read_only_token>"
)
text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)
受限访问说明
由于该模型采用受限访问,在加载模型时必须传递 token
参数。在早期版本的 Transformers 包中,可能需要使用 use_auth_token
参数代替。
✨ 主要特性
- 多语言支持:在英语和丹麦语的训练数据上进行微调,适用于多语言场景。
- 特定领域标注:使用比较议程项目的次要主题代码进行标注,可用于特定领域的文本分类。
📚 详细文档
模型描述
xlm-roberta-large-pooled-cap-minor
是一个基于 xlm-roberta-large
微调的模型,训练数据为多语言(英语、丹麦语),并使用了比较议程项目的次要主题代码进行标注。
模型性能
该模型在 15349 个英语测试样本(占英语数据的 20%)上进行了评估:
推理平台
此模型被 CAP Babel Machine 使用,这是一个开源且免费的自然语言处理工具,旨在简化和加速比较研究项目。
合作事宜
通过扩展训练集可以显著提高模型性能。我们欢迎大家向 poltextlab{at}poltextlab{dot}com 提交任何领域和语言的 CAP 编码语料库,也可以使用 CAP Babel Machine 进行提交。
调试与问题解决
该模型架构使用 sentencepiece
分词器。在 transformers==4.27
之前的版本中运行模型,需要手动安装该分词器。
如果在使用 from_pretrained()
方法加载模型时遇到 RuntimeError
,添加 ignore_mismatched_sizes=True
应该可以解决问题。
📄 许可证
本模型采用 MIT 许可证。
⚠️ 重要提示
我们的模型仅供学术使用。如果您不属于学术机构,请说明使用我们模型的理由。请允许我们在几个工作日内手动审核订阅申请。
💡 使用建议
在使用模型时,请确保按照受限访问的要求正确传递 token
参数,以避免出现访问问题。同时,若遇到 RuntimeError
,可尝试添加 ignore_mismatched_sizes=True
解决。