🚀 xlm - roberta - large - pooled - cap - minor - v3
本项目是一个基于xlm - roberta - large
微调的模型,使用多语言(英语、丹麦语、匈牙利语)训练数据,标签来自比较议程项目的[次要主题代码](https://www.comparativeagendas.net/pages/master - codebook),可用于零样本分类和文本分类等任务。
🚀 快速开始
本模型是在多语言(英语、丹麦语、匈牙利语)训练数据上微调的xlm - roberta - large
模型,训练数据的标签采用了比较议程项目的[次要主题代码](https://www.comparativeagendas.net/pages/master - codebook)。
✨ 主要特性
- 多语言支持:支持英语、丹麦语、匈牙利语等多语言。
- 特定领域微调:基于比较议程项目的次要主题代码进行微调,适用于相关领域的文本分类任务。
📦 安装指南
文档未提及具体安装步骤,跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm - roberta - large")
pipe = pipeline(
model="poltextlab/xlm - roberta - large - pooled - cap - minor - v3",
task="text - classification",
tokenizer=tokenizer,
use_fast=False,
truncation=True,
max_length=512,
token="<your_hf_read_only_token>"
)
text = "We will place an immediate 6 - month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)
高级用法
由于文档未提及高级用法相关代码,此处不做展示。
📚 详细文档
模型性能
该模型在包含15349个英语示例的测试集(占英语数据的20%)上进行了评估:
推理平台
此模型被CAP Babel Machine使用,这是一个开源且免费的自然语言处理工具,旨在简化和加速比较研究项目。
合作
通过扩展训练集可以显著提高模型性能。我们欢迎大家向poltextlab{at}poltextlab{dot}com提交任何领域和语言的CAP编码语料,也可以通过CAP Babel Machine提交。
调试与问题解决
- 此架构使用
sentencepiece
分词器。在transformers==4.27
之前的版本中运行该模型,需要手动安装它。
- 如果在使用
from_pretrained()
方法加载模型时遇到RuntimeError
,添加ignore_mismatched_sizes = True
应该可以解决问题。
受限访问
由于采用了受限访问机制,加载模型时必须传递token
参数。在早期版本的Transformers包中,可能需要使用use_auth_token
参数代替。
模型信息
属性 |
详情 |
模型类型 |
基于xlm - roberta - large 微调的多语言文本分类模型 |
训练数据 |
多语言(英语、丹麦语、匈牙利语),标签来自比较议程项目的[次要主题代码](https://www.comparativeagendas.net/pages/master - codebook) |
额外提示
⚠️ 重要提示
我们的模型仅供学术使用。如果您不属于学术机构,请说明使用我们模型的理由。请允许我们花几个工作日手动审核订阅申请。
💡 使用建议
请根据文档要求正确设置token
或use_auth_token
参数,以确保模型正常加载。
📄 许可证
本模型采用MIT许可证。