模型简介
模型特点
模型能力
使用案例
🚀 多语言IPTC媒体主题分类器
本模型基于[xlm - roberta - large
](https://huggingface.co/FacebookAI/xlm - roberta - large),是一个新闻主题分类模型。它在四种语言的新闻语料库(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语)上进行了微调,并使用[顶级IPTC媒体主题新闻代码标签](https://www.iptc.org/std/NewsCodes/treeview/mediatopic/mediatopic - en - GB.html)进行标注。该模型的开发和评估在论文《无人工标注数据的文本分类大语言模型师生框架:IPTC新闻主题分类案例研究》(Kuzman和Ljubešić,2025年)中有详细描述。
该模型可用于根据IPTC新闻代码模式对主题标签进行分类,并且可以应用于xlm - roberta - large
支持的任何语言的新闻文本。
基于手动标注的测试集(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语),该模型的宏F1分数达到0.746,微F1分数达到0.734,准确率达到0.734,并且优于零样本设置下使用的GPT - 4o模型(版本gpt - 4o - 2024 - 05 - 13
)。如果仅使用置信度分数等于或高于0.90的预测标签,该模型的微F1和宏F1分数可达到0.80。
🚀 快速开始
预期用途和限制
为了获得可靠的结果,分类器应应用于足够长度的文档(经验法则是至少75个单词)。
使用示例
from transformers import pipeline
# 加载多类分类管道 - 如果模型在CPU上运行,请注释掉 "device"
classifier = pipeline("text - classification", model="classla/multilingual - IPTC - news - topic - classifier", device=0, max_length=512, truncation=True)
# 待分类的示例文本
texts = [
"""斯洛文尼亚手球队晋级巴黎奥运会半决赛 里尔,8月8日 - 周三晚,在里尔举行的奥运会男子手球锦标赛中,斯洛文尼亚队以33:28击败挪威队,晋级半决赛,他们将于周五晚上对阵丹麦队。这是该队在奥运会上迄今为止取得的最好成绩,也是斯洛文尼亚团体运动史上最好的表现之一。""",
"""狗狗啃咬移动电源引发房屋火灾 室内监控摄像头记录下了一只狗狗在啃咬便携式锂离子电池移动电源后意外引发房屋火灾的瞬间。俄克拉荷马州塔尔萨消防局发布的视频显示,在火花引发火灾并在几分钟内蔓延之前,客厅里可以看到两只狗和一只猫。塔尔萨消防局公共信息官安迪·利特尔表示,宠物们通过狗门逃脱,据当地媒体报道,这家人也安全撤离。“如果没有狗门,它们很可能会丧命,”他告诉CBS附属电视台KOTV。"""
]
# 对文本进行分类
results = classifier(texts)
# 输出结果
for result in results:
print(result)
## 输出
## {'label': 'sport', 'score': 0.9985264539718628}
## {'label': 'disaster, accident and emergency incident', 'score': 0.9957459568977356}
✨ 主要特性
- 多语言支持:支持
xlm - roberta - large
支持的多种语言。 - 基于IPTC标准:使用顶级IPTC媒体主题新闻代码标签进行分类。
- 性能优异:在手动标注的测试集上取得了较好的微F1、宏F1分数和准确率。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
# 加载多类分类管道 - 如果模型在CPU上运行,请注释掉 "device"
classifier = pipeline("text - classification", model="classla/multilingual - IPTC - news - topic - classifier", device=0, max_length=512, truncation=True)
# 待分类的示例文本
texts = [
"""斯洛文尼亚手球队晋级巴黎奥运会半决赛 里尔,8月8日 - 周三晚,在里尔举行的奥运会男子手球锦标赛中,斯洛文尼亚队以33:28击败挪威队,晋级半决赛,他们将于周五晚上对阵丹麦队。这是该队在奥运会上迄今为止取得的最好成绩,也是斯洛文尼亚团体运动史上最好的表现之一。""",
"""狗狗啃咬移动电源引发房屋火灾 室内监控摄像头记录下了一只狗狗在啃咬便携式锂离子电池移动电源后意外引发房屋火灾的瞬间。俄克拉荷马州塔尔萨消防局发布的视频显示,在火花引发火灾并在几分钟内蔓延之前,客厅里可以看到两只狗和一只猫。塔尔萨消防局公共信息官安迪·利特尔表示,宠物们通过狗门逃脱,据当地媒体报道,这家人也安全撤离。“如果没有狗门,它们很可能会丧命,”他告诉CBS附属电视台KOTV。"""
]
# 对文本进行分类
results = classifier(texts)
# 输出结果
for result in results:
print(result)
## 输出
## {'label': 'sport', 'score': 0.9985264539718628}
## {'label': 'disaster, accident and emergency incident', 'score': 0.9957459568977356}
高级用法
文档未提及高级用法相关代码,故跳过此部分。
📚 详细文档
IPTC媒体主题类别
标签列表
labels_list=['education', 'human interest', 'society', 'sport', 'crime, law and justice',
'disaster, accident and emergency incident', 'arts, culture, entertainment and media', 'politics',
'economy, business and finance', 'lifestyle and leisure', 'science and technology',
'health', 'labour', 'religion', 'weather', 'environment', 'conflict, war and peace'],
labels_map={0: 'education', 1: 'human interest', 2: 'society', 3: 'sport', 4: 'crime, law and justice',
5: 'disaster, accident and emergency incident', 6: 'arts, culture, entertainment and media',
7: 'politics', 8: 'economy, business and finance', 9: 'lifestyle and leisure', 10: 'science and technology',
11: 'health', 12: 'labour', 13: 'religion', 14: 'weather', 15: 'environment', 16: 'conflict, war and peace'}
标签描述
标签 | 描述 |
---|---|
disaster, accident and emergency incident | 人为或自然事件导致的伤害、死亡或损失,例如爆炸、交通事故、饥荒、溺水、自然灾害、应急规划和响应。 |
human interest | 关于皇室和名人的生活与行为的新闻、获得奖项的新闻、仪式(毕业、婚礼、葬礼、庆祝活动)、生日和周年纪念的新闻,以及关于愚蠢或低级人类错误的新闻。 |
politics | 关于地方、地区、国家和国际权力行使的新闻,包括选举、基本权利、政府、非政府组织、政治危机、非暴力国际关系、公职人员、政府政策的新闻。 |
education | 正式或非正式促进知识的各个方面,包括关于学校、课程、评分、远程学习、教师和学生的新闻。 |
crime, law and justice | 关于犯罪和非法活动、法院系统、法律和执法(例如法官、律师、审判、罪犯惩罚)的新闻。 |
economy, business and finance | 关于公司、产品和服务、任何类型的行业、国民经济、国际贸易、银行、(加密)货币、商业和贸易协会、经济趋势和指标(通货膨胀、就业统计、GDP、抵押贷款等)、国际经济机构、公用事业(电力、供暖、废物管理、供水)的新闻。 |
conflict, war and peace | 关于恐怖主义、战争、战争受害者、网络战、内乱(示威、骚乱、叛乱)、和平谈判和其他和平活动的新闻。 |
arts, culture, entertainment and media | 关于电影、舞蹈、时尚、发型、珠宝、节日、文学、音乐、戏剧、电视节目、绘画、摄影、木工、艺术展览、图书馆和博物馆、语言、文化遗产、新闻媒体、广播和电视、社交媒体、影响者和虚假信息的新闻。 |
labour | 关于就业、就业立法、雇员和雇主、通勤、育儿假、志愿服务、工资、社会保障、劳动力市场、退休、失业、工会的新闻。 |
weather | 关于天气预报、天气现象和天气预警的新闻。 |
religion | 关于宗教、邪教、宗教冲突、宗教与政府关系、教堂、宗教节日和庆典、宗教领袖和仪式以及宗教文本的新闻。 |
society | 关于社会互动(例如社交网络)、人口分析、人口普查、歧视、促进包容和平等的努力、移民和移民、人群和少数群体(LGBTQ、老年人、儿童、原住民等)、无家可归、贫困、社会问题(成瘾、欺凌)、伦理问题(自杀、安乐死、性行为)和社会服务与慈善、关系(约会、离婚、婚姻)、家庭(计划生育、收养、堕胎、避孕、怀孕、育儿)的新闻。 |
health | 关于疾病、伤害、心理健康问题、医疗治疗、饮食、疫苗、药物、政府医疗保健、医院、医务人员、健康保险的新闻。 |
environment | 关于气候变化、节能、可持续性、污染、人口增长、自然资源、森林、山脉、水体、生态系统、动物、花卉和植物的新闻。 |
lifestyle and leisure | 关于爱好、俱乐部和社团、游戏、彩票、对食物或饮料的热情、汽车/摩托车爱好者、公共假期、休闲场所(游乐园、咖啡馆、酒吧、餐厅等)、运动和健身、户外休闲活动(例如钓鱼、狩猎)、旅游和旅游业、心理健康、派对、维护和装饰房屋与花园的新闻。 |
science and technology | 关于自然科学和社会科学、数学、技术和工程、科学机构、科学研究、科学出版物和创新的新闻。 |
sport | 关于可在比赛中进行的体育项目的新闻,例如篮球、足球、游泳、田径、国际象棋、赛狗、跳水、高尔夫、体操、武术、攀岩等;体育成就、体育赛事、体育组织、体育场馆(体育场、体育馆等)、裁判、教练、体育俱乐部、体育中的药物使用。 |
训练数据
该模型在EMMediaTopic 1.0数据集的训练集上进行了微调,该数据集包含四种语言(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语)的15,000条新闻。新闻文本是从MaCoCu - Genre网络语料库中基于“新闻”体裁标签提取的,这些标签是由[X - GENRE分类器](https://huggingface.co/classla/xlm - roberta - base - multilingual - text - genre - classifier)预测的。训练数据集由[GPT - 4o](https://platform.openai.com/docs/models/gpt - 4o)模型自动标注了IPTC媒体主题标签(在测试数据集上产生了0.72的微F1和0.73的宏F1分数)。
模型开发和评估的代码可在[这个GitHub仓库](https://github.com/TajaKuzman/IPTC - Media - Topic - Classification)中找到。
训练数据集中的标签分布:
标签 | 数量 | 比例 |
---|---|---|
sport | 2300 | 0.153333 |
arts, culture, entertainment and media | 2117 | 0.141133 |
politics | 2018 | 0.134533 |
economy, business and finance | 1670 | 0.111333 |
human interest | 1152 | 0.0768 |
education | 990 | 0.066 |
crime, law and justice | 884 | 0.0589333 |
health | 675 | 0.045 |
disaster, accident and emergency incident | 610 | 0.0406667 |
society | 481 | 0.0320667 |
environment | 472 | 0.0314667 |
lifestyle and leisure | 346 | 0.0230667 |
science and technology | 340 | 0.0226667 |
conflict, war and peace | 311 | 0.0207333 |
labour | 288 | 0.0192 |
religion | 258 | 0.0172 |
weather | 88 | 0.00586667 |
性能
该模型在四种语言(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语)的手动标注测试集上进行了评估,该测试集包含1,129个实例。测试集包含来自四种语言的大致相同数量的文本,并且在标签上或多或少是平衡的。
该模型的微F1分数达到0.734,宏F1分数达到0.746。整个测试集和每种语言的结果如下:
微F1 | 宏F1 | 准确率 | 实例数量 | |
---|---|---|---|---|
所有(合并) | 0.734278 | 0.745864 | 0.734278 | 1129 |
克罗地亚语 | 0.728522 | 0.733725 | 0.728522 | 291 |
加泰罗尼亚语 | 0.715356 | 0.722304 | 0.715356 | 267 |
斯洛文尼亚语 | 0.758865 | 0.764784 | 0.758865 | 282 |
希腊语 | 0.733564 | 0.747129 | 0.733564 | 289 |
每个标签的性能:
精确率 | 召回率 | F1分数 | 支持数量 | |
---|---|---|---|---|
arts, culture, entertainment and media | 0.602151 | 0.875 | 0.713376 | 64 |
conflict, war and peace | 0.611111 | 0.916667 | 0.733333 | 36 |
crime, law and justice | 0.861538 | 0.811594 | 0.835821 | 69 |
disaster, accident and emergency incident | 0.691176 | 0.886792 | 0.77686 | 53 |
economy, business and finance | 0.779221 | 0.508475 | 0.615385 | 118 |
education | 0.847458 | 0.735294 | 0.787402 | 68 |
environment | 0.589041 | 0.754386 | 0.661538 | 57 |
health | 0.79661 | 0.79661 | 0.79661 | 59 |
human interest | 0.552239 | 0.672727 | 0.606557 | 55 |
labour | 0.855072 | 0.830986 | 0.842857 | 71 |
lifestyle and leisure | 0.773585 | 0.476744 | 0.589928 | 86 |
politics | 0.568182 | 0.735294 | 0.641026 | 68 |
religion | 0.842105 | 0.941176 | 0.888889 | 51 |
science and technology | 0.637681 | 0.8 | 0.709677 | 55 |
society | 0.918033 | 0.5 | 0.647399 | 112 |
sport | 0.824324 | 0.968254 | 0.890511 | 63 |
weather | 0.953488 | 0.931818 | 0.942529 | 44 |
对于下游任务,我们建议您仅使用置信度分数高于或等于0.90的预测标签,这将进一步提高性能。
当我们去除置信度较低的预测实例(229个实例 - 20%)时,模型的微F1分数达到0.798,宏F1分数达到0.80。
微F1 | 宏F1 | 准确率 | |
---|---|---|---|
所有(合并) | 0.797777 | 0.802403 | 0.797777 |
克罗地亚语 | 0.773504 | 0.772084 | 0.773504 |
加泰罗尼亚语 | 0.811224 | 0.806885 | 0.811224 |
斯洛文尼亚语 | 0.805085 | 0.804491 | 0.805085 |
希腊语 | 0.803419 | 0.809598 | 0.803419 |
微调超参数
使用simpletransformers
进行微调。事先进行了简短的超参数优化,推测的最佳超参数如下:
model_args = ClassificationArgs()
model_args ={
"num_train_epochs": 5,
"learning_rate": 8e - 06,
"train_batch_size": 32,
"max_seq_length": 512,
}
引用
如果您使用该模型,请引用这篇论文:
@ARTICLE{10900365,
author={Kuzman, Taja and Ljubešić, Nikola},
journal={IEEE Access},
title={LLM Teacher - Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification},
year={2025},
volume={},
number={},
pages={1 - 1},
keywords={Data models;Annotations;Media;Manuals;Multilingual;Computational modeling;Training;Training data;Transformers;Text categorization;Multilingual text classification;IPTC;large language models;LLMs;news topic;topic classification;training data preparation;data annotation},
doi={10.1109/ACCESS.2025.3544814}}
资金支持
这项工作得到了斯洛文尼亚研究与创新局研究项目[基于嵌入的媒体监测应用技术](https://emma.ijs.si/en/about - project/)(L2 - 50070,由Kliping d.o.o.机构共同资助)的支持。
许可证
本项目采用CC - BY - SA 4.0许可证。








