模型概述
模型特點
模型能力
使用案例
🚀 多語言IPTC媒體主題分類器
本模型基於[xlm - roberta - large
](https://huggingface.co/FacebookAI/xlm - roberta - large),是一個新聞主題分類模型。它在四種語言的新聞語料庫(克羅地亞語、斯洛文尼亞語、加泰羅尼亞語和希臘語)上進行了微調,並使用[頂級IPTC媒體主題新聞代碼標籤](https://www.iptc.org/std/NewsCodes/treeview/mediatopic/mediatopic - en - GB.html)進行標註。該模型的開發和評估在論文《無人工標註數據的文本分類大語言模型師生框架:IPTC新聞主題分類案例研究》(Kuzman和Ljubešić,2025年)中有詳細描述。
該模型可用於根據IPTC新聞代碼模式對主題標籤進行分類,並且可以應用於xlm - roberta - large
支持的任何語言的新聞文本。
基於手動標註的測試集(克羅地亞語、斯洛文尼亞語、加泰羅尼亞語和希臘語),該模型的宏F1分數達到0.746,微F1分數達到0.734,準確率達到0.734,並且優於零樣本設置下使用的GPT - 4o模型(版本gpt - 4o - 2024 - 05 - 13
)。如果僅使用置信度分數等於或高於0.90的預測標籤,該模型的微F1和宏F1分數可達到0.80。
🚀 快速開始
預期用途和限制
為了獲得可靠的結果,分類器應應用於足夠長度的文檔(經驗法則是至少75個單詞)。
使用示例
from transformers import pipeline
# 加載多類分類管道 - 如果模型在CPU上運行,請註釋掉 "device"
classifier = pipeline("text - classification", model="classla/multilingual - IPTC - news - topic - classifier", device=0, max_length=512, truncation=True)
# 待分類的示例文本
texts = [
"""斯洛文尼亞手球隊晉級巴黎奧運會半決賽 里爾,8月8日 - 週三晚,在里爾舉行的奧運會男子手球錦標賽中,斯洛文尼亞隊以33:28擊敗挪威隊,晉級半決賽,他們將於週五晚上對陣丹麥隊。這是該隊在奧運會上迄今為止取得的最好成績,也是斯洛文尼亞團體運動史上最好的表現之一。""",
"""狗狗啃咬移動電源引發房屋火災 室內監控攝像頭記錄下了一隻狗狗在啃咬便攜式鋰離子電池移動電源後意外引發房屋火災的瞬間。俄克拉荷馬州塔爾薩消防局發佈的視頻顯示,在火花引發火災並在幾分鐘內蔓延之前,客廳裡可以看到兩隻狗和一隻貓。塔爾薩消防局公共信息官安迪·利特爾表示,寵物們通過狗門逃脫,據當地媒體報道,這家人也安全撤離。“如果沒有狗門,它們很可能會喪命,”他告訴CBS附屬電視臺KOTV。"""
]
# 對文本進行分類
results = classifier(texts)
# 輸出結果
for result in results:
print(result)
## 輸出
## {'label': 'sport', 'score': 0.9985264539718628}
## {'label': 'disaster, accident and emergency incident', 'score': 0.9957459568977356}
✨ 主要特性
- 多語言支持:支持
xlm - roberta - large
支持的多種語言。 - 基於IPTC標準:使用頂級IPTC媒體主題新聞代碼標籤進行分類。
- 性能優異:在手動標註的測試集上取得了較好的微F1、宏F1分數和準確率。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
# 加載多類分類管道 - 如果模型在CPU上運行,請註釋掉 "device"
classifier = pipeline("text - classification", model="classla/multilingual - IPTC - news - topic - classifier", device=0, max_length=512, truncation=True)
# 待分類的示例文本
texts = [
"""斯洛文尼亞手球隊晉級巴黎奧運會半決賽 里爾,8月8日 - 週三晚,在里爾舉行的奧運會男子手球錦標賽中,斯洛文尼亞隊以33:28擊敗挪威隊,晉級半決賽,他們將於週五晚上對陣丹麥隊。這是該隊在奧運會上迄今為止取得的最好成績,也是斯洛文尼亞團體運動史上最好的表現之一。""",
"""狗狗啃咬移動電源引發房屋火災 室內監控攝像頭記錄下了一隻狗狗在啃咬便攜式鋰離子電池移動電源後意外引發房屋火災的瞬間。俄克拉荷馬州塔爾薩消防局發佈的視頻顯示,在火花引發火災並在幾分鐘內蔓延之前,客廳裡可以看到兩隻狗和一隻貓。塔爾薩消防局公共信息官安迪·利特爾表示,寵物們通過狗門逃脫,據當地媒體報道,這家人也安全撤離。“如果沒有狗門,它們很可能會喪命,”他告訴CBS附屬電視臺KOTV。"""
]
# 對文本進行分類
results = classifier(texts)
# 輸出結果
for result in results:
print(result)
## 輸出
## {'label': 'sport', 'score': 0.9985264539718628}
## {'label': 'disaster, accident and emergency incident', 'score': 0.9957459568977356}
高級用法
文檔未提及高級用法相關代碼,故跳過此部分。
📚 詳細文檔
IPTC媒體主題類別
標籤列表
labels_list=['education', 'human interest', 'society', 'sport', 'crime, law and justice',
'disaster, accident and emergency incident', 'arts, culture, entertainment and media', 'politics',
'economy, business and finance', 'lifestyle and leisure', 'science and technology',
'health', 'labour', 'religion', 'weather', 'environment', 'conflict, war and peace'],
labels_map={0: 'education', 1: 'human interest', 2: 'society', 3: 'sport', 4: 'crime, law and justice',
5: 'disaster, accident and emergency incident', 6: 'arts, culture, entertainment and media',
7: 'politics', 8: 'economy, business and finance', 9: 'lifestyle and leisure', 10: 'science and technology',
11: 'health', 12: 'labour', 13: 'religion', 14: 'weather', 15: 'environment', 16: 'conflict, war and peace'}
標籤描述
標籤 | 描述 |
---|---|
disaster, accident and emergency incident | 人為或自然事件導致的傷害、死亡或損失,例如爆炸、交通事故、饑荒、溺水、自然災害、應急規劃和響應。 |
human interest | 關於皇室和名人的生活與行為的新聞、獲得獎項的新聞、儀式(畢業、婚禮、葬禮、慶祝活動)、生日和週年紀念的新聞,以及關於愚蠢或低級人類錯誤的新聞。 |
politics | 關於地方、地區、國家和國際權力行使的新聞,包括選舉、基本權利、政府、非政府組織、政治危機、非暴力國際關係、公職人員、政府政策的新聞。 |
education | 正式或非正式促進知識的各個方面,包括關於學校、課程、評分、遠程學習、教師和學生的新聞。 |
crime, law and justice | 關於犯罪和非法活動、法院系統、法律和執法(例如法官、律師、審判、罪犯懲罰)的新聞。 |
economy, business and finance | 關於公司、產品和服務、任何類型的行業、國民經濟、國際貿易、銀行、(加密)貨幣、商業和貿易協會、經濟趨勢和指標(通貨膨脹、就業統計、GDP、抵押貸款等)、國際經濟機構、公用事業(電力、供暖、廢物管理、供水)的新聞。 |
conflict, war and peace | 關於恐怖主義、戰爭、戰爭受害者、網絡戰、內亂(示威、騷亂、叛亂)、和平談判和其他和平活動的新聞。 |
arts, culture, entertainment and media | 關於電影、舞蹈、時尚、髮型、珠寶、節日、文學、音樂、戲劇、電視節目、繪畫、攝影、木工、藝術展覽、圖書館和博物館、語言、文化遺產、新聞媒體、廣播和電視、社交媒體、影響者和虛假信息的新聞。 |
labour | 關於就業、就業立法、僱員和僱主、通勤、育兒假、志願服務、工資、社會保障、勞動力市場、退休、失業、工會的新聞。 |
weather | 關於天氣預報、天氣現象和天氣預警的新聞。 |
religion | 關於宗教、邪教、宗教衝突、宗教與政府關係、教堂、宗教節日和慶典、宗教領袖和儀式以及宗教文本的新聞。 |
society | 關於社會互動(例如社交網絡)、人口分析、人口普查、歧視、促進包容和平等的努力、移民和移民、人群和少數群體(LGBTQ、老年人、兒童、原住民等)、無家可歸、貧困、社會問題(成癮、欺凌)、倫理問題(自殺、安樂死、性行為)和社會服務與慈善、關係(約會、離婚、婚姻)、家庭(計劃生育、收養、墮胎、避孕、懷孕、育兒)的新聞。 |
health | 關於疾病、傷害、心理健康問題、醫療治療、飲食、疫苗、藥物、政府醫療保健、醫院、醫務人員、健康保險的新聞。 |
environment | 關於氣候變化、節能、可持續性、汙染、人口增長、自然資源、森林、山脈、水體、生態系統、動物、花卉和植物的新聞。 |
lifestyle and leisure | 關於愛好、俱樂部和社團、遊戲、彩票、對食物或飲料的熱情、汽車/摩托車愛好者、公共假期、休閒場所(遊樂園、咖啡館、酒吧、餐廳等)、運動和健身、戶外休閒活動(例如釣魚、狩獵)、旅遊和旅遊業、心理健康、派對、維護和裝飾房屋與花園的新聞。 |
science and technology | 關於自然科學和社會科學、數學、技術和工程、科學機構、科學研究、科學出版物和創新的新聞。 |
sport | 關於可在比賽中進行的體育項目的新聞,例如籃球、足球、游泳、田徑、國際象棋、賽狗、跳水、高爾夫、體操、武術、攀巖等;體育成就、體育賽事、體育組織、體育場館(體育場、體育館等)、裁判、教練、體育俱樂部、體育中的藥物使用。 |
訓練數據
該模型在EMMediaTopic 1.0數據集的訓練集上進行了微調,該數據集包含四種語言(克羅地亞語、斯洛文尼亞語、加泰羅尼亞語和希臘語)的15,000條新聞。新聞文本是從MaCoCu - Genre網絡語料庫中基於“新聞”體裁標籤提取的,這些標籤是由[X - GENRE分類器](https://huggingface.co/classla/xlm - roberta - base - multilingual - text - genre - classifier)預測的。訓練數據集由[GPT - 4o](https://platform.openai.com/docs/models/gpt - 4o)模型自動標註了IPTC媒體主題標籤(在測試數據集上產生了0.72的微F1和0.73的宏F1分數)。
模型開發和評估的代碼可在[這個GitHub倉庫](https://github.com/TajaKuzman/IPTC - Media - Topic - Classification)中找到。
訓練數據集中的標籤分佈:
標籤 | 數量 | 比例 |
---|---|---|
sport | 2300 | 0.153333 |
arts, culture, entertainment and media | 2117 | 0.141133 |
politics | 2018 | 0.134533 |
economy, business and finance | 1670 | 0.111333 |
human interest | 1152 | 0.0768 |
education | 990 | 0.066 |
crime, law and justice | 884 | 0.0589333 |
health | 675 | 0.045 |
disaster, accident and emergency incident | 610 | 0.0406667 |
society | 481 | 0.0320667 |
environment | 472 | 0.0314667 |
lifestyle and leisure | 346 | 0.0230667 |
science and technology | 340 | 0.0226667 |
conflict, war and peace | 311 | 0.0207333 |
labour | 288 | 0.0192 |
religion | 258 | 0.0172 |
weather | 88 | 0.00586667 |
性能
該模型在四種語言(克羅地亞語、斯洛文尼亞語、加泰羅尼亞語和希臘語)的手動標註測試集上進行了評估,該測試集包含1,129個實例。測試集包含來自四種語言的大致相同數量的文本,並且在標籤上或多或少是平衡的。
該模型的微F1分數達到0.734,宏F1分數達到0.746。整個測試集和每種語言的結果如下:
微F1 | 宏F1 | 準確率 | 實例數量 | |
---|---|---|---|---|
所有(合併) | 0.734278 | 0.745864 | 0.734278 | 1129 |
克羅地亞語 | 0.728522 | 0.733725 | 0.728522 | 291 |
加泰羅尼亞語 | 0.715356 | 0.722304 | 0.715356 | 267 |
斯洛文尼亞語 | 0.758865 | 0.764784 | 0.758865 | 282 |
希臘語 | 0.733564 | 0.747129 | 0.733564 | 289 |
每個標籤的性能:
精確率 | 召回率 | F1分數 | 支持數量 | |
---|---|---|---|---|
arts, culture, entertainment and media | 0.602151 | 0.875 | 0.713376 | 64 |
conflict, war and peace | 0.611111 | 0.916667 | 0.733333 | 36 |
crime, law and justice | 0.861538 | 0.811594 | 0.835821 | 69 |
disaster, accident and emergency incident | 0.691176 | 0.886792 | 0.77686 | 53 |
economy, business and finance | 0.779221 | 0.508475 | 0.615385 | 118 |
education | 0.847458 | 0.735294 | 0.787402 | 68 |
environment | 0.589041 | 0.754386 | 0.661538 | 57 |
health | 0.79661 | 0.79661 | 0.79661 | 59 |
human interest | 0.552239 | 0.672727 | 0.606557 | 55 |
labour | 0.855072 | 0.830986 | 0.842857 | 71 |
lifestyle and leisure | 0.773585 | 0.476744 | 0.589928 | 86 |
politics | 0.568182 | 0.735294 | 0.641026 | 68 |
religion | 0.842105 | 0.941176 | 0.888889 | 51 |
science and technology | 0.637681 | 0.8 | 0.709677 | 55 |
society | 0.918033 | 0.5 | 0.647399 | 112 |
sport | 0.824324 | 0.968254 | 0.890511 | 63 |
weather | 0.953488 | 0.931818 | 0.942529 | 44 |
對於下游任務,我們建議您僅使用置信度分數高於或等於0.90的預測標籤,這將進一步提高性能。
當我們去除置信度較低的預測實例(229個實例 - 20%)時,模型的微F1分數達到0.798,宏F1分數達到0.80。
微F1 | 宏F1 | 準確率 | |
---|---|---|---|
所有(合併) | 0.797777 | 0.802403 | 0.797777 |
克羅地亞語 | 0.773504 | 0.772084 | 0.773504 |
加泰羅尼亞語 | 0.811224 | 0.806885 | 0.811224 |
斯洛文尼亞語 | 0.805085 | 0.804491 | 0.805085 |
希臘語 | 0.803419 | 0.809598 | 0.803419 |
微調超參數
使用simpletransformers
進行微調。事先進行了簡短的超參數優化,推測的最佳超參數如下:
model_args = ClassificationArgs()
model_args ={
"num_train_epochs": 5,
"learning_rate": 8e - 06,
"train_batch_size": 32,
"max_seq_length": 512,
}
引用
如果您使用該模型,請引用這篇論文:
@ARTICLE{10900365,
author={Kuzman, Taja and Ljubešić, Nikola},
journal={IEEE Access},
title={LLM Teacher - Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification},
year={2025},
volume={},
number={},
pages={1 - 1},
keywords={Data models;Annotations;Media;Manuals;Multilingual;Computational modeling;Training;Training data;Transformers;Text categorization;Multilingual text classification;IPTC;large language models;LLMs;news topic;topic classification;training data preparation;data annotation},
doi={10.1109/ACCESS.2025.3544814}}
資金支持
這項工作得到了斯洛文尼亞研究與創新局研究項目[基於嵌入的媒體監測應用技術](https://emma.ijs.si/en/about - project/)(L2 - 50070,由Kliping d.o.o.機構共同資助)的支持。
許可證
本項目採用CC - BY - SA 4.0許可證。








