模型概述
模型特點
模型能力
使用案例
🚀 X-GENRE分類器 - 多語言文本體裁分類器
X-GENRE分類器是一個基於xlm-roberta-base
的文本分類模型,在多語言手動標註的X-GENRE體裁數據集上進行了微調。該模型可用於自動體裁識別,適用於xlm-roberta-base
支持的任何語言文本。
🚀 快速開始
本模型基於xlm-roberta-base
,並在多語言手動標註的X-GENRE體裁數據集上進行了微調。你可以將其用於自動體裁識別,只要文本語言是xlm-roberta-base
支持的即可。
模型開發、數據集以及模型在數據集內、跨數據集和多語言方面的性能詳情,可參考論文Automatic Genre Identification for Robust Enrichment of Massive Text Collections: Investigation of Classification Methods in the Era of Large Language Models (Kuzman et al., 2023)。
你也可以從CLARIN.SI倉庫下載該模型。
如果你使用了該模型,請引用以下論文:
@article{kuzman2023automatic,
title={Automatic Genre Identification for Robust Enrichment of Massive Text Collections: Investigation of Classification Methods in the Era of Large Language Models},
author={Kuzman, Taja and Mozeti{\v{c}}, Igor and Ljube{\v{s}}i{\'c}, Nikola},
journal={Machine Learning and Knowledge Extraction},
volume={5},
number={3},
pages={1149--1175},
year={2023},
publisher={MDPI}
}
✨ 主要特性
- 多語言支持:支持多種語言的文本體裁分類。
- 高性能:在AGILE基準測試中,相較於其他技術(包括GPT模型)表現更優。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from simpletransformers.classification import ClassificationModel
model_args= {
"num_train_epochs": 15,
"learning_rate": 1e-5,
"max_seq_length": 512,
"silent": True
}
model = ClassificationModel(
"xlmroberta", "classla/xlm-roberta-base-multilingual-text-genre-classifier", use_cuda=True,
args=model_args
)
predictions, logit_output = model.predict(["How to create a good text classification model? First step is to prepare good data. Make sure not to skip the exploratory data analysis. Pre-process the text if necessary for the task. The next step is to perform hyperparameter search to find the optimum hyperparameters. After fine-tuning the model, you should look into the predictions and analyze the model's performance. You might want to perform the post-processing of data as well and keep only reliable predictions.",
"On our site, you can find a great genre identification model which you can use for thousands of different tasks. With our model, you can fastly and reliably obtain high-quality genre predictions and explore which genres exist in your corpora. Available for free!"]
)
predictions
# Output: array([3, 8])
[model.config.id2label[i] for i in predictions]
# Output: ['Instruction', 'Promotion']
高級用法
使用批量處理在數據集上進行預測的示例,可通過Google Collab查看。
📚 詳細文檔
AGILE - 自動體裁識別基準測試
我們設立了一個基準測試,用於評估自動體裁識別模型的魯棒性,以測試其在為大型文本集合自動添加體裁信息方面的可用性。該基準測試涵蓋11種歐洲語言和兩個測試數據集。歡迎你在基準測試的GitHub倉庫提交你的結果。
該模型在性能上優於所有其他技術,包括在零樣本場景下使用的GPT模型。
以下是在英文測試數據集(EN - GINCO)上的結果:
模型 | 測試數據集 | 宏F1值 | 微F1值 |
---|---|---|---|
[X - GENRE分類器](https://huggingface.co/classla/xlm - roberta - base - multilingual - text - genre - classifier) | en - ginco | 0.687 | 0.684 |
GPT - 4o (gpt - 4o - 2024 - 08 - 06) (零樣本) | en - ginco | 0.62 | 0.735 |
Llama 3.3 (70B) (零樣本) | en - ginco | 0.586 | 0.684 |
Gemma 2 (27B) (零樣本) | en - ginco | 0.564 | 0.603 |
Gemma 3 (27B) (零樣本) | en - ginco | 0.541 | 0.672 |
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18) (零樣本) | en - ginco | 0.534 | 0.632 |
支持向量機 | en - ginco | 0.514 | 0.489 |
GPT - 3.5 - Turbo (零樣本) | en - ginco | 0.494 | 0.625 |
DeepSeek - R1 14B (零樣本) | en - ginco | 0.293 | 0.229 |
虛擬分類器 (分層) | en - ginco | 0.088 | 0.154 |
虛擬分類器 (最頻繁) | en - ginco | 0.032 | 0.169 |
以下是在多語言測試數據集(X - GINCO)上的結果,該數據集包含阿爾巴尼亞語、加泰羅尼亞語、克羅地亞語、希臘語、冰島語、馬其頓語、馬耳他語、斯洛文尼亞語、土耳其語和烏克蘭語的實例:
模型 | 測試數據集 | 宏F1值 | 微F1值 |
---|---|---|---|
[X - GENRE分類器](https://huggingface.co/classla/xlm - roberta - base - multilingual - text - genre - classifier) | x - ginco | 0.847 | 0.845 |
GPT - 4o (gpt - 4o - 2024 - 08 - 06) (零樣本) | x - ginco | 0.776 | 0.769 |
Llama 3.3 (70B) (零樣本) | x - ginco | 0.741 | 0.738 |
Gemma 3 (27B) (零樣本) | x - ginco | 0.739 | 0.733 |
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18) (零樣本) | x - ginco | 0.688 | 0.67 |
GPT - 3.5 - Turbo (零樣本) | x - ginco | 0.627 | 0.622 |
Gemma 2 (27B) (零樣本) | x - ginco | 0.612 | 0.593 |
DeepSeek - R1 14B (零樣本) | x - ginco | 0.197 | 0.204 |
支持向量機 | x - ginco | 0.166 | 0.184 |
虛擬分類器 (分層) | x - ginco | 0.106 | 0.113 |
虛擬分類器 (最頻繁) | x - ginco | 0.029 | 0.133 |
(多語言測試數據集比英文測試數據集更容易,因為模糊標籤“Other”和預測置信度分數低於0.80的實例未包含在測試數據集中。)
如需查看特定語言的結果,請參考[AGILE基準測試](https://github.com/TajaKuzman/AGILE - Automatic - Genre - Identification - Benchmark)。
預期用途和限制
用法
關於為體裁識別準備數據以及結果後處理的示例,可參考[此處](https://github.com/TajaKuzman/Applying - GENRE - on - MaCoCu - bilingual),我們在此將X - GENRE分類器應用於MaCoCu平行語料庫的英文部分。
為獲得可靠結果,體裁分類器應應用於足夠長度的文檔(經驗法則是至少75個單詞)。建議不要使用置信度高於0.9的預測結果。此外,標籤“Other”可作為預測低置信度的另一個指標,因為它通常表明文本沒有任何體裁的足夠特徵,這些預測結果也可捨棄。
經過建議的後處理(去除低置信度預測、標籤“Other”,在這種特定情況下還去除標籤“Forum”)後,基於手動檢查,在MaCoCu數據上的性能達到宏F1和微F1值為0.92。
X - GENRE類別
標籤列表
labels_list=['Other', 'Information/Explanation', 'News', 'Instruction', 'Opinion/Argumentation', 'Forum', 'Prose/Lyrical', 'Legal', 'Promotion'],
labels_map={'Other': 0, 'Information/Explanation': 1, 'News': 2, 'Instruction': 3, 'Opinion/Argumentation': 4, 'Forum': 5, 'Prose/Lyrical': 6, 'Legal': 7, 'Promotion': 8}
標籤描述
標籤 | 描述 | 示例 |
---|---|---|
Information/Explanation | 一種客觀文本,用於描述或呈現事件、人物、事物、概念等。其主要目的是向讀者傳達信息。常見特徵:客觀/事實性、概念的解釋/定義(x是…)、列舉。 | 研究文章、百科全書文章、信息博客、產品規格、課程材料、一般信息、職位描述、手冊、星座運勢、旅遊指南、詞彙表、歷史文章、傳記故事/歷史。 |
Instruction | 一種客觀文本,指導讀者如何做某事。常見特徵:多個步驟/動作、時間順序、第一人稱複數或第二人稱、情態動詞(必須、不得不、需要、可以等)、方式狀語從句(以某種方式)、條件狀語從句(如果)、時間狀語從句(在…之後)。 | 操作指南、食譜、技術支持。 |
Legal | 一種客觀的正式文本,包含法律術語且結構清晰。文本類型的名稱通常包含在標題中(合同、規則、修正案、一般條款和條件等)。常見特徵:客觀/事實性、法律術語、第三人稱。 | 細則、軟件許可證、公告、條款和條件、合同、法律、版權聲明、大學規定。 |
News | 一種客觀或主觀的文本,報道寫作時最近發生或即將發生的事件。常見特徵:時間和/或地點的副詞/狀語從句(日期、地點)、許多專有名詞、直接或間接引語、過去時態。 | 新聞報道、體育報道、旅遊博客、新聞紀實、警方報告、公告。 |
Opinion/Argumentation | 一種主觀文本,作者在其中表達自己的觀點或敘述自己的經歷。包括宣傳某種意識形態和其他非商業事業。這種體裁也包括個人經歷的主觀敘述。常見特徵:傳達觀點的形容詞/副詞、傳達(不)確定性的詞彙(肯定地、當然)、第一人稱、感嘆號。 | 評論、博客(個人博客、旅遊博客)、社論、建議、讀者來信、有說服力的文章或論文、正式演講、宣傳冊、政治宣傳、專欄、政治宣言。 |
Promotion | 一種主觀文本,旨在推銷或宣傳事件、產品或服務。它面向讀者,常試圖說服他們參與某事或購買某物。常見特徵:包含推銷某物的形容詞/副詞(高質量、完美、驚人)、形容詞和副詞的比較級和最高級形式(最好的、最偉大的、最便宜的)、稱呼讀者(使用第二人稱)、感嘆號。 | 廣告、產品推廣(電商平臺)、住宿推廣、公司服務推廣、活動邀請。 |
Forum | 人們以評論形式討論特定話題的文本。常見特徵:多個作者、非正式語言、主觀(作者表達自己的觀點)、第一人稱寫作。 | 討論論壇、讀者/觀眾反饋、問答論壇。 |
Prose/Lyrical | 一種由段落或詩句組成的文學文本。文學文本被認為除了給讀者帶來愉悅外沒有其他實際用途。作者通常會關注文本的美學外觀。它可以被視為藝術。 | 歌詞、詩歌、祈禱文、笑話、小說、短篇小說。 |
Other | 不屬於其他任何體裁類別的文本。 |
微調超參數
使用simpletransformers
進行微調。事先進行了簡要的超參數優化,推測的最優超參數如下:
model_args= {
"num_train_epochs": 15,
"learning_rate": 1e-5,
"max_seq_length": 512,
"silent": True
}
🔧 技術細節
文檔未提及技術實現細節,故跳過此章節。
📄 許可證
本模型採用CC - BY - SA 4.0許可證。
相關信息表格
屬性 | 詳情 |
---|---|
模型類型 | 基於xlm - roberta - base 的多語言文本體裁分類器 |
訓練數據 | [TajaKuzman/X - GENRE - text - genre - dataset](https://huggingface.co/datasets/TajaKuzman/X - GENRE - text - genre - dataset) |
常用提示信息
⚠️ 重要提示
為獲得可靠結果,體裁分類器應應用於足夠長度的文檔(經驗法則是至少75個單詞)。建議不要使用置信度高於0.9的預測結果。此外,標籤“Other”可作為預測低置信度的另一個指標,因為它通常表明文本沒有任何體裁的足夠特徵,這些預測結果也可捨棄。
💡 使用建議
關於為體裁識別準備數據以及結果後處理的示例,可參考[此處](https://github.com/TajaKuzman/Applying - GENRE - on - MaCoCu - bilingual),我們在此將X - GENRE分類器應用於MaCoCu平行語料庫的英文部分。








