X-GENRE多語言文本體裁分類器 - 開源支持多種語言自動體裁識別

首頁

Xlm Roberta Base Multilingual Text Genre Classifier

由classla開發

X-GENRE分類器是一個基於xlm-roberta-base的多語言文本體裁分類模型，支持多種語言的自動體裁識別。

文本分類

Transformers

支持多種語言#多語言體裁識別 #高精度文本分類 #跨語言魯棒性

下載量 774

發布時間 : 11/11/2022

模型概述

該模型在多語言手動標註的X-GENRE體裁數據集上進行了微調，可用於自動識別文本體裁，適用於xlm-roberta-base支持的任何語言文本。

模型特點

多語言支持

支持多種語言的文本體裁分類，適用於xlm-roberta-base支持的任何語言文本。

高性能

在AGILE基準測試中表現優於其他技術，包括GPT模型。

廣泛的體裁覆蓋

支持9種不同的文本體裁分類，包括新聞、法律、促銷等。

模型能力

多語言文本體裁分類

自動體裁識別

文本分類

使用案例

文本分析

大型文本集合的體裁標註

為大型文本集合自動添加體裁信息，便於後續分析和處理。

經過後處理後，性能達到宏F1和微F1值為0.92。

多語言文本體裁識別

識別多種語言文本的體裁，支持阿爾巴尼亞語、加泰羅尼亞語、克羅地亞語等多種語言。

在多語言測試數據集（X-GINCO）上宏F1值為0.847，微F1值為0.845。

🚀 X-GENRE分類器 - 多語言文本體裁分類器

X-GENRE分類器是一個基於xlm-roberta-base的文本分類模型，在多語言手動標註的X-GENRE體裁數據集上進行了微調。該模型可用於自動體裁識別，適用於xlm-roberta-base支持的任何語言文本。

🚀 快速開始

本模型基於xlm-roberta-base，並在多語言手動標註的X-GENRE體裁數據集上進行了微調。你可以將其用於自動體裁識別，只要文本語言是xlm-roberta-base支持的即可。

模型開發、數據集以及模型在數據集內、跨數據集和多語言方面的性能詳情，可參考論文Automatic Genre Identification for Robust Enrichment of Massive Text Collections: Investigation of Classification Methods in the Era of Large Language Models (Kuzman et al., 2023)。

你也可以從CLARIN.SI倉庫下載該模型。

如果你使用了該模型，請引用以下論文：

@article{kuzman2023automatic,
  title={Automatic Genre Identification for Robust Enrichment of Massive Text Collections: Investigation of Classification Methods in the Era of Large Language Models},
  author={Kuzman, Taja and Mozeti{\v{c}}, Igor and Ljube{\v{s}}i{\'c}, Nikola},
  journal={Machine Learning and Knowledge Extraction},
  volume={5},
  number={3},
  pages={1149--1175},
  year={2023},
  publisher={MDPI}
}

✨ 主要特性

多語言支持：支持多種語言的文本體裁分類。
高性能：在AGILE基準測試中，相較於其他技術（包括GPT模型）表現更優。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from simpletransformers.classification import ClassificationModel
model_args= {
            "num_train_epochs": 15,
            "learning_rate": 1e-5,
            "max_seq_length": 512,
            "silent": True
            }
model = ClassificationModel(
    "xlmroberta", "classla/xlm-roberta-base-multilingual-text-genre-classifier", use_cuda=True,
    args=model_args
    
)
predictions, logit_output = model.predict(["How to create a good text classification model? First step is to prepare good data. Make sure not to skip the exploratory data analysis. Pre-process the text if necessary for the task. The next step is to perform hyperparameter search to find the optimum hyperparameters. After fine-tuning the model, you should look into the predictions and analyze the model's performance. You might want to perform the post-processing of data as well and keep only reliable predictions.", 
                                        "On our site, you can find a great genre identification model which you can use for thousands of different tasks. With our model, you can fastly and reliably obtain high-quality genre predictions and explore which genres exist in your corpora. Available for free!"]
                                        )
predictions
# Output: array([3, 8])

[model.config.id2label[i] for i in predictions]
# Output: ['Instruction', 'Promotion']

高級用法

使用批量處理在數據集上進行預測的示例，可通過Google Collab查看。

📚 詳細文檔

AGILE - 自動體裁識別基準測試

我們設立了一個基準測試，用於評估自動體裁識別模型的魯棒性，以測試其在為大型文本集合自動添加體裁信息方面的可用性。該基準測試涵蓋11種歐洲語言和兩個測試數據集。歡迎你在基準測試的GitHub倉庫提交你的結果。

該模型在性能上優於所有其他技術，包括在零樣本場景下使用的GPT模型。

以下是在英文測試數據集（EN - GINCO）上的結果：

模型	測試數據集	宏F1值	微F1值
[X - GENRE分類器](https://huggingface.co/classla/xlm - roberta - base - multilingual - text - genre - classifier)	en - ginco	0.687	0.684
GPT - 4o (gpt - 4o - 2024 - 08 - 06) (零樣本)	en - ginco	0.62	0.735
Llama 3.3 (70B) (零樣本)	en - ginco	0.586	0.684
Gemma 2 (27B) (零樣本)	en - ginco	0.564	0.603
Gemma 3 (27B) (零樣本)	en - ginco	0.541	0.672
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18) (零樣本)	en - ginco	0.534	0.632
支持向量機	en - ginco	0.514	0.489
GPT - 3.5 - Turbo (零樣本)	en - ginco	0.494	0.625
DeepSeek - R1 14B (零樣本)	en - ginco	0.293	0.229
虛擬分類器 (分層)	en - ginco	0.088	0.154
虛擬分類器 (最頻繁)	en - ginco	0.032	0.169

以下是在多語言測試數據集（X - GINCO）上的結果，該數據集包含阿爾巴尼亞語、加泰羅尼亞語、克羅地亞語、希臘語、冰島語、馬其頓語、馬耳他語、斯洛文尼亞語、土耳其語和烏克蘭語的實例：

模型	測試數據集	宏F1值	微F1值
[X - GENRE分類器](https://huggingface.co/classla/xlm - roberta - base - multilingual - text - genre - classifier)	x - ginco	0.847	0.845
GPT - 4o (gpt - 4o - 2024 - 08 - 06) (零樣本)	x - ginco	0.776	0.769
Llama 3.3 (70B) (零樣本)	x - ginco	0.741	0.738
Gemma 3 (27B) (零樣本)	x - ginco	0.739	0.733
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18) (零樣本)	x - ginco	0.688	0.67
GPT - 3.5 - Turbo (零樣本)	x - ginco	0.627	0.622
Gemma 2 (27B) (零樣本)	x - ginco	0.612	0.593
DeepSeek - R1 14B (零樣本)	x - ginco	0.197	0.204
支持向量機	x - ginco	0.166	0.184
虛擬分類器 (分層)	x - ginco	0.106	0.113
虛擬分類器 (最頻繁)	x - ginco	0.029	0.133

（多語言測試數據集比英文測試數據集更容易，因為模糊標籤“Other”和預測置信度分數低於0.80的實例未包含在測試數據集中。）

如需查看特定語言的結果，請參考[AGILE基準測試](https://github.com/TajaKuzman/AGILE - Automatic - Genre - Identification - Benchmark)。

預期用途和限制

用法

關於為體裁識別準備數據以及結果後處理的示例，可參考[此處](https://github.com/TajaKuzman/Applying - GENRE - on - MaCoCu - bilingual)，我們在此將X - GENRE分類器應用於MaCoCu平行語料庫的英文部分。

為獲得可靠結果，體裁分類器應應用於足夠長度的文檔（經驗法則是至少75個單詞）。建議不要使用置信度高於0.9的預測結果。此外，標籤“Other”可作為預測低置信度的另一個指標，因為它通常表明文本沒有任何體裁的足夠特徵，這些預測結果也可捨棄。

經過建議的後處理（去除低置信度預測、標籤“Other”，在這種特定情況下還去除標籤“Forum”）後，基於手動檢查，在MaCoCu數據上的性能達到宏F1和微F1值為0.92。

X - GENRE類別

標籤列表

labels_list=['Other', 'Information/Explanation', 'News', 'Instruction', 'Opinion/Argumentation', 'Forum', 'Prose/Lyrical', 'Legal', 'Promotion'],

labels_map={'Other': 0, 'Information/Explanation': 1, 'News': 2, 'Instruction': 3, 'Opinion/Argumentation': 4, 'Forum': 5, 'Prose/Lyrical': 6, 'Legal': 7, 'Promotion': 8}

標籤描述

標籤	描述	示例
Information/Explanation	一種客觀文本，用於描述或呈現事件、人物、事物、概念等。其主要目的是向讀者傳達信息。常見特徵：客觀/事實性、概念的解釋/定義（x是…）、列舉。	研究文章、百科全書文章、信息博客、產品規格、課程材料、一般信息、職位描述、手冊、星座運勢、旅遊指南、詞彙表、歷史文章、傳記故事/歷史。
Instruction	一種客觀文本，指導讀者如何做某事。常見特徵：多個步驟/動作、時間順序、第一人稱複數或第二人稱、情態動詞（必須、不得不、需要、可以等）、方式狀語從句（以某種方式）、條件狀語從句（如果）、時間狀語從句（在…之後）。	操作指南、食譜、技術支持。
Legal	一種客觀的正式文本，包含法律術語且結構清晰。文本類型的名稱通常包含在標題中（合同、規則、修正案、一般條款和條件等）。常見特徵：客觀/事實性、法律術語、第三人稱。	細則、軟件許可證、公告、條款和條件、合同、法律、版權聲明、大學規定。
News	一種客觀或主觀的文本，報道寫作時最近發生或即將發生的事件。常見特徵：時間和/或地點的副詞/狀語從句（日期、地點）、許多專有名詞、直接或間接引語、過去時態。	新聞報道、體育報道、旅遊博客、新聞紀實、警方報告、公告。
Opinion/Argumentation	一種主觀文本，作者在其中表達自己的觀點或敘述自己的經歷。包括宣傳某種意識形態和其他非商業事業。這種體裁也包括個人經歷的主觀敘述。常見特徵：傳達觀點的形容詞/副詞、傳達（不）確定性的詞彙（肯定地、當然）、第一人稱、感嘆號。	評論、博客（個人博客、旅遊博客）、社論、建議、讀者來信、有說服力的文章或論文、正式演講、宣傳冊、政治宣傳、專欄、政治宣言。
Promotion	一種主觀文本，旨在推銷或宣傳事件、產品或服務。它面向讀者，常試圖說服他們參與某事或購買某物。常見特徵：包含推銷某物的形容詞/副詞（高質量、完美、驚人）、形容詞和副詞的比較級和最高級形式（最好的、最偉大的、最便宜的）、稱呼讀者（使用第二人稱）、感嘆號。	廣告、產品推廣（電商平臺）、住宿推廣、公司服務推廣、活動邀請。
Forum	人們以評論形式討論特定話題的文本。常見特徵：多個作者、非正式語言、主觀（作者表達自己的觀點）、第一人稱寫作。	討論論壇、讀者/觀眾反饋、問答論壇。
Prose/Lyrical	一種由段落或詩句組成的文學文本。文學文本被認為除了給讀者帶來愉悅外沒有其他實際用途。作者通常會關注文本的美學外觀。它可以被視為藝術。	歌詞、詩歌、祈禱文、笑話、小說、短篇小說。
Other	不屬於其他任何體裁類別的文本。

微調超參數

使用simpletransformers進行微調。事先進行了簡要的超參數優化，推測的最優超參數如下：

model_args= {
            "num_train_epochs": 15,
            "learning_rate": 1e-5,
            "max_seq_length": 512,
            "silent": True
            }

🔧 技術細節

文檔未提及技術實現細節，故跳過此章節。

📄 許可證

本模型採用CC - BY - SA 4.0許可證。

屬性	詳情
模型類型	基於`xlm - roberta - base`的多語言文本體裁分類器
訓練數據	[TajaKuzman/X - GENRE - text - genre - dataset](https://huggingface.co/datasets/TajaKuzman/X - GENRE - text - genre - dataset)

常用提示信息

⚠️ 重要提示

為獲得可靠結果，體裁分類器應應用於足夠長度的文檔（經驗法則是至少75個單詞）。建議不要使用置信度高於0.9的預測結果。此外，標籤“Other”可作為預測低置信度的另一個指標，因為它通常表明文本沒有任何體裁的足夠特徵，這些預測結果也可捨棄。

💡 使用建議

關於為體裁識別準備數據以及結果後處理的示例，可參考[此處](https://github.com/TajaKuzman/Applying - GENRE - on - MaCoCu - bilingual)，我們在此將X - GENRE分類器應用於MaCoCu平行語料庫的英文部分。