🚀 AraModernBert 主題分類模型
AraModernBert 是一個用於主題分類的實驗性阿拉伯語模型,它展示瞭如何將 ModernBERT 適配到阿拉伯語,以完成主題分類等任務。該模型基於原始 ModernBERT 基礎模型,使用自定義的阿拉伯語訓練分詞器,僅在主題分類任務上進行訓練。
🚀 快速開始
該模型可以使用 transformers
庫進行文本分類。以下是一個使用示例:
from transformers import pipeline
classifier = pipeline(
task="text-classification",
model="Omartificial-Intelligence-Space/AraModernBert-Topic-Classifier",
)
sample = '''
PUT SOME TEXT HERE TO CLASSIFY ITS TOPIC
'''
classifier(sample)
✨ 主要特性
- 這是 ModernBERT-base 的實驗性阿拉伯語版本。
- 僅在主題分類任務上進行訓練,使用原始 ModernBERT 的基礎模型和自定義的阿拉伯語訓練分詞器。
- 訓練數據集為阿拉伯語維基百科,大小為 1.8 GB,包含 228,788,529 個標記。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import pipeline
classifier = pipeline(
task="text-classification",
model="Omartificial-Intelligence-Space/AraModernBert-Topic-Classifier",
)
sample = '''
PUT SOME TEXT HERE TO CLASSIFY ITS TOPIC
'''
classifier(sample)
高級用法
文檔未提及高級用法示例,故不展示此部分。
📚 詳細文檔
模型評估詳情
- 訓練輪數(Epochs):3
- 評估指標:
- 訓練步數:47,862
訓練使用的數據集
- 使用 SANAD 數據集 進行訓練和測試,該數據集包含 7 個不同的主題,如政治、金融、醫學、文化、體育、科技和宗教。
測試階段結果
- 模型在包含 14181 個不同主題示例的測試集上進行評估,這些主題的分佈如下:

- 模型在該測試集上的預測準確率如下:

引用信息
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
🔧 技術細節
文檔未提供詳細技術實現細節,故跳過此章節。
📄 許可證
該模型使用 Apache-2.0 許可證。
模型信息表格
屬性 |
詳情 |
模型類型 |
用於主題分類的阿拉伯語版本 ModernBERT |
訓練數據 |
阿拉伯語維基百科、SANAD 數據集 |
基礎模型 |
answerdotai/ModernBERT-base |
庫名稱 |
transformers |
標籤 |
modernbert、arabic |
任務標籤 |
文本分類 |
重要提示
⚠️ 重要提示
這是一個實驗性的阿拉伯語模型,展示瞭如何將 ModernBERT 適配到阿拉伯語以進行主題分類等任務。