🚀 AraModernBert 主题分类模型
AraModernBert 是一个用于主题分类的实验性阿拉伯语模型,它展示了如何将 ModernBERT 适配到阿拉伯语,以完成主题分类等任务。该模型基于原始 ModernBERT 基础模型,使用自定义的阿拉伯语训练分词器,仅在主题分类任务上进行训练。
🚀 快速开始
该模型可以使用 transformers
库进行文本分类。以下是一个使用示例:
from transformers import pipeline
classifier = pipeline(
task="text-classification",
model="Omartificial-Intelligence-Space/AraModernBert-Topic-Classifier",
)
sample = '''
PUT SOME TEXT HERE TO CLASSIFY ITS TOPIC
'''
classifier(sample)
✨ 主要特性
- 这是 ModernBERT-base 的实验性阿拉伯语版本。
- 仅在主题分类任务上进行训练,使用原始 ModernBERT 的基础模型和自定义的阿拉伯语训练分词器。
- 训练数据集为阿拉伯语维基百科,大小为 1.8 GB,包含 228,788,529 个标记。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import pipeline
classifier = pipeline(
task="text-classification",
model="Omartificial-Intelligence-Space/AraModernBert-Topic-Classifier",
)
sample = '''
PUT SOME TEXT HERE TO CLASSIFY ITS TOPIC
'''
classifier(sample)
高级用法
文档未提及高级用法示例,故不展示此部分。
📚 详细文档
模型评估详情
- 训练轮数(Epochs):3
- 评估指标:
- 训练步数:47,862
训练使用的数据集
- 使用 SANAD 数据集 进行训练和测试,该数据集包含 7 个不同的主题,如政治、金融、医学、文化、体育、科技和宗教。
测试阶段结果
- 模型在包含 14181 个不同主题示例的测试集上进行评估,这些主题的分布如下:

- 模型在该测试集上的预测准确率如下:

引用信息
@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
🔧 技术细节
文档未提供详细技术实现细节,故跳过此章节。
📄 许可证
该模型使用 Apache-2.0 许可证。
模型信息表格
属性 |
详情 |
模型类型 |
用于主题分类的阿拉伯语版本 ModernBERT |
训练数据 |
阿拉伯语维基百科、SANAD 数据集 |
基础模型 |
answerdotai/ModernBERT-base |
库名称 |
transformers |
标签 |
modernbert、arabic |
任务标签 |
文本分类 |
重要提示
⚠️ 重要提示
这是一个实验性的阿拉伯语模型,展示了如何将 ModernBERT 适配到阿拉伯语以进行主题分类等任务。