🚀 sahajBERT新闻文章分类
sahajBERT是一个经过微调的模型,用于对新闻文章进行分类。它基于预训练的sahajBERT模型,使用IndicGlue数据集的sna.bn
子集进行训练。该模型可以将新闻文章分为6个不同的类别,包括加尔各答、邦、国家、体育、娱乐和国际。
🚀 快速开始
如何使用
你可以使用transformers
库中的TextClassificationPipeline
直接使用这个模型进行序列分类:
from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)
raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।"
output = pipeline(raw_text)
✨ 主要特性
- 多类别分类:该模型可以将新闻文章分为6个不同的类别,包括加尔各答、邦、国家、体育、娱乐和国际。
- 预训练模型:基于预训练的sahajBERT模型,使用IndicGlue数据集的
sna.bn
子集进行微调。
- 易于使用:可以使用
transformers
库中的TextClassificationPipeline
直接使用该模型进行序列分类。
📦 安装指南
暂未提供安装步骤相关内容,跳过该章节。
💻 使用示例
基础用法
from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)
raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।"
output = pipeline(raw_text)
高级用法
暂未提供高级用法相关内容,跳过该章节。
📚 详细文档
模型描述
sahajBERT 是一个基于Transformer架构的预训练模型,用于处理孟加拉语文本。该模型在IndicGlue数据集的sna.bn
子集上进行了微调,用于新闻文章分类任务。
该模型可以将新闻文章分为以下6个不同的类别:
标签ID |
标签 |
0 |
加尔各答 |
1 |
邦 |
2 |
国家 |
3 |
体育 |
4 |
娱乐 |
5 |
国际 |
预期用途和限制
限制和偏差
相关内容正在完善中(WIP)。
训练数据
该模型在第19519步使用了 sahajBERT 的预训练权重进行初始化,并在 IndicGlue 的 sna.bn
子集上进行训练。
训练过程
相关内容即将推出!
评估结果
评估指标 |
数值 |
损失 |
0.2477145493030548 |
准确率 |
0.926293408929837 |
宏F1值 |
0.9079785326650756 |
召回率 |
0.926293408929837 |
加权F1值 |
0.9266428029354202 |
宏精确率 |
0.9109938492260489 |
微精确率 |
0.926293408929837 |
加权精确率 |
0.9288535478995414 |
宏召回率 |
0.9069095007692186 |
微召回率 |
0.926293408929837 |
加权召回率 |
0.926293408929837 |
BibTeX引用和引用信息
相关内容即将推出!
📄 许可证
本项目采用Apache 2.0许可证。