sahajBERT-NCC开源模型 - 免费支持孟加拉语新闻文章6类别精准分类

首页

Sahajbert NCC

由 neuropark 开发

基于sahajBERT微调的孟加拉语新闻文章分类模型，支持6个新闻类别分类

文本分类

Transformers

其他开源协议:Apache-2.0 #孟加拉语分类 #新闻分类 #序列分类

下载量 23

发布时间 : 3/2/2022

模型简介

该模型是针对孟加拉语新闻文章进行分类的序列分类模型，能够将文章分类为加尔各答、邦级、国家级、体育、娱乐和国际6个类别。

模型特点

孟加拉语新闻分类

专门针对孟加拉语新闻文章优化的分类模型

多类别分类

支持6个不同新闻类别的精确分类

基于sahajBERT

在sahajBERT预训练模型基础上微调，具有更好的语言理解能力

模型能力

孟加拉语文本理解

新闻文章分类

多类别文本分类

使用案例

新闻媒体

新闻自动分类

自动将孟加拉语新闻文章分类到不同板块

准确率达92.6%

内容推荐

根据文章分类结果提供个性化内容推荐

信息管理

新闻归档

自动归档大量孟加拉语新闻文章

🚀 sahajBERT新闻文章分类

sahajBERT是一个经过微调的模型，用于对新闻文章进行分类。它基于预训练的sahajBERT模型，使用IndicGlue数据集的sna.bn子集进行训练。该模型可以将新闻文章分为6个不同的类别，包括加尔各答、邦、国家、体育、娱乐和国际。

🚀 快速开始

如何使用

你可以使用transformers库中的TextClassificationPipeline直接使用这个模型进行序列分类：

from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast

# 初始化分词器
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化模型
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化管道
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)

raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।" # 请替换为你的文本
output = pipeline(raw_text)

✨ 主要特性

多类别分类：该模型可以将新闻文章分为6个不同的类别，包括加尔各答、邦、国家、体育、娱乐和国际。
预训练模型：基于预训练的sahajBERT模型，使用IndicGlue数据集的sna.bn子集进行微调。
易于使用：可以使用transformers库中的TextClassificationPipeline直接使用该模型进行序列分类。

📦 安装指南

暂未提供安装步骤相关内容，跳过该章节。

💻 使用示例

基础用法

from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast

# 初始化分词器
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化模型
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化管道
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)

raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।" # 请替换为你的文本
output = pipeline(raw_text)

高级用法

暂未提供高级用法相关内容，跳过该章节。

📚 详细文档

模型描述

sahajBERT 是一个基于Transformer架构的预训练模型，用于处理孟加拉语文本。该模型在IndicGlue数据集的sna.bn子集上进行了微调，用于新闻文章分类任务。

该模型可以将新闻文章分为以下6个不同的类别：

标签ID	标签
0	加尔各答
1	邦
2	国家
3	体育
4	娱乐
5	国际

预期用途和限制

限制和偏差

训练数据

该模型在第19519步使用了 sahajBERT 的预训练权重进行初始化，并在 IndicGlue 的 sna.bn 子集上进行训练。

训练过程

评估结果

评估指标	数值
损失	0.2477145493030548
准确率	0.926293408929837
宏F1值	0.9079785326650756
召回率	0.926293408929837
加权F1值	0.9266428029354202
宏精确率	0.9109938492260489
微精确率	0.926293408929837
加权精确率	0.9288535478995414
宏召回率	0.9069095007692186
微召回率	0.926293408929837
加权召回率	0.926293408929837