sahajBERT-NCC開源模型 - 免費支持孟加拉語新聞文章6類別精準分類

首頁

Sahajbert NCC

由neuropark開發

基於sahajBERT微調的孟加拉語新聞文章分類模型，支持6個新聞類別分類

文本分類

Transformers

其他開源協議:Apache-2.0 #孟加拉語分類 #新聞分類 #序列分類

下載量 23

發布時間 : 3/2/2022

模型概述

該模型是針對孟加拉語新聞文章進行分類的序列分類模型，能夠將文章分類為加爾各答、邦級、國家級、體育、娛樂和國際6個類別。

模型特點

孟加拉語新聞分類

專門針對孟加拉語新聞文章優化的分類模型

多類別分類

支持6個不同新聞類別的精確分類

基於sahajBERT

在sahajBERT預訓練模型基礎上微調，具有更好的語言理解能力

模型能力

孟加拉語文本理解

新聞文章分類

多類別文本分類

使用案例

新聞媒體

新聞自動分類

自動將孟加拉語新聞文章分類到不同板塊

準確率達92.6%

內容推薦

根據文章分類結果提供個性化內容推薦

信息管理

新聞歸檔

自動歸檔大量孟加拉語新聞文章

🚀 sahajBERT新聞文章分類

sahajBERT是一個經過微調的模型，用於對新聞文章進行分類。它基於預訓練的sahajBERT模型，使用IndicGlue數據集的sna.bn子集進行訓練。該模型可以將新聞文章分為6個不同的類別，包括加爾各答、邦、國家、體育、娛樂和國際。

🚀 快速開始

如何使用

你可以使用transformers庫中的TextClassificationPipeline直接使用這個模型進行序列分類：

from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast

# 初始化分詞器
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化模型
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化管道
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)

raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।" # 請替換為你的文本
output = pipeline(raw_text)

✨ 主要特性

多類別分類：該模型可以將新聞文章分為6個不同的類別，包括加爾各答、邦、國家、體育、娛樂和國際。
預訓練模型：基於預訓練的sahajBERT模型，使用IndicGlue數據集的sna.bn子集進行微調。
易於使用：可以使用transformers庫中的TextClassificationPipeline直接使用該模型進行序列分類。

📦 安裝指南

暫未提供安裝步驟相關內容，跳過該章節。

💻 使用示例

基礎用法

from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast

# 初始化分詞器
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化模型
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")

# 初始化管道
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)

raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।" # 請替換為你的文本
output = pipeline(raw_text)

高級用法

暫未提供高級用法相關內容，跳過該章節。

📚 詳細文檔

模型描述

sahajBERT 是一個基於Transformer架構的預訓練模型，用於處理孟加拉語文本。該模型在IndicGlue數據集的sna.bn子集上進行了微調，用於新聞文章分類任務。

該模型可以將新聞文章分為以下6個不同的類別：

標籤ID	標籤
0	加爾各答
1	邦
2	國家
3	體育
4	娛樂
5	國際

預期用途和限制

限制和偏差

相關內容正在完善中（WIP）。

訓練數據

該模型在第19519步使用了 sahajBERT 的預訓練權重進行初始化，並在 IndicGlue 的 sna.bn 子集上進行訓練。

訓練過程

相關內容即將推出！

評估結果

評估指標	數值
損失	0.2477145493030548
準確率	0.926293408929837
宏F1值	0.9079785326650756
召回率	0.926293408929837
加權F1值	0.9266428029354202
宏精確率	0.9109938492260489
微精確率	0.926293408929837
加權精確率	0.9288535478995414
宏召回率	0.9069095007692186
微召回率	0.926293408929837
加權召回率	0.926293408929837