🚀 sahajBERT新聞文章分類
sahajBERT是一個經過微調的模型,用於對新聞文章進行分類。它基於預訓練的sahajBERT模型,使用IndicGlue數據集的sna.bn
子集進行訓練。該模型可以將新聞文章分為6個不同的類別,包括加爾各答、邦、國家、體育、娛樂和國際。
🚀 快速開始
如何使用
你可以使用transformers
庫中的TextClassificationPipeline
直接使用這個模型進行序列分類:
from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)
raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।"
output = pipeline(raw_text)
✨ 主要特性
- 多類別分類:該模型可以將新聞文章分為6個不同的類別,包括加爾各答、邦、國家、體育、娛樂和國際。
- 預訓練模型:基於預訓練的sahajBERT模型,使用IndicGlue數據集的
sna.bn
子集進行微調。
- 易於使用:可以使用
transformers
庫中的TextClassificationPipeline
直接使用該模型進行序列分類。
📦 安裝指南
暫未提供安裝步驟相關內容,跳過該章節。
💻 使用示例
基礎用法
from transformers import AlbertForSequenceClassification, TextClassificationPipeline, PreTrainedTokenizerFast
tokenizer = PreTrainedTokenizerFast.from_pretrained("neuropark/sahajBERT-NCC")
model = AlbertForSequenceClassification.from_pretrained("neuropark/sahajBERT-NCC")
pipeline = TextClassificationPipeline(tokenizer=tokenizer, model=model)
raw_text = "এই ইউনিয়নে ৩ টি মৌজা ও ১০ টি গ্রাম আছে ।"
output = pipeline(raw_text)
高級用法
暫未提供高級用法相關內容,跳過該章節。
📚 詳細文檔
模型描述
sahajBERT 是一個基於Transformer架構的預訓練模型,用於處理孟加拉語文本。該模型在IndicGlue數據集的sna.bn
子集上進行了微調,用於新聞文章分類任務。
該模型可以將新聞文章分為以下6個不同的類別:
標籤ID |
標籤 |
0 |
加爾各答 |
1 |
邦 |
2 |
國家 |
3 |
體育 |
4 |
娛樂 |
5 |
國際 |
預期用途和限制
限制和偏差
相關內容正在完善中(WIP)。
訓練數據
該模型在第19519步使用了 sahajBERT 的預訓練權重進行初始化,並在 IndicGlue 的 sna.bn
子集上進行訓練。
訓練過程
相關內容即將推出!
評估結果
評估指標 |
數值 |
損失 |
0.2477145493030548 |
準確率 |
0.926293408929837 |
宏F1值 |
0.9079785326650756 |
召回率 |
0.926293408929837 |
加權F1值 |
0.9266428029354202 |
宏精確率 |
0.9109938492260489 |
微精確率 |
0.926293408929837 |
加權精確率 |
0.9288535478995414 |
宏召回率 |
0.9069095007692186 |
微召回率 |
0.926293408929837 |
加權召回率 |
0.926293408929837 |
BibTeX引用和引用信息
相關內容即將推出!
📄 許可證
本項目採用Apache 2.0許可證。