bert-turkish-text-classification開源模型 - 精準將土耳其語文本分類到7個預定義類別

首頁

Bert Turkish Text Classification

由savasy開發

這是一個基於BERT架構微調的土耳其語文本分類模型，能夠將土耳其語文本分類到7個預定義的類別中。

文本分類其他#土耳其語BERT #多類別分類 #新聞主題識別

下載量 523

發布時間 : 3/2/2022

模型概述

該模型專門用於土耳其語文本分類任務，支持將文本分類為世界、經濟、文化、健康、政治、體育和科技7個類別。

模型特點

土耳其語優化

基於土耳其語BERT模型微調，專門針對土耳其語文本分類任務優化

多類別分類

支持7個不同類別的文本分類，覆蓋主要新聞領域

簡單易用

提供簡單的API接口，便於集成到各種應用中

模型能力

土耳其語文本分類

多類別預測

文本內容分析

使用案例

新聞分類

新聞自動分類

自動將土耳其語新聞分類到預定義的7個類別中

準確率達到論文報告的水平

內容分析

社交媒體內容分析

分析土耳其語社交媒體內容的話題分佈

🚀 土耳其語文本分類

本模型是基於https://github.com/stefan-it/turkish - bert 進行微調的模型，使用了文本分類數據，該數據包含以下7個類別：

code_to_label={
 'LABEL_0': '世界 ',
 'LABEL_1': '經濟 ',
 'LABEL_2': '文化 ',
 'LABEL_3': '健康 ',
 'LABEL_4': '政治 ',
 'LABEL_5': '體育 ',
 'LABEL_6': '科技 '}

🚀 快速開始

首先，按照以下方式安裝transformers庫：

pip install transformers

# 導入庫
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")

# 構建並加載模型，這可能需要一些時間，具體取決於你的網絡連接
model = AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")

# 創建管道
nlp = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# 應用模型
nlp("bla bla")
# [{'label': 'LABEL_2', 'score': 0.4753005802631378}]

code_to_label = {
 'LABEL_0': '世界 ',
 'LABEL_1': '經濟 ',
 'LABEL_2': '文化 ',
 'LABEL_3': '健康 ',
 'LABEL_4': '政治 ',
 'LABEL_5': '體育 ',
 'LABEL_6': '科技 '}
 
code_to_label[nlp("bla bla")[0]['label']]
# > '文化 '

💻 使用示例

基礎用法

# 導入庫
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")

# 構建並加載模型，這可能需要一些時間，具體取決於你的網絡連接
model = AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")

# 創建管道
nlp = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# 應用模型
nlp("bla bla")
# [{'label': 'LABEL_2', 'score': 0.4753005802631378}]

code_to_label = {
 'LABEL_0': '世界 ',
 'LABEL_1': '經濟 ',
 'LABEL_2': '文化 ',
 'LABEL_3': '健康 ',
 'LABEL_4': '政治 ',
 'LABEL_5': '體育 ',
 'LABEL_6': '科技 '}
 
code_to_label[nlp("bla bla")[0]['label']]
# > '文化 '

高級用法

# 加載用於土耳其語文本分類的數據
import pandas as pd
# https://www.kaggle.com/savasy/ttc4900
df = pd.read_csv("7allV03.csv")
df.columns = ["labels", "text"]
df.labels = pd.Categorical(df.labels)

traind_df = ...
eval_df = ...

# 模型
from simpletransformers.classification import ClassificationModel
import torch, sklearn

model_args = {
    "use_early_stopping": True,
    "early_stopping_delta": 0.01,
    "early_stopping_metric": "mcc",
    "early_stopping_metric_minimize": False,
    "early_stopping_patience": 5,
    "evaluate_during_training_steps": 1000,
    "fp16": False,
    "num_train_epochs": 3
}

model = ClassificationModel(
    "bert", 
    "dbmdz/bert-base-turkish-cased",
     use_cuda=cuda_available, 
     args=model_args, 
     num_labels=7
)
model.train_model(train_df, acc=sklearn.metrics.accuracy_score)

📚 詳細文檔

如需瞭解土耳其語文本分類的詳細用法，請查看 Python筆記本

🔧 技術細節

本模型是基於https://github.com/stefan-it/turkish - bert 進行微調的，使用了以下土耳其語基準數據集進行微調：https://www.kaggle.com/savasy/ttc4900 。對於其他訓練模型，請查看https://simpletransformers.ai/ 。

📄 許可證

引用

如需引用，請參考以下論文：

@misc{yildirim2024finetuning,
      title={Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks}, 
      author={Savas Yildirim},
      year={2024},
      eprint={2401.17396},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@book{yildirim2021mastering,
  title={Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques},
  author={Yildirim, Savas and Asgari-Chenaghlu, Meysam},
  year={2021},
  publisher={Packt Publishing Ltd}
}