bert-turkish-text-classificationオープンソースモデル - トルコ語のテキストを7つの事前定義されたカテゴリに正確に分類

ホーム

Bert Turkish Text Classification

savasyによって開発

これはBERTアーキテクチャに基づいて微調整されたトルコ語テキスト分類モデルで、トルコ語テキストを7つの事前定義されたカテゴリに分類することができます。

テキスト分類その他#トルコ語BERT #多クラス分類 #ニューストピック識別

ダウンロード数 523

リリース時間 : 3/2/2022

モデル概要

このモデルは、トルコ語テキスト分類タスクに特化しており、テキストを世界、経済、文化、健康、政治、スポーツ、科学技術の7つのカテゴリに分類することをサポートしています。

モデル特徴

トルコ語最適化

トルコ語BERTモデルに基づいて微調整され、トルコ語テキスト分類タスクに特化して最適化されています。

多クラス分類

7つの異なるカテゴリのテキスト分類をサポートし、主要なニュース分野を網羅しています。

使いやすさ

簡単なAPIインターフェースを提供し、様々なアプリケーションに容易に統合できます。

モデル能力

トルコ語テキスト分類

多クラス予測

テキスト内容分析

使用事例

ニュース分類

ニュース自動分類

トルコ語ニュースを事前定義された7つのカテゴリに自動分類します。

論文で報告されたレベルの精度を達成します。

内容分析

ソーシャルメディア内容分析

トルコ語ソーシャルメディアの内容のトピック分布を分析します。

🚀 トルコ語テキスト分類

このモデルは、以下の7つのカテゴリがあるテキスト分類データを使用して、https://github.com/stefan-it/turkish-bert をファインチューニングしたモデルです。

code_to_label={
 'LABEL_0': 'dunya ',
 'LABEL_1': 'ekonomi ',
 'LABEL_2': 'kultur ',
 'LABEL_3': 'saglik ',
 'LABEL_4': 'siyaset ',
 'LABEL_5': 'spor ',
 'LABEL_6': 'teknoloji '}

📚 引用

必要に応じて、以下の論文を引用してください。

@misc{yildirim2024finetuning,
      title={Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks}, 
      author={Savas Yildirim},
      year={2024},
      eprint={2401.17396},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@book{yildirim2021mastering,
  title={Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques},
  author={Yildirim, Savas and Asgari-Chenaghlu, Meysam},
  year={2021},
  publisher={Packt Publishing Ltd}
}

📊 データ

ファインチューニングには、以下のトルコ語のベンチマークデータセットが使用されています。

https://www.kaggle.com/savasy/ttc4900

🚀 クイックスタート

まずは、以下のようにtransformersをインストールします。

pip install transformers

# コード:
# ライブラリのインポート
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification
tokenizer= AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")

# モデルの構築と読み込み、インターネット接続に応じて時間がかかります
model= AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")

# パイプラインの作成
nlp=pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# モデルの適用
nlp("bla bla")
# [{'label': 'LABEL_2', 'score': 0.4753005802631378}]

code_to_label={
 'LABEL_0': 'dunya ',
 'LABEL_1': 'ekonomi ',
 'LABEL_2': 'kultur ',
 'LABEL_3': 'saglik ',
 'LABEL_4': 'siyaset ',
 'LABEL_5': 'spor ',
 'LABEL_6': 'teknoloji '}
 
code_to_label[nlp("bla bla")[0]['label']]
# > 'kultur '

🔧 モデルの学習方法

## トルコ語テキスト分類用のデータの読み込み
import pandas as pd
# https://www.kaggle.com/savasy/ttc4900
df=pd.read_csv("7allV03.csv")
df.columns=["labels","text"]
df.labels=pd.Categorical(df.labels)

traind_df=...
eval_df=...

# モデル
from simpletransformers.classification import ClassificationModel
import torch,sklearn

model_args = {
    "use_early_stopping": True,
    "early_stopping_delta": 0.01,
    "early_stopping_metric": "mcc",
    "early_stopping_metric_minimize": False,
    "early_stopping_patience": 5,
    "evaluate_during_training_steps": 1000,
    "fp16": False,
    "num_train_epochs":3
}

model = ClassificationModel(
    "bert", 
    "dbmdz/bert-base-turkish-cased",
     use_cuda=cuda_available, 
     args=model_args, 
     num_labels=7
)
model.train_model(train_df, acc=sklearn.metrics.accuracy_score)