interpress-turkish-news-classificationオープンソースモデル - 高い精度で無料でトルコ語のニュース分類を実現

ホーム

Interpress Turkish News Classification

serdarakyolによって開発

これはトルコ語ニュース分類モデルで、interpressニュースデータセットを基に訓練され、正解率は97%に達します。

テキスト分類その他#トルコ語ニュース分類 #高い正解率(97%)#多カテゴリニュース識別

ダウンロード数 40

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語ニュースを分類するために使用され、政治、経済、国際など10のカテゴリをサポートします。

モデル特徴

高い正解率

訓練データと検証データで97%の正解率を達成します

多カテゴリ分類

10の異なるニュースカテゴリの分類をサポートします

トルコ語対応

トルコ語ニュースに特化して最適化されています

モデル能力

トルコ語テキスト分類

ニュース内容分析

多カテゴリ予測

使用事例

ニュースメディア

ニュース自動分類

ニュース記事を事前定義された10のカテゴリに自動的に分類します

正解率97%

内容分析

ニューストレンド分析

分類結果を通じて特定の期間内のニューストレンドを分析します

🚀 INTERPRESSニュース分類

このプロジェクトは、INTERPRESSニュースの分類に焦点を当てています。特定のデータセットを用いてモデルを訓練し、ニュースを正確に分類し、ニュース情報の効率的な処理をサポートします。

🚀 クイックスタート

このプロジェクトでは、TorchとTensorflowを使用したニュース分類予測の方法が提供されています。あなたのニーズに合わせて適切な方法を選択できます。

✨ 主な機能

実データセット：INTERPRESSからダウンロードした実世界のデータを使用し、選別後108K件のデータをモデル訓練に使用しました。
高い正確性：モデルは訓練データと検証データで97％の正確率を達成しました。
複数フレームワーク対応：TorchとTensorflowの2つのディープラーニングフレームワークをサポートしています。

📦 インストール

Torch

pip install transformers or pip install transformers==4.3.3

Tensorflow

pip install transformers or pip install transformers==4.3.3

💻 使用例

基本的な使用法

Torch

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("serdarakyol/interpress-turkish-news-classification")
model = AutoModelForSequenceClassification.from_pretrained("serdarakyol/interpress-turkish-news-classification")

import torch

if torch.cuda.is_available():    
    device = torch.device("cuda")
    model = model.cuda()
    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('GPU name is:', torch.cuda.get_device_name(0))
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

import numpy as np

def prediction(news):
    news=[news]
    indices=tokenizer.batch_encode_plus(
    news,
    max_length=512,
    add_special_tokens=True,
    return_attention_mask=True,
    padding='max_length',
    truncation=True,
    return_tensors='pt')

    inputs = indices["input_ids"].clone().detach().to(device)
    masks = indices["attention_mask"].clone().detach().to(device)

    with torch.no_grad():
        output = model(inputs, token_type_ids=None,attention_mask=masks)

    logits = output[0]
    logits = logits.detach().cpu().numpy()
    pred = np.argmax(logits,axis=1)[0]
    return pred

news = r"ABD'den Prens Selman'a yaptırım yok Beyaz Saray Sözcüsü Psaki, Muhammed bin Selman'a yaptırım uygulamamanın \"doğru karar\" olduğunu savundu. Psaki, \"Tarihimizde, Demokrat ve Cumhuriyetçi başkanların yönetimlerinde diplomatik ilişki içinde olduğumuz ülkelerin liderlerine yönelik yaptırım getirilmemiştir\" dedi."
# このニュースはこのリンクから見ることができます：https://www.ntv.com.tr/dunya/abdden-prens-selmana-yaptirim-yok,YTeWNv0-oU6Glbhnpjs1JQ (ニュース日付：02/03/2021)

labels = {
    0 : "Culture-Art",
    1 : "Economy",
    2 : "Politics",
    3 : "Education",
    4 : "World",
    5 : "Sport",
    6 : "Technology",
    7 : "Magazine",
    8 : "Health",
    9 : "Agenda"
}
pred = prediction(news)
print(labels[pred])
# > World

Tensorflow

import tensorflow as tf
from transformers import BertTokenizer, TFBertForSequenceClassification
import numpy as np

tokenizer = BertTokenizer.from_pretrained('serdarakyol/interpress-turkish-news-classification')
model = TFBertForSequenceClassification.from_pretrained("serdarakyol/interpress-turkish-news-classification")

news = r"ABD'den Prens Selman'a yaptırım yok Beyaz Saray Sözcüsü Psaki, Muhammed bin Selman'a yaptırım uygulamamanın \"doğru karar\" olduğunu savundu. Psaki, \"Tarihimizde, Demokrat ve Cumhuriyetçi başkanların yönetimlerinde diplomatik ilişki içinde olduğumuz ülkelerin liderlerine yönelik yaptırım getirilmemiştir\" dedi."

inputs = tokenizer(news, return_tensors="tf")
inputs["labels"] = tf.reshape(tf.constant(1), (-1, 1)) # Batch size 1

outputs = model(inputs)
loss = outputs.loss
logits = outputs.logits
pred = np.argmax(logits,axis=1)[0]
print(labels[pred])
# > World