ClickbaitFighter-10Bオープンソースモデル - 無料でデプロイし、スペイン語のタイトル党ニュースの背後にある真実を明かす

ホーム

Clickbaitfighter 10B

Ikerによって開発

NoticIAデータセットでファインチューニングされたスペイン語の釣りタイトルニュース要約生成モデル。センセーショナルな見出しの背後にある真実を明らかにします

大規模言語モデル

Transformers

スペイン語#スペイン語の釣りタイトル解析 #ニュース要約生成 #高ROUGEスコア

ダウンロード数 48

リリース時間 : 3/22/2024

モデル概要

このモデルはスペイン語の釣りタイトルニュースを分析し、見出しの背後にある真実を簡潔な要約で明らかにするために特別に設計されています。Nous-Hermes-2-SOLAR-10.7Bをベースにファインチューニングされており、NoticIAデータセットで優れた性能を発揮します。

モデル特徴

釣りタイトルニュース解析

スペイン語の釣りタイトルニュースに特化して設計されており、センセーショナルな見出しを効果的に識別・分解できます

正確な要約生成

核心的事実に焦点を当てた一文要約を生成し、特に直接引用文の処理に優れています

高品質なファインチューニング

NoticIA専門データセットでファインチューニングされており、ROUGEスコア52.01を達成

モデル能力

スペイン語テキスト理解

釣りタイトルコンテンツ識別

ニュース要約生成

直接引用文抽出

使用事例

ニュースメディア

釣りタイトルニュースの事実確認

ニュースプラットフォーム向けに釣りタイトルニュースの真実要約を自動生成

読者がニュースの本質を素早く理解するのに役立ちます

コンテンツモデレーション

ソーシャルメディアコンテンツ審査

ソーシャルメディア上の誤解を招くタイトルコンテンツを識別

人間の審査チームの効率向上を支援

🚀 クイックスタート

このモデルはNoticIAデータセットを使用してファインチューニングされたもので、煽りタイトルのニュース記事の要約を生成することができます。

✨ 主な機能

煽りタイトルのニュース記事の要約生成
多言語対応（スペイン語）

📦 インストール

このモデルを使用するには、以下のライブラリをインストールする必要があります。

pip install torch
pip3 install newspaper3k
pip install transformers
pip install datasets

💻 使用例

基本的な使用法

ウェブ記事の要約

import torch # pip install torch
from newspaper import Article #pip3 install newspaper3k
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig # pip install transformers

article_url ="https://www.huffingtonpost.es/virales/le-compra-abrigo-abuela-97nos-reaccion-fantasia.html"
article = Article(article_url)
article.download()
article.parse()
headline=article.title
body = article.text

def prompt(
    headline: str,
    body: str,
) -> str:
    """
    Generate the prompt for the model.

    Args:
        headline (`str`):
            The headline of the article.
        body (`str`):
            The body of the article.
    Returns:
        `str`: The formatted prompt.
    """

    return (
        f"Ahora eres una Inteligencia Artificial experta en desmontar titulares sensacionalistas o clickbait. "
        f"Tu tarea consiste en analizar noticias con titulares sensacionalistas y "
        f"generar un resumen de una sola frase que revele la verdad detrás del titular.\n"
        f"Este es el titular de la noticia: {headline}\n"
        f"El titular plantea una pregunta o proporciona información incompleta. "
        f"Debes buscar en el cuerpo de la noticia una frase que responda lo que se sugiere en el título. "
        f"Siempre que puedas cita el texto original, especialmente si se trata de una frase que alguien ha dicho. "
        f"Si citas una frase que alguien ha dicho, usa comillas para indicar que es una cita. "
        f"Usa siempre las mínimas palabras posibles. No es necesario que la respuesta sea una oración completa. "
        f"Puede ser sólo el foco de la pregunta. "
        f"Recuerda responder siempre en Español.\n"
        f"Este es el cuerpo de la noticia:\n"
        f"{body}\n"
    )

prompt = prompt(headline=headline, body=body)

tokenizer = AutoTokenizer.from_pretrained("Iker/ClickbaitFighter-10B")
model = AutoModelForCausalLM.from_pretrained(
    "Iker/ClickbaitFighter-10B", torch_dtype=torch.bfloat16, device_map="auto"
)

formatted_prompt = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    tokenize=False,
    add_generation_prompt=True,
)

model_inputs = tokenizer(
    [formatted_prompt], return_tensors="pt", add_special_tokens=False
)

model_output = model.generate(**model_inputs.to(model.device), generation_config=GenerationConfig(
  max_new_tokens=32,
  min_new_tokens=1,
  do_sample=False,
  num_beams=1,
  use_cache=True
))

summary = tokenizer.batch_decode(model_output,skip_special_tokens=True)[0]

print(summary.strip().split("\n")[-1]) # Get only the summary, without the prompt.

NoticIAデータセットでの推論実行

import torch # pip install torch
from datasets import load_dataset # pip install datasets
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig # pip install transformers

dataset = load_dataset("Iker/NoticIA")
example = dataset["test"][0]
headline = example["web_headline"]
body = example["web_text"]

def prompt(
    headline: str,
    body: str,
) -> str:
    """
    Generate the prompt for the model.

    Args:
        headline (`str`):
            The headline of the article.
        body (`str`):
            The body of the article.
    Returns:
        `str`: The formatted prompt.
    """

    return (
        f"Ahora eres una Inteligencia Artificial experta en desmontar titulares sensacionalistas o clickbait. "
        f"Tu tarea consiste en analizar noticias con titulares sensacionalistas y "
        f"generar un resumen de una sola frase que revele la verdad detrás del titular.\n"
        f"Este es el titular de la noticia: {headline}\n"
        f"El titular plantea una pregunta o proporciona información incompleta. "
        f"Debes buscar en el cuerpo de la noticia una frase que responda lo que se sugiere en el título. "
        f"Siempre que puedas cita el texto original, especialmente si se trata de una frase que alguien ha dicho. "
        f"Si citas una frase que alguien ha dicho, usa comillas para indicar que es una cita. "
        f"Usa siempre las mínimas palabras posibles. No es necesario que la respuesta sea una oración completa. "
        f"Puede ser sólo el foco de la pregunta. "
        f"Recuerda responder siempre en Español.\n"
        f"Este es el cuerpo de la noticia:\n"
        f"{body}\n"
    )

prompt = prompt(headline=headline, body=body)

tokenizer = AutoTokenizer.from_pretrained("Iker/ClickbaitFighter-10B")
model = AutoModelForCausalLM.from_pretrained(
    "Iker/ClickbaitFighter-10B", torch_dtype=torch.bfloat16, device_map="auto"
)

formatted_prompt = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    tokenize=False,
    add_generation_prompt=True,
)

model_inputs = tokenizer(
    [formatted_prompt], return_tensors="pt", add_special_tokens=False
)

model_output = model.generate(**model_inputs.to(model.device), generation_config=GenerationConfig(
  max_new_tokens=32,
  min_new_tokens=1,
  do_sample=False,
  num_beams=1,
  use_cache=True
))

summary = tokenizer.batch_decode(model_output,skip_special_tokens=True)[0]

print(summary.strip().split("\n")[-1]) # Get only the summary, without the prompt.

📚 ドキュメント

オープンソースモデル

Property	Details
Model Type	Iker/ClickbaitFighter-2B, Iker/ClickbaitFighter-7B, Iker/ClickbaitFighter-10B
Param. no.	2B, 7B, 10M
ROUGE	36.26, 49.81, 52.01

評価結果

📄 ライセンス

このモデルはCC BY-NC-SA 4.0ライセンスの下で公開されています。

📚 引用

@misc{noticia2024,
      title={NoticIA: A Clickbait Article Summarization Dataset in Spanish}, 
      author={Iker García-Ferrero and Begoña Altuna},
      year={2024},
      eprint={2404.07611},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}