ClickbaitFighter-10B开源模型 - 免费部署揭秘西班牙语标题党新闻背后真相

首页

Clickbaitfighter 10B

由 Iker 开发

基于NoticIA数据集微调的西班牙语标题党新闻摘要生成模型，能揭示耸动标题背后的真实内容

大型语言模型

Transformers

西班牙语#西班牙语标题党解析 #新闻摘要生成 #高ROUGE分数

下载量 48

发布时间 : 3/22/2024

模型简介

该模型专门用于分析西班牙语标题党新闻，生成简洁摘要揭示标题背后的真实信息。基于Nous-Hermes-2-SOLAR-10.7B微调，在NoticIA数据集上表现优异。

模型特点

标题党新闻解析

专门针对西班牙语标题党新闻设计，能有效识别和拆解耸动标题

精确摘要生成

生成一句话摘要，聚焦核心事实，特别擅长处理直接引语

高质量微调

基于NoticIA专业数据集微调，ROUGE分数达52.01

模型能力

西班牙语文本理解

标题党内容识别

新闻摘要生成

直接引语提取

使用案例

新闻媒体

标题党新闻事实核查

为新闻平台自动生成标题党新闻的真相摘要

帮助读者快速了解新闻实质内容

内容审核

社交媒体内容审核

识别社交媒体上的误导性标题内容

辅助人工审核团队提高效率

🚀 标题党新闻摘要生成模型

本项目基于 NousResearch/Nous-Hermes-2-SOLAR-10.7B 模型，使用 Iker/NoticIA 数据集微调得到，可用于分析标题党新闻并生成一句话摘要，揭示标题背后的真相。

🚀 快速开始

本模型是使用 NoticIA 数据集微调得到的，可用于生成标题党新闻的摘要。

模型信息

属性	详情
模型类型	基于 `transformers` 库的因果语言模型
训练数据	`Iker/NoticIA` 数据集
评估指标	ROUGE

开源模型

模型名称	Iker/ClickbaitFighter-2B	Iker/ClickbaitFighter-7B	Iker/ClickbaitFighter-10B
参数数量	2B	7B	10M
ROUGE 得分	36.26	49.81	52.01

评估结果

💻 使用示例

总结网页文章

import torch # pip install torch
from newspaper import Article #pip3 install newspaper3k
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig # pip install transformers

article_url ="https://www.huffingtonpost.es/virales/le-compra-abrigo-abuela-97nos-reaccion-fantasia.html"
article = Article(article_url)
article.download()
article.parse()
headline=article.title
body = article.text

def prompt(
    headline: str,
    body: str,
) -> str:
    """
    Generate the prompt for the model.

    Args:
        headline (`str`):
            The headline of the article.
        body (`str`):
            The body of the article.
    Returns:
        `str`: The formatted prompt.
    """

    return (
        f"Ahora eres una Inteligencia Artificial experta en desmontar titulares sensacionalistas o clickbait. "
        f"Tu tarea consiste en analizar noticias con titulares sensacionalistas y "
        f"generar un resumen de una sola frase que revele la verdad detrás del titular.\n"
        f"Este es el titular de la noticia: {headline}\n"
        f"El titular plantea una pregunta o proporciona información incompleta. "
        f"Debes buscar en el cuerpo de la noticia una frase que responda lo que se sugiere en el título. "
        f"Siempre que puedas cita el texto original, especialmente si se trata de una frase que alguien ha dicho. "
        f"Si citas una frase que alguien ha dicho, usa comillas para indicar que es una cita. "
        f"Usa siempre las mínimas palabras posibles. No es necesario que la respuesta sea una oración completa. "
        f"Puede ser sólo el foco de la pregunta. "
        f"Recuerda responder siempre en Español.\n"
        f"Este es el cuerpo de la noticia:\n"
        f"{body}\n"
    )

prompt = prompt(headline=headline, body=body)

tokenizer = AutoTokenizer.from_pretrained("Iker/ClickbaitFighter-10B")
model = AutoModelForCausalLM.from_pretrained(
    "Iker/ClickbaitFighter-10B", torch_dtype=torch.bfloat16, device_map="auto"
)

formatted_prompt = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    tokenize=False,
    add_generation_prompt=True,
)

model_inputs = tokenizer(
    [formatted_prompt], return_tensors="pt", add_special_tokens=False
)

model_output = model.generate(**model_inputs.to(model.device), generation_config=GenerationConfig(
  max_new_tokens=32,
  min_new_tokens=1,
  do_sample=False,
  num_beams=1,
  use_cache=True
))

summary = tokenizer.batch_decode(model_output,skip_special_tokens=True)[0]

print(summary.strip().split("\n")[-1]) # Get only the summary, without the prompt.

在 NoticIA 数据集上进行推理

import torch # pip install torch
from datasets import load_dataset # pip install datasets
from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig # pip install transformers

dataset = load_dataset("Iker/NoticIA")
example = dataset["test"][0]
headline = example["web_headline"]
body = example["web_text"]

def prompt(
    headline: str,
    body: str,
) -> str:
    """
    Generate the prompt for the model.

    Args:
        headline (`str`):
            The headline of the article.
        body (`str`):
            The body of the article.
    Returns:
        `str`: The formatted prompt.
    """

    return (
        f"Ahora eres una Inteligencia Artificial experta en desmontar titulares sensacionalistas o clickbait. "
        f"Tu tarea consiste en analizar noticias con titulares sensacionalistas y "
        f"generar un resumen de una sola frase que revele la verdad detrás del titular.\n"
        f"Este es el titular de la noticia: {headline}\n"
        f"El titular plantea una pregunta o proporciona información incompleta. "
        f"Debes buscar en el cuerpo de la noticia una frase que responda lo que se sugiere en el título. "
        f"Siempre que puedas cita el texto original, especialmente si se trata de una frase que alguien ha dicho. "
        f"Si citas una frase que alguien ha dicho, usa comillas para indicar que es una cita. "
        f"Usa siempre las mínimas palabras posibles. No es necesario que la respuesta sea una oración completa. "
        f"Puede ser sólo el foco de la pregunta. "
        f"Recuerda responder siempre en Español.\n"
        f"Este es el cuerpo de la noticia:\n"
        f"{body}\n"
    )

prompt = prompt(headline=headline, body=body)

tokenizer = AutoTokenizer.from_pretrained("Iker/ClickbaitFighter-10B")
model = AutoModelForCausalLM.from_pretrained(
    "Iker/ClickbaitFighter-10B", torch_dtype=torch.bfloat16, device_map="auto"
)

formatted_prompt = tokenizer.apply_chat_template(
    [{"role": "user", "content": prompt}],
    tokenize=False,
    add_generation_prompt=True,
)

model_inputs = tokenizer(
    [formatted_prompt], return_tensors="pt", add_special_tokens=False
)

model_output = model.generate(**model_inputs.to(model.device), generation_config=GenerationConfig(
  max_new_tokens=32,
  min_new_tokens=1,
  do_sample=False,
  num_beams=1,
  use_cache=True
))

summary = tokenizer.batch_decode(model_output,skip_special_tokens=True)[0]

print(summary.strip().split("\n")[-1]) # Get only the summary, without the prompt.

📄 许可证

本项目采用 cc-by-nc-sa-4.0 许可证。

📚 引用

@misc{noticia2024,
      title={NoticIA: A Clickbait Article Summarization Dataset in Spanish}, 
      author={Iker García-Ferrero and Begoña Altuna},
      year={2024},
      eprint={2404.07611},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}