Randeng-T5-large中文情感分析模型开源 - 支持多种格式的中英文情感分析任务

首页

Randeng T5 Large Sentiment Analysis Chinese

由 yuyijiong 开发

基于Randeng-T5-784M-MultiTask-Chinese微调的中英文情感分析模型，支持多种情感分析任务格式输出

文本分类

Transformers

支持多种语言#细粒度情感分析 #多任务文本生成 #中英文混合处理

下载量 35

发布时间 : 4/9/2023

模型简介

这是一个多任务情感分析模型，能够处理中英文文本的情感分析任务，支持从四元组到单元素的不同粒度情感分析输出格式。

模型特点

多任务情感分析

支持8种不同格式的情感分析输出，从四元组到单元素极性判断

中英文支持

能够处理中文和英文文本的情感分析任务

灵活控制

支持通过提示词控制输出格式、观点长度、领域指定等

自动补全

能够自动补全未明确提及的情感对象(null)

模型能力

文本情感分析

观点抽取

情感极性判断

多格式输出转换

中英文情感分析

使用案例

电商评论分析

商品评价分析

从商品评论中提取用户对商品各方面的情感倾向

可输出商品特征、用户观点和情感极性的结构化数据

社交媒体监测

舆情分析

分析社交媒体文本中的情感倾向

可识别正面、负面或中性情绪

🚀 中文多任务情感分析模型

本项目基于transformers库构建，是一个支持多种格式情感分析的模型。它由IDEA-CCNL/Randeng-T5-784M-MultiTask-Chinese在多个中英文情感分析数据集上微调得到，可输出多种格式的情感分析结果，并支持通过额外条件控制答案生成。

🚀 快速开始

安装依赖

确保你已经安装了transformers和evaluate库，若未安装，可使用以下命令进行安装：

pip install transformers evaluate

运行示例代码

以下是一个使用该模型进行情感分析评估的示例代码：

import evaluate
module = evaluate.load("yuyijiong/quad_match_score")
predictions=["food | good | food#taste | pos"]
references=["food | good | food#taste | pos & service | bad | service#general | neg"]
result=module.compute(predictions=predictions, references=references)
print(result)

✨ 主要特性

多格式输出：支持输出四元组、二元组、三元组等多种格式的情感分析结果。
额外条件控制：可以通过额外条件控制答案的生成，如答案风格控制、指定方面的情感分析、补全null对象等。
多语言支持：在多个中英文情感分析数据集上微调，支持中英文情感分析任务。

📦 安装指南

你可以通过以下命令安装所需的依赖库：

pip install transformers evaluate

💻 使用示例

基础用法

import torch
from transformers import T5Tokenizer, AutoModelForSeq2SeqLM

tokenizer = T5Tokenizer.from_pretrained("yuyijiong/Randeng-T5-large-sentiment-analysis-Chinese")
model = AutoModelForSeq2SeqLM.from_pretrained("yuyijiong/Randeng-T5-large-sentiment-analysis-Chinese", device_map="auto")
generation_config=GenerationConfig.from_pretrained("yuyijiong/Randeng-T5-large-sentiment-analysis-Chinese")
text = '情感四元组(对象 | 观点 | 方面 | 极性)抽取任务(观点可以较长): [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]'
input_ids = tokenizer(text,return_tensors="pt", padding=True)['input_ids'].cuda(0)
with torch.no_grad():
  output = model.generate(input_ids=input_ids,generation_config=generation_config)
output_str = tokenizer.batch_decode(output, skip_special_tokens=True)
print(output_str)

高级用法

不同任务示例

["四元组(对象 | 观点 | 方面 | 极性)",
'二元组(对象 | 观点)',
'三元组(对象 | 观点 | 方面)',
'三元组(对象 | 观点 | 极性)',
'三元组(对象 | 方面 | 极性)',
'二元组(方面 | 极性)',
'二元组(观点 | 极性)',
'单元素(极性)']

额外条件控制示例

答案风格控制
- (观点尽量短)
- (观点可以较长)
指定方面的情感分析
- (方面选项:商品/物流/商家/平台)
补全null对象
- (补全null)

具体使用示例

Q:情感四元组(对象 | 观点 | 方面 | 极性)抽取任务(观点可以较长): [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]
A:个头 | 大 | 商品#大小 | 积极 & 口感 | 不错 | 商品#口感 | 积极 & null | 个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好 | 商品#新鲜程度 | 消极

Q:情感四元组(对象 | 观点 | 方面 | 极性)抽取任务(观点可以较长，补全null): [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]
A:个头 | 大 | 商品#大小 | 积极 & 口感 | 不错 | 商品#口感 | 积极 & null (个别) | 有烂掉口子刻意用泥土封着,这样做不好 | 商品#新鲜程度 | 消极

Q:情感四元组(对象 | 观点 | 方面 | 极性)抽取任务(观点尽量短): [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]
A:个头 | 大 | 商品#大小 | 积极 & 口感 | 不错 | 商品#口感 | 积极

Q:情感三元组(对象 | 观点 | 极性)抽取任务(观点可以较长，补全null): [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]
A:个头 | 大 | 积极 & 口感 | 不错 | 积极 & null (花生) | 个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好 | 消极

Q:判断以下评论的情感极性: [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]
A:中性

Q:情感二元组(方面 | 极性)抽取任务(方面选项: 价格#性价比/价格#折扣/价格#水平/食品#外观/食物#分量/食物#味道/食物#推荐): [个头大、口感不错,就是个别坏了的或者有烂掉口子刻意用泥土封着,这样做不好。]
A:食物#分量 | 积极 & 食物#味道 | 中性

Q:sentiment quadruples (target | opinion | aspect | polarity) extraction task : [The hot dogs are good , yes , but the reason to get over here is the fantastic pork croquette sandwich , perfect on its supermarket squishy bun .]
A:hot dogs | good | food#quality | pos & pork croquette sandwich | fantastic | food#quality | pos & bun | perfect | food#quality | pos

📚 详细文档

输出格式

输出格式为

'对象1 | 观点1 | 方面1 | 情感极性1 & 对象2 | 观点2 | 方面2 | 情感极性2 ......'

评估指标

可以使用yuyijiong/quad_match_score评估指标进行评估。

支持的情感分析任务

["四元组(对象 | 观点 | 方面 | 极性)",
'二元组(对象 | 观点)',
'三元组(对象 | 观点 | 方面)',
'三元组(对象 | 观点 | 极性)',
'三元组(对象 | 方面 | 极性)',
'二元组(方面 | 极性)',
'二元组(观点 | 极性)',
'单元素(极性)']

额外条件说明

答案风格控制：可以控制抽取的观点为整句话或缩减为几个词，如(观点尽量短)、(观点可以较长)。
指定方面的情感分析：可以对指定的方面做情感分析，如(方面选项:商品/物流/商家/平台)。
补全null对象：情感对象target可能为null，表示文本中未明确给出，可以允许模型自动猜测为null的对象，如(补全null)。

🔧 技术细节

本模型基于IDEA-CCNL/Randeng-T5-784M-MultiTask-Chinese在多个中英文情感分析数据集上微调得到，使用transformers库进行模型的加载和推理，使用evaluate库进行评估指标的计算。

📄 许可证

文档中未提及许可证信息。若有相关信息，请补充后可进一步完善此部分内容。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库