Chinese-Sentiment-Analysis-Fund-Direction开源模型 - 专业分析基金文本正负中性情感

首页

Chinese Sentiment Analysis Fund Direction

由 sanshizhang 开发

基于BERT架构的中文情感分析模型，专门针对基金领域文本进行优化，支持负面、正面和中性三类情感分类。

文本分类

Transformers

中文开源协议:Apache-2.0 #基金领域情感分析 #高精度BERT模型 #金融文本处理

下载量 111

发布时间 : 3/15/2024

模型简介

该模型是一个针对金融领域（特别是基金相关文本）的中文情感分析模型，能够准确识别文本中的负面、正面和中性情绪。模型基于约10万+数据训练，在验证集上达到0.94的准确率。

模型特点

领域专业化

专门针对基金领域文本优化，相比通用情感分析模型在该领域表现更佳

高准确率

在验证集上达到0.94的准确率，特别是负面情感识别准确率达0.93

数据质量高

基于10万+数据训练，其中负面文本经过专人处理，确保标注质量

模型能力

中文文本情感分类

基金领域文本分析

负面情绪检测

情感置信度输出

使用案例

金融分析

基金评论情感分析

分析投资者对基金的评论情绪，帮助了解市场情绪

可准确识别负面评论，帮助风险预警

财经新闻情感分析

分析财经新闻对市场的影响程度

区分新闻的正面、负面和中性影响

风险管理

投资者情绪监控

监控社交媒体和论坛中的投资者情绪变化

及时发现负面情绪聚集，预警潜在风险

🚀 基金中文情感分析模型

本项目构建了一个基金方面的中文情感分析模型，利用约10w+的数据进行训练，在验证集上取得了较好的效果。该模型可用于判断基金相关文本的情感倾向，如积极、消极或中性。

🚀 快速开始

环境准备

确保你已经安装了torch和transformers库。可以使用以下命令进行安装：

pip install torch transformers

运行测试代码

将以下代码保存为一个Python文件（例如test.py），并在命令行中运行：

python test.py [要分析的文本]

测试代码示例

import sys
import re
import torch
from transformers import BertTokenizer, BertForSequenceClassification
from torch.nn.functional import softmax

# 设定使用CPU或CUDA
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# 载入预先保存的模型和分词器
model = BertForSequenceClassification.from_pretrained('sanshizhang/Chinese-Sentiment-Analysis-Fund-Direction')
tokenizer = BertTokenizer.from_pretrained('sanshizhang/Chinese-Sentiment-Analysis-Fund-Direction')

# 确保模型在正确的设备上
model = model.to(device)
model.eval()  # 把模型设置为评估模式

# 函数定义：进行预测并返回预测概率
def predict_sentiment(text):
    # 编码文本数据
    encoding = tokenizer.encode_plus(
        text,
        max_length=512,
        add_special_tokens=True,
        return_token_type_ids=False,
        padding='max_length',  # 修改此处
        return_attention_mask=True,
        return_tensors='pt',
        truncation=True
    )

    # 取出输入对应的编码
    input_ids = encoding['input_ids'].to(device)
    attention_mask = encoding['attention_mask'].to(device)

    # 不计算梯度
    with torch.no_grad():
        # 产生情感预测的logits
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)

    # 使用softmax将logits转换为概率
    probs = softmax(outputs.logits, dim=1)

    # 返回概率和预测的类别
    return probs, torch.argmax(probs, dim=1).cpu().numpy()[0]

# 从命令行参数获取文本，合并并清理特殊字符
arguments = sys.argv[1:]  # 忽略脚本名称
text = ' '.join(arguments)  # 合并为单一字符串
text = re.sub(r"[^\u4e00-\u9fff\d.a-zA-Z%+\-。！？，、；：（）【】《》“”‘’]", '', text)  # 去除特殊字符

# print(f"传过来的文本是: {text}")
# 进行预测
probabilities, prediction = predict_sentiment(text)

sentiment_labels = {0: 'negative', 1: 'positive', 2: 'neutral'}

# 打印出预测的情感及其概率
predicted_sentiment = sentiment_labels[prediction]
print(f"Predicted sentiment: {predicted_sentiment},Probability:{probabilities[0][prediction].item()}")
# print(f"Probability: {probabilities[0][prediction].item()}")