Chinese-Sentiment-Analysis-Fund-Direction開源模型 - 專業分析基金文本正負中性情感

首頁

Chinese Sentiment Analysis Fund Direction

由sanshizhang開發

基於BERT架構的中文情感分析模型，專門針對基金領域文本進行優化，支持負面、正面和中性三類情感分類。

文本分類

Transformers

中文開源協議:Apache-2.0 #基金領域情感分析 #高精度BERT模型 #金融文本處理

下載量 111

發布時間 : 3/15/2024

模型概述

該模型是一個針對金融領域（特別是基金相關文本）的中文情感分析模型，能夠準確識別文本中的負面、正面和中性情緒。模型基於約10萬+數據訓練，在驗證集上達到0.94的準確率。

模型特點

領域專業化

專門針對基金領域文本優化，相比通用情感分析模型在該領域表現更佳

高準確率

在驗證集上達到0.94的準確率，特別是負面情感識別準確率達0.93

數據質量高

基於10萬+數據訓練，其中負面文本經過專人處理，確保標註質量

模型能力

中文文本情感分類

基金領域文本分析

負面情緒檢測

情感置信度輸出

使用案例

金融分析

基金評論情感分析

分析投資者對基金的評論情緒，幫助瞭解市場情緒

可準確識別負面評論，幫助風險預警

財經新聞情感分析

分析財經新聞對市場的影響程度

區分新聞的正面、負面和中性影響

風險管理

投資者情緒監控

監控社交媒體和論壇中的投資者情緒變化

及時發現負面情緒聚集，預警潛在風險

🚀 基金中文情感分析模型

本項目構建了一個基金方面的中文情感分析模型，利用約10w+的數據進行訓練，在驗證集上取得了較好的效果。該模型可用於判斷基金相關文本的情感傾向，如積極、消極或中性。

🚀 快速開始

環境準備

確保你已經安裝了torch和transformers庫。可以使用以下命令進行安裝：

pip install torch transformers

運行測試代碼

將以下代碼保存為一個Python文件（例如test.py），並在命令行中運行：

python test.py [要分析的文本]

測試代碼示例

import sys
import re
import torch
from transformers import BertTokenizer, BertForSequenceClassification
from torch.nn.functional import softmax

# 設定使用CPU或CUDA
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# 載入預先保存的模型和分詞器
model = BertForSequenceClassification.from_pretrained('sanshizhang/Chinese-Sentiment-Analysis-Fund-Direction')
tokenizer = BertTokenizer.from_pretrained('sanshizhang/Chinese-Sentiment-Analysis-Fund-Direction')

# 確保模型在正確的設備上
model = model.to(device)
model.eval()  # 把模型設置為評估模式

# 函數定義：進行預測並返回預測概率
def predict_sentiment(text):
    # 編碼文本數據
    encoding = tokenizer.encode_plus(
        text,
        max_length=512,
        add_special_tokens=True,
        return_token_type_ids=False,
        padding='max_length',  # 修改此處
        return_attention_mask=True,
        return_tensors='pt',
        truncation=True
    )

    # 取出輸入對應的編碼
    input_ids = encoding['input_ids'].to(device)
    attention_mask = encoding['attention_mask'].to(device)

    # 不計算梯度
    with torch.no_grad():
        # 產生情感預測的logits
        outputs = model(input_ids=input_ids, attention_mask=attention_mask)

    # 使用softmax將logits轉換為概率
    probs = softmax(outputs.logits, dim=1)

    # 返回概率和預測的類別
    return probs, torch.argmax(probs, dim=1).cpu().numpy()[0]

# 從命令行參數獲取文本，合併並清理特殊字符
arguments = sys.argv[1:]  # 忽略腳本名稱
text = ' '.join(arguments)  # 合併為單一字符串
text = re.sub(r"[^\u4e00-\u9fff\d.a-zA-Z%+\-。！？，、；：（）【】《》“”‘’]", '', text)  # 去除特殊字符

# print(f"傳過來的文本是: {text}")
# 進行預測
probabilities, prediction = predict_sentiment(text)

sentiment_labels = {0: 'negative', 1: 'positive', 2: 'neutral'}

# 打印出預測的情感及其概率
predicted_sentiment = sentiment_labels[prediction]
print(f"Predicted sentiment: {predicted_sentiment},Probability:{probabilities[0][prediction].item()}")
# print(f"Probability: {probabilities[0][prediction].item()}")