roberta-base-stocktwits-finetuned開源模型 - 精準分析股票評論情感傾向

首頁

Roberta Base Stocktwits Finetuned

由zhayunduo開發

基於roberta-base模型微調的股票評論情感分析模型，可判斷散戶投資者言論的看漲/看跌傾向

文本分類

Transformers

英語開源協議:Apache-2.0 #金融情感分析 #股票論壇文本分類 #高準確率微調

下載量 2,118

發布時間 : 4/2/2022

模型概述

該模型專門用於分析投資論壇中的股票相關評論，識別用戶言論中的看漲或看跌情緒。基於320萬條標記數據訓練，適用於金融領域的文本情感分析。

模型特點

專業金融領域訓練

使用Stocktwits平臺的320萬條專業標記金融評論數據進行微調

高效文本預處理

內置處理金融文本特有元素(股票代碼、用戶名、URL等)的預處理流程

高準確率

經過4輪訓練後驗證準確率達到93.43%

模型能力

金融文本情感分析

看漲/看跌情緒識別

投資論壇評論分類

使用案例

金融分析

投資情緒監測

即時分析投資論壇中的用戶情緒，監測市場情緒變化

準確識別93%以上的看漲/看跌評論

量化交易信號

為量化交易策略提供社交媒體情緒指標

🚀 股票相關評論情感推理模型

本項目由新加坡國立大學信息系統學院的學生 Frank Cao、Gerong Zhang、Jiaqi Yao、Sikai Ni、Yunduo Zhang 共同完成，旨在構建一個用於分析股票相關評論情感的模型。該模型基於 RoBERTa-base 進行微調，能夠有效判斷評論中的情感傾向，為投資者提供有價值的參考。

🚀 快速開始

此模型是基於 RoBERTa-base 模型，在來自 Stocktwits 的 3200000 條評論上進行微調得到的。這些評論帶有用戶標註的 “Bullish”（看漲）或 “Bearish”（看跌）標籤。你可以在推理 API 上嘗試輸入個人投資者在投資論壇上可能會說的內容，例如 “red”（跌）和 “green”（漲）。

查看 GitHub 代碼

✨ 主要特性

精準情感分析：通過大量股票評論數據訓練，能準確判斷評論的看漲或看跌情感。
易於使用：提供簡單的代碼示例，方便開發者集成到自己的項目中。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

from transformers import RobertaForSequenceClassification, RobertaTokenizer
from transformers import pipeline
import pandas as pd
import emoji

# the model was trained upon below preprocessing
def process_text(texts):

  # remove URLs
  texts = re.sub(r'https?://\S+', "", texts)
  texts = re.sub(r'www.\S+', "", texts)
  # remove '
  texts = texts.replace('&#39;', "'")
  # remove symbol names
  texts = re.sub(r'(\#)(\S+)', r'hashtag_\2', texts)
  texts = re.sub(r'(\$)([A-Za-z]+)', r'cashtag_\2', texts)
  # remove usernames
  texts = re.sub(r'(\@)(\S+)', r'mention_\2', texts)
  # demojize
  texts = emoji.demojize(texts, delimiters=("", " "))

  return texts.strip()
  
tokenizer_loaded = RobertaTokenizer.from_pretrained('zhayunduo/roberta-base-stocktwits-finetuned')
model_loaded = RobertaForSequenceClassification.from_pretrained('zhayunduo/roberta-base-stocktwits-finetuned')

nlp = pipeline("text-classification", model=model_loaded, tokenizer=tokenizer_loaded)

sentences = pd.Series(['just buy','just sell it',
                      'entity rocket to the sky!',
                      'go down','even though it is going up, I still think it will not keep this trend in the near future'])
# sentences = list(sentences.apply(process_text))  # if input text contains https, @ or # or $ symbols, better apply preprocess to get a more accurate result
sentences = list(sentences)
results = nlp(sentences)
print(results) # 2 labels, label 0 is bearish, label 1 is bullish

🔧 技術細節

訓練信息

批量大小：32
學習率：2e-5

輪次	訓練損失	驗證損失	驗證準確率
epoch1	0.3495	0.2956	0.8679
epoch2	0.2717	0.2235	0.9021
epoch3	0.2360	0.1875	0.9210
epoch4	0.2106	0.1603	0.9343

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 詳細文檔

屬性	詳情
模型類型	文本分類
訓練數據	來自 Stocktwits 的 3200000 條評論，帶有 “Bullish” 或 “Bearish” 標籤
評估指標	準確率
庫名稱	transformers
標籤	金融