🚀 高棉語金融情感分析與XLM - RoBERTa
本倉庫包含 [XLM - RoBERTa - base](https://huggingface.co/xlm - roberta - base) 模型的微調版本,該模型專門針對金融領域的高棉語情感分析進行了訓練。該模型在約4000個金融文本樣本的數據集上進行了微調,測試集包含400個樣本。
🚀 快速開始
本項目旨在利用自然語言處理技術,對高棉語金融文本進行情感分析。通過微調 XLM - RoBERTa - base 模型,使其能夠準確判斷金融文本的情感傾向,為金融市場分析提供有價值的信息。
✨ 主要特性
- 語言針對性:專門針對高棉語金融文本進行訓練,彌補了高棉語金融文本在 NLP 研究中的不足。
- 情感分類明確:能夠將金融文本情感分類為積極和消極兩類,為市場分析提供清晰的參考。
- 高性能表現:在驗證集上達到了約 96% 的準確率,能有效對高棉語金融情感進行分類。
📚 詳細文檔
🔍 概述
金融文本(如報告、新聞和收益報表)包含了市場分析的寶貴信息。然而,高棉語金融文本在 NLP 研究中很少受到關注。本項目將 XLM - RoBERTa - base 模型應用於高棉語情感分析,特別是在金融領域。
該模型經過訓練,可將金融文本情感分類為:
- 積極 (1):表示增長、盈利或積極的前景。
- 消極 (0):表示虧損、風險或金融衰退。
📦 模型詳情
屬性 |
詳情 |
基礎模型 |
[XLM - RoBERTa - base](https://huggingface.co/xlm - roberta - base) |
任務 |
情感分析(二分類:積極 / 消極) |
領域 |
金融數據(高棉語) |
數據集大小 |
約 4000 個訓練樣本,400 個測試樣本 |
架構 |
基於 Transformer 的序列分類模型 |
📊 訓練數據
該模型使用高棉語金融文本數據集進行微調,包括:
數據集包含4000 個帶標籤的訓練示例和400 個測試樣本。
⚙️ 訓練詳情
該模型以 XLM - RoBERTa - base 為預訓練模型,進行了3 個輪次的微調。
輪次 |
訓練損失 |
驗證損失 |
準確率 |
1 |
0.163500 |
0.511470 |
XX% |
2 |
0.517700 |
0.581499 |
XX% |
3 |
0.312900 |
0.526096 |
XX% |
訓練配置:
- 學習率:
2e - 5
- 批量大小:
8
- 優化器:AdamW
- 評估策略:每輪次評估
- 損失函數:CrossEntropyLoss
📈 結果
- 準確率:在驗證集上約為 96%。
- 出色表現:該模型能有效對高棉語金融情感進行分類。
- 特定領域優化:微調過程使模型能更好地理解高棉語中的金融術語。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "songhieng/khmer - sentiment - xlm - roberta - base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "ការប្រកាសចំណូលរបស់ក្រុមហ៊ុនមានការកើនឡើងយ៉ាងច្រើន"
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(dim=1).item()
labels_mapping = {0: "Negative", 1: "Positive"}
print(f"Predicted Sentiment: {labels_mapping[predicted_class]}")
📄 許可證
本項目採用 MIT 許可證。