🚀 高棉语金融情感分析与XLM - RoBERTa
本仓库包含 [XLM - RoBERTa - base](https://huggingface.co/xlm - roberta - base) 模型的微调版本,该模型专门针对金融领域的高棉语情感分析进行了训练。该模型在约4000个金融文本样本的数据集上进行了微调,测试集包含400个样本。
🚀 快速开始
本项目旨在利用自然语言处理技术,对高棉语金融文本进行情感分析。通过微调 XLM - RoBERTa - base 模型,使其能够准确判断金融文本的情感倾向,为金融市场分析提供有价值的信息。
✨ 主要特性
- 语言针对性:专门针对高棉语金融文本进行训练,弥补了高棉语金融文本在 NLP 研究中的不足。
- 情感分类明确:能够将金融文本情感分类为积极和消极两类,为市场分析提供清晰的参考。
- 高性能表现:在验证集上达到了约 96% 的准确率,能有效对高棉语金融情感进行分类。
📚 详细文档
🔍 概述
金融文本(如报告、新闻和收益报表)包含了市场分析的宝贵信息。然而,高棉语金融文本在 NLP 研究中很少受到关注。本项目将 XLM - RoBERTa - base 模型应用于高棉语情感分析,特别是在金融领域。
该模型经过训练,可将金融文本情感分类为:
- 积极 (1):表示增长、盈利或积极的前景。
- 消极 (0):表示亏损、风险或金融衰退。
📦 模型详情
属性 |
详情 |
基础模型 |
[XLM - RoBERTa - base](https://huggingface.co/xlm - roberta - base) |
任务 |
情感分析(二分类:积极 / 消极) |
领域 |
金融数据(高棉语) |
数据集大小 |
约 4000 个训练样本,400 个测试样本 |
架构 |
基于 Transformer 的序列分类模型 |
📊 训练数据
该模型使用高棉语金融文本数据集进行微调,包括:
数据集包含4000 个带标签的训练示例和400 个测试样本。
⚙️ 训练详情
该模型以 XLM - RoBERTa - base 为预训练模型,进行了3 个轮次的微调。
轮次 |
训练损失 |
验证损失 |
准确率 |
1 |
0.163500 |
0.511470 |
XX% |
2 |
0.517700 |
0.581499 |
XX% |
3 |
0.312900 |
0.526096 |
XX% |
训练配置:
- 学习率:
2e - 5
- 批量大小:
8
- 优化器:AdamW
- 评估策略:每轮次评估
- 损失函数:CrossEntropyLoss
📈 结果
- 准确率:在验证集上约为 96%。
- 出色表现:该模型能有效对高棉语金融情感进行分类。
- 特定领域优化:微调过程使模型能更好地理解高棉语中的金融术语。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "songhieng/khmer - sentiment - xlm - roberta - base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
text = "ការប្រកាសចំណូលរបស់ក្រុមហ៊ុនមានការកើនឡើងយ៉ាងច្រើន"
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
outputs = model(**inputs)
predicted_class = outputs.logits.argmax(dim=1).item()
labels_mapping = {0: "Negative", 1: "Positive"}
print(f"Predicted Sentiment: {labels_mapping[predicted_class]}")
📄 许可证
本项目采用 MIT 许可证。