Sujet-Finance-8B-v0.1开源金融语言模型 - 专注金融文本分析任务

首页

Sujet Finance 8B V0.1

由 sujet-ai 开发

基于LLAMA 3 8B微调的金融领域专用语言模型，专注于金融文本分析任务

大型语言模型

Transformers

英语开源协议:Apache-2.0 #金融问答 #主题分类 #情感分析

下载量 27

发布时间 : 4/21/2024

模型简介

一款针对金融领域优化的语言模型，能够执行金融文本的是非判断、主题分类和情感分析等任务

模型特点

金融领域优化

专门针对金融文本进行微调，在金融相关任务上表现优异

多任务支持

同时支持是非判断、主题分类和情感分析三大金融任务

均衡训练

采用均衡采样策略，确保模型全面覆盖各类金融场景

高效微调

使用LoRA技术进行高效微调，降低计算资源需求

模型能力

金融文本生成

金融是非判断

金融主题分类

金融情感分析

金融问答

使用案例

金融分析

金融新闻情感分析

分析金融新闻的情感倾向（看涨/看跌/中性）

准确判断金融文本情感倾向

金融主题分类

将金融文本分类为公司新闻、市场动态、财报等20个类别

准确分类金融文本主题

金融问答系统

回答简单的金融是非问题

准确回答金融领域的是非问题

🚀 苏杰金融 8B v0.1 模型介绍

苏杰金融 8B v0.1 是一款专注于金融领域的语言模型，它在苏杰金融指令 177k 数据集上进行了精细微调。该模型基于强大的 LLAMA 3 模型，能够精准处理各类金融问题，为金融领域的信息分析和决策提供有力支持。

模型图片

✨ 主要特性

🎯 微调聚焦

在首次微调中，模型着重关注以下三个关键金融任务：

✅❌ 是非问题回答
- 描述：回答需要简单“是”或“否”回应的金融问题。
- 类别分布：
  - 训练集：5265 个“是”的示例，5302 个“否”的示例。
  - 评估集：1340 个“是”的示例，1303 个“否”的示例。
📂 主题分类
- 描述：将金融文本分类到特定的金融相关类别，如公司新闻、市场、收益等。
- 类别分布：
  - 训练集：在 20 个类别中均衡分布，每个类别有 29 - 40 个示例。
  - 评估集：各类别数量不同，每个类别有 4 - 15 个示例。
😊😐😡 情感分析
- 描述：分析金融文本，将情感分类为积极、消极、中性、看跌或看涨。
- 类别分布：
  - 训练集：1160 个积极示例，1155 个消极示例，1150 个中性示例，1133 个看跌示例，1185 个看涨示例。
  - 评估集：281 个积极示例，286 个消极示例，291 个中性示例，308 个看跌示例，256 个看涨示例。

🎓 训练方法

为确保最佳性能，采用了平衡的训练方法。在数据集准备过程中，从三个重点任务的每个子类别中策略性地选择了相同数量的示例。最终的平衡训练数据集包含 17036 个示例，评估数据集包含 4259 个示例。

🔧 模型规格

属性	详情
基础模型	LLAMA 3 8B 🦙
微调技术	LoRA（低秩自适应），r = 16，alpha = 32
学习率	2e - 4 📈
权重衰减	0.01 🏋️‍♂️
训练轮数	1 🔄
量化方式	用于 VLLM 的 float16 🗜️

📊 评估结果

将模型与基础 LLAMA 3 模型在评估数据集上进行了对比测试，结果令人印象深刻！以模型生成的前 10 个单词中是否包含正确答案作为判断标准，确保模型不仅能提供准确答案，还能优先输出最相关的信息。

评估结果

📦 安装指南

此模型使用 Unsloth 进行微调，请参考其 GitHub 仓库并确保在使用模型前已安装。

💻 使用示例

基础用法

from unsloth import FastLanguageModel

max_seq_length = 2048 
dtype = None 
load_in_4bit = False 

alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "sujet-ai/Sujet-Finance-8B-v0.1",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    token = "your hf token here",
)

example = {
    'system_prompt': 'You are a financial sentiment analysis expert. Your task is to analyze the sentiment expressed in the given financial text.Only reply with bearish, neutral, or bullish.',
    'user_prompt': "Expedia's Problems Run Deeper Than SEO Headwinds",
    'answer': 'bearish',
}

inputs = tokenizer(
                [alpaca_prompt.format(
                    example['system_prompt'],  # instruction
                    example['user_prompt'],  # input
                    "",  # output - leave this blank for generation!
                )],
                return_tensors="pt"
            ).to("cuda")
            
outputs = model.generate(**inputs, max_new_tokens=2048, use_cache=True, pad_token_id=tokenizer.eos_token_id)
output = tokenizer.batch_decode(outputs)[0]
response = output.split("### Response:")[1].strip()
print(response)