Kaleidoscope_small_v1开源文档问答模型 - 精准从文档上下文提取答案

首页

Kaleidoscope Small V1

由 LaciaStudio 开发

基于ruBert-base微调的文档问答专用模型，针对从给定文档上下文中提取答案的任务进行了优化。

问答系统

Transformers

支持多种语言#俄语文档问答 #上下文答案提取 #ruBert微调

下载量 77

发布时间 : 2/21/2025

模型简介

该模型主要用于根据用户问题从文档中提取答案，适用于客服支持、文档检索和智能问答系统等场景。

模型特点

文档问答优化

专门针对从文档上下文中提取答案的任务进行了微调优化

多语言支持

主要针对俄语文本优化，同时支持英语输入（英语支持未经充分测试）

高效训练配置

采用混合精度训练和AdamW优化器，在单卡RTX 3070上完成训练

滑动窗口处理

采用滑动窗口策略对长文本进行分词处理，提高长文档处理能力

模型能力

文档问答

文本理解

答案提取

多语言处理

使用案例

客户服务

自动客服系统

从FAQ文档中自动回答客户问题

提高客服效率，减少人工干预

文档检索

企业知识库查询

从企业文档中快速查找相关信息

提高信息检索效率

教育

学习辅助工具

帮助学生从教材中快速找到问题答案

提升学习效率

🚀 文档问答模型 - Kaleidoscope_small_v1

本模型是sberbank-ai/ruBert-base的微调版本，专为文档问答任务而设计。它能够从给定的文档上下文中提取答案，并在包含上下文、问题和答案三元组的自定义JSON数据集上进行了微调。

✨ 主要特性

目标：根据用户的问题从文档中提取答案。
基础模型：sberbank-ai/ruBert-base。
数据集：一个自定义的JSON文件，包含上下文、问题和答案字段。
预处理：通过将问题和文档上下文连接起来形成输入，引导模型关注相关段落。

📦 安装指南

文档中未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model = AutoModelForQuestionAnswering.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model.to(device)

file_path = input("Enter document path: ")
with open(file_path, "r", encoding="utf-8") as f:
    context = f.read()

while True:
    question = input("Enter question (or 'exit' to quit): ")
    if question.lower() == "exit":
        break
    inputs = tokenizer(question, context, return_tensors="pt", truncation=True, max_length=384)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    outputs = model(**inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits
    start_index = torch.argmax(start_logits)
    end_index = torch.argmax(end_logits)
    answer_tokens = inputs["input_ids"][0][start_index:end_index + 1]
    answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)
    print("Answer:", answer)

问答示例

俄语

上下文：

Альберт Эйнштейн разработал теорию относительности.

问题：

Кто разработал теорию относительности?

答案：

альберт эинштеин

英语

上下文：

I had a red car.

问题：

What kind of car did I have?

答案：

a red car

📚 详细文档

该模型使用Transformers库和自定义训练管道进行微调。训练过程的关键方面包括：

自定义数据集：加载器读取包含上下文、问题和答案三元组的JSON文件。
特征准备：脚本使用滑动窗口方法对文档和问题进行分词，以处理长文本。
训练过程：利用混合精度训练和AdamW优化器来改进优化过程。
评估和检查点：训练脚本在验证集上评估模型性能，保存检查点，并根据验证损失采用提前停止策略。

该模型非常适合交互式文档问答任务，是客户支持、文档搜索和自动问答系统等应用的强大工具。虽然该模型主要针对俄语文本，但也支持英语输入。

注意：该模型支持英语，但对英语的支持尚未经过测试。

🔧 技术细节

训练设置

训练轮数：20。
每设备批次大小：4。
预热步数：总步数的0.1。
启用FP16训练（如果CUDA可用）。
硬件：在1xRTX 3070上进行训练。

📄 许可证

本项目采用CC BY-NC 4.0许可证。

微调者：LaciaStudio | LaciaAI

官方万花筒标志

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库