Kaleidoscope_small_v1開源文檔問答模型 - 支持俄英雙語，從文檔精準提取答案

首頁

Kaleidoscope Small V1

由2KKLabs開發

基於sberbank-ai/ruBert-base微調的文檔問答模型，擅長從文檔上下文中提取答案，支持俄語和英語。

問答系統

Transformers

支持多種語言#俄語文檔問答 #多模態處理 #BERT微調

下載量 98

發布時間 : 2/21/2025

模型概述

該模型專為文檔問答任務設計，經過自定義JSON數據集微調，適用於客戶支持、文檔搜索等場景。

模型特點

多語言支持

主要針對俄語優化，同時支持英語問答（未經充分測試）

上下文理解

通過滑動窗口分詞處理長文檔，有效捕捉上下文關聯

高效訓練

採用混合精度訓練和AdamW優化器，在RTX 3070上完成20輪微調

模型能力

文檔內容理解

問題答案提取

多語言文本處理

長上下文分析

使用案例

客戶支持

自動化問答系統

從產品文檔中自動回答客戶問題

示例顯示能準確提取'阿爾伯特·愛因斯坦提出相對論'等事實

文檔檢索

合同條款查詢

快速定位法律/合同文檔中的特定條款

🚀 文檔問答模型 - Kaleidoscope_small_v1

本模型是sberbank-ai/ruBert-base的微調版本，專為文檔問答任務而設計。它能夠從給定的文檔上下文中提取答案，並在包含上下文、問題和答案三元組的自定義JSON數據集上進行了微調。

✨ 主要特性

目標：根據用戶的問題從文檔中提取答案。
基礎模型：sberbank-ai/ruBert-base。
數據集：一個自定義的JSON文件，包含上下文、問題和答案字段。
預處理：通過將問題和文檔上下文連接起來形成輸入，引導模型關注相關部分。

📦 安裝指南

文檔中未提及具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model = AutoModelForQuestionAnswering.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model.to(device)

file_path = input("Enter document path: ")
with open(file_path, "r", encoding="utf-8") as f:
    context = f.read()

while True:
    question = input("Enter question (or 'exit' to quit): ")
    if question.lower() == "exit":
        break
    inputs = tokenizer(question, context, return_tensors="pt", truncation=True, max_length=384)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    outputs = model(**inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits
    start_index = torch.argmax(start_logits)
    end_index = torch.argmax(end_logits)
    answer_tokens = inputs["input_ids"][0][start_index:end_index + 1]
    answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)
    print("Answer:", answer)

問答示例

俄語

上下文：

Альберт Эйнштейн разработал теорию относительности.

問題：

Кто разработал теорию относительности?

答案：

альберт эинштеин

英語

上下文：

I had a red car.

問題：

What kind of car did I have?

答案：

a red car

📚 詳細文檔

訓練設置

訓練輪數：20。
批次大小：每個設備4。
預熱步數：總步數的0.1。
啟用FP16訓練（如果CUDA可用）。
硬件：在1xRTX 3070上進行訓練。

訓練過程描述

該模型使用Transformers庫和自定義訓練管道進行微調。訓練過程的關鍵方面包括：

自定義數據集：加載器讀取包含上下文、問題和答案三元組的JSON文件。
特徵準備：腳本使用滑動窗口方法對文檔和問題進行分詞，以處理長文本。
訓練過程：利用混合精度訓練和AdamW優化器來改進優化。
評估和檢查點：訓練腳本在驗證集上評估模型性能，保存檢查點，並根據驗證損失採用早期停止策略。

此模型非常適合交互式文檔問答任務，是客戶支持、文檔搜索和自動問答系統等應用的強大工具。雖然主要針對俄語文本，但也支持英語輸入。

🔧 技術細節

該模型使用自定義訓練管道，結合Transformers庫進行微調。通過將問題和文檔上下文連接起來形成輸入，引導模型關注相關部分。在訓練過程中，利用混合精度訓練和AdamW優化器來提高優化效率。同時，使用滑動窗口方法對長文本進行處理，確保模型能夠處理較長的文檔。

📄 許可證

本模型採用cc-by-nc-4.0許可證。

微調由LaciaStudio | LaciaAI完成

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫