カレイドスコープ_small_v1オープンソースドキュメントQAモデル - ドキュメントの前後関係から正確に回答を抽出する

ホーム

Kaleidoscope Small V1

LaciaStudioによって開発

ruBert-baseをファインチューニングした文書QA専用モデルで、与えられた文書コンテキストから回答を抽出するタスクに最適化されています。

質問応答システム

Transformers

複数言語対応#ロシア語文書QA #コンテキスト回答抽出 #ruBertファインチューニング

ダウンロード数 77

リリース時間 : 2/21/2025

モデル概要

このモデルは主にユーザーの質問に基づいて文書から回答を抽出するために使用され、カスタマーサポート、文書検索、インテリジェントQAシステムなどのシナリオに適しています。

モデル特徴

文書QA最適化

文書コンテキストから回答を抽出するタスクに特化してファインチューニングされています

多言語サポート

主にロシア語テキストに最適化されており、英語入力もサポート（英語サポートは十分にテストされていません）

効率的なトレーニング構成

混合精度トレーニングとAdamWオプティマイザを採用し、単一のRTX 3070カードでトレーニングを完了

スライディングウィンドウ処理

長文テキストのトークン化にスライディングウィンドウ戦略を採用し、長文書処理能力を向上

モデル能力

文書QA

テキスト理解

回答抽出

多言語処理

使用事例

カスタマーサービス

自動カスタマーサポートシステム

FAQ文書から自動的に顧客の質問に回答

カスタマーサポート効率の向上、人的介入の削減

文書検索

企業ナレッジベース検索

企業文書から関連情報を迅速に検索

情報検索効率の向上

教育

学習支援ツール

教材から学生が迅速に質問の回答を見つけるのを支援

学習効率の向上

🚀 ドキュメント質問応答モデル - Kaleidoscope_small_v1

このモデルは、ドキュメント質問応答タスク用に設計されたsberbank - ai/ruBert - baseのファインチューニング版です。提供されたドキュメントコンテキストから回答を抽出するように特別に適応されており、コンテキスト、質問、回答のトリプルを含むカスタムJSONデータセットでファインチューニングされています。

公式Kaleidoscopeロゴ

🚀 クイックスタート

このモデルを使用することで、ドキュメントから質問に対する回答を抽出することができます。以下の使用例を参考に、モデルを使い始めましょう。

✨ 主な機能

目的：ユーザーの質問に基づいてドキュメントから回答を抽出する。
ベースモデル：sberbank - ai/ruBert - base。
データセット：コンテキスト、質問、回答のフィールドを持つカスタムJSONファイル。
前処理：質問とドキュメントコンテキストを連結することで入力を形成し、モデルが関連セグメントに焦点を当てるように導きます。

トレーニング設定

エポック数：20。
バッチサイズ：デバイスごとに4。
ウォームアップステップ：総ステップ数の0.1。
FP16トレーニング：CUDAが利用可能な場合有効。
ハードウェア：1xRTX 3070でトレーニング。

📚 ドキュメント

このモデルはTransformersライブラリを使用してカスタムトレーニングパイプラインでファインチューニングされました。トレーニングプロセスの主要な側面は以下の通りです。

カスタムデータセット

ローダーがコンテキスト、質問、回答のトリプルを含むJSONファイルを読み込みます。

特徴準備

スクリプトは、長いテキストを処理するためにスライディングウィンドウアプローチでドキュメントと質問をトークン化します。

トレーニングプロセス

混合精度トレーニングとAdamWオプティマイザを利用して最適化を改善します。

評価とチェックポイント

トレーニングスクリプトは、検証セットでモデルのパフォーマンスを評価し、チェックポイントを保存し、検証損失に基づいて早期終了を行います。

このモデルは、対話型のドキュメント質問応答タスクに最適であり、カスタマーサポート、ドキュメント検索、自動Q&Aシステムなどのアプリケーションに強力なツールとなります。主にロシア語のテキストに焦点を当てていますが、英語の入力もサポートしています。ただし、英語のサポートはテストされていません。

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model = AutoModelForQuestionAnswering.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model.to(device)

file_path = input("Enter document path: ")
with open(file_path, "r", encoding="utf-8") as f:
    context = f.read()

while True:
    question = input("Enter question (or 'exit' to quit): ")
    if question.lower() == "exit":
        break
    inputs = tokenizer(question, context, return_tensors="pt", truncation=True, max_length=384)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    outputs = model(**inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits
    start_index = torch.argmax(start_logits)
    end_index = torch.argmax(end_logits)
    answer_tokens = inputs["input_ids"][0][start_index:end_index + 1]
    answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)
    print("Answer:", answer)

回答の例

ロシア語

コンテキスト

Альберт Эйнштейн разработал теорию относительности.

質問

Кто разработал теорию относительности?

回答

альберт эинштеин

英語

コンテキスト

I had a red car.

質問

What kind of car did I have?

回答

a red car

📄 ライセンス

このモデルはCC - BY - NC - 4.0ライセンスの下で提供されています。

ファインチューニング：LaciaStudio | LaciaAI

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご