カレイドスコープ_ラージ_v1オープンソースドキュメントQ&Aモデル - 無料でデプロイ可能、ロシア語と英語の両方の回答抽出に対応

ホーム

Kaleidoscope Large V1

LaciaStudioによって開発

sberbank-ai/ruBert-largeをファインチューニングした文書QAモデルで、文書からの回答抽出に優れ、ロシア語と英語をサポートします。

質問応答システム

Transformers

複数言語対応#ロシア語文書QA #コンテキスト回答抽出 #マルチモーダル処理

ダウンロード数 297

リリース時間 : 2/24/2025

モデル概要

文書QAタスク専用に設計されたモデルで、提供された文書コンテキストから回答を抽出するのに適しており、カスタマーサポート、文書検索、自動QAシステムなどのアプリケーションに特に適しています。

モデル特徴

多言語サポート

主にロシア語テキストに最適化されており、英語入力もサポート（十分にテストされていません）。

コンテキスト理解

質問と文書コンテキストを結合して入力とし、モデルに関連段落に注目させます。

効率的なトレーニング

混合精度トレーニングとAdamWオプティマイザを採用し、1xRTX 3070でトレーニングを完了しました。

長文処理

スライディングウィンドウ方式で文書と質問をトークン化し、長文を効果的に処理します。

モデル能力

文書QA

テキスト理解

回答抽出

多言語処理

使用事例

カスタマーサポート

自動化カスタマーサービス

製品文書から顧客の質問に自動回答

カスタマーサービス効率向上、人的介入削減

文書検索

企業ナレッジベース検索

社内文書から関連情報を迅速に検索

従業員の情報取得効率向上

🚀 ドキュメント質問応答モデル - Kaleidoscope_large_v1

このモデルは、ドキュメント質問応答タスク用に設計された、sberbank-ai/ruBert-largeのファインチューニング版です。提供されたドキュメントコンテキストから回答を抽出するように特別に調整され、コンテキスト、質問、回答のトリプルを含むカスタムJSONデータセットでファインチューニングされています。

公式Kaleidoscopeロゴ

✨ 主な機能

目的: ユーザーの質問に基づいてドキュメントから回答を抽出する。
ベースモデル: sberbank-ai/ruBert-large。
データセット: コンテキスト、質問、回答のフィールドを持つカスタムJSONファイル。
前処理: 質問とドキュメントコンテキストを連結して入力を形成し、モデルが関連するセグメントに焦点を当てるように誘導する。

🔧 トレーニング設定

エポック数: 20。
バッチサイズ: デバイスごとに4。
ウォームアップステップ: 総ステップ数の0.1。
FP16トレーニングを有効にする（CUDAが利用可能な場合）。
ハードウェア: 1xRTX 3070でトレーニングを行った。

📚 詳細説明

このモデルは、Transformersライブラリとカスタムトレーニングパイプラインを使用してファインチューニングされました。トレーニングプロセスの主要な側面は次のとおりです。

カスタムデータセット: ローダーがコンテキスト、質問、回答のトリプルを含むJSONファイルを読み込みます。
特徴準備: スクリプトは、長いテキストを処理するためにスライディングウィンドウアプローチでドキュメントと質問をトークン化します。
トレーニングプロセス: 混合精度トレーニングとAdamWオプティマイザーを利用して最適化を改善します。
評価とチェックポイント: トレーニングスクリプトは、検証セットでモデルのパフォーマンスを評価し、チェックポイントを保存し、検証損失に基づいて早期終了を採用します。
このモデルは、対話型のドキュメント質問応答タスクに最適であり、カスタマーサポート、ドキュメント検索、自動Q&Aシステムなどのアプリケーションに強力なツールとなります。

このモデルは主にロシア語のテキストに焦点を当てていますが、英語の入力もサポートしています。 このモデルは英語もサポートしていますが、そのサポートはテストされていません

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Kaleidoscope_large_v1")
model = AutoModelForQuestionAnswering.from_pretrained("LaciaStudio/Kaleidoscope_large_v1")
model.to(device)

file_path = input("Enter document path: ")
with open(file_path, "r", encoding="utf-8") as f:
    context = f.read()

while True:
    question = input("Enter question (or 'exit' to quit): ")
    if question.lower() == "exit":
        break
    inputs = tokenizer(question, context, return_tensors="pt", truncation=True, max_length=384)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    outputs = model(**inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits
    start_index = torch.argmax(start_logits)
    end_index = torch.argmax(end_logits)
    answer_tokens = inputs["input_ids"][0][start_index:end_index + 1]
    answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)
    print("Answer:", answer)

回答の例

ロシア語

コンテキスト:

Альберт Эйнштейн разработал теорию относительности.

質問:

Кто разработал теорию относительности?

回答:

альберт эинштеин

英語

コンテキスト:

I had a red car.

質問:

What kind of car did I have?

回答:

a red car

ファインチューニング: LaciaStudio | LaciaAI

📄 ライセンス

CC BY-NC 4.0

プロパティ	詳細
パイプラインタグ	ドキュメント質問応答
タグ	DocumentQA、QuestionAnswering、NLP、DeepLearning、Transformers、Multimodal、HuggingFace、ruBert、MachineLearning、DeepQA、AIForDocs、Docs、NeuralNetworks、torch、pytorch、large、text-generation-inference
ライブラリ名	Transformers
評価指標	正解率、F1スコア、再現率、完全一致率、適合率
ベースモデル	ai-forever/ruBert-large