ko-rerankerオープンソースモデル - 韓国語検索強化生成（RAG）の性能を向上させる実用的なツール

ホーム

Ko Reranker

Dongjin-krによって開発

BAAI/bge-reranker-largeを韓国語データでファインチューニングしたRerankerモデルで、韓国語検索拡張生成(RAG)の性能向上に使用

テキスト埋め込み

Transformers

複数言語対応オープンソースライセンス:MIT #韓国語リランキング #クロスランゲージ検索 #意味的関連性スコアリング

ダウンロード数 34.08k

リリース時間 : 12/22/2023

モデル概要

このモデルは韓国語Rerankerで、BAAI/bge-reranker-largeモデルをファインチューニングして開発され、韓国語テキストの関連性スコアリングタスク専用に設計されています。埋め込みモデルとは異なり、質問とドキュメント間の類似度スコアを直接出力します。

モデル特徴

韓国語最適化

韓国語データに特化してファインチューニングされており、韓国語テキストの関連性スコアリング性能を向上

直接スコア出力

埋め込みモデルとは異なり、質問とドキュメント間の類似度スコアを直接出力

範囲制限なしのスコアリング

クロスエントロピー損失に基づき最適化され、関連性スコアに特定の範囲制限がない

SageMaker互換

Amazon SageMakerのトレーニングとデプロイガイドを完全提供

モデル能力

韓国語テキスト関連性スコアリング

クロスランゲージテキスト関連性スコアリング(韓国語-英語)

検索結果リランキング

使用事例

情報検索

検索拡張生成(RAG)

RAGシステムで検索結果をリランキングし、回答品質を向上

コンテキスト正解率0.96、平均逆順位(mrr)0.87に向上

検索エンジン最適化

検索エンジンの返却結果を関連性でリランキング

質問応答システム

インテリジェントカスタマーサポート

カスタマーサポートシステムで候補回答を関連性でソート

🚀 Amazon SageMakerでの韓国語Rerankerのトレーニング

このドキュメントは韓国語Rerankerの開発のための微調整ガイドを提供します。ko-rerankerはBAAI/bge-reranker-largerをベースに、韓国語データで微調整されたモデルです。詳細については、korean-reranker-git / AWS Blog, 韓国語Rerankerを活用した検索増強生成(RAG)のパフォーマンス向上を参照してください。

🚀 クイックスタート

韓国語Rerankerの開発に必要な微調整ガイドを提供します。このモデルは韓国語データに対して微調整されており、より高精度な検索結果を提供します。

✨ 主な機能

Rerankerは、埋め込みモデルとは異なり、質問と文書を入力として使用し、埋め込みではなく類似度を直接出力します。
Rerankerに質問と文節を入力すると、関連性スコアを取得できます。
RerankerはCrossEntropy損失に基づいて最適化されるため、関連性スコアは特定の範囲に制限されません。

💻 使用例

基本的な使用法

    def exp_normalize(x):
      b = x.max()
      y = np.exp(x - b)
      return y / y.sum()
    
    from transformers import AutoModelForSequenceClassification, AutoTokenizer

    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModelForSequenceClassification.from_pretrained(model_path)
    model.eval()

    pairs = [["나는 너를 싫어해", "나는 너를 사랑해"], \
             ["나는 너를 좋아해", "너에 대한 나의 감정은 사랑 일 수도 있어"]]

    with torch.no_grad():
        inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
        scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
        scores = exp_normalize(scores.numpy())
        print (f'first: {scores[0]}, second: {scores[1]}')

高度な使用法

import sagemaker
import boto3
from sagemaker.huggingface import HuggingFaceModel

try:
	role = sagemaker.get_execution_role()
except ValueError:
	iam = boto3.client('iam')
	role = iam.get_role(RoleName='sagemaker_execution_role')['Role']['Arn']

# Hub Model configuration. https://huggingface.co/models
hub = {
	'HF_MODEL_ID':'Dongjin-kr/ko-reranker',
	'HF_TASK':'text-classification'
}

# create Hugging Face Model Class
huggingface_model = HuggingFaceModel(
	transformers_version='4.28.1',
	pytorch_version='2.0.0',
	py_version='py310',
	env=hub,
	role=role, 
)

# deploy model to SageMaker Inference
predictor = huggingface_model.deploy(
	initial_instance_count=1, # number of instances
	instance_type='ml.g5.large' # ec2 instance type
)

runtime_client = boto3.Session().client('sagemaker-runtime')
payload = json.dumps(
    {
        "inputs": [
            {"text": "나는 너를 싫어해", "text_pair": "나는 너를 사랑해"},
            {"text": "나는 너를 좋아해", "text_pair": "너에 대한 나의 감정은 사랑 일 수도 있어"}
        ]
    }
)

response = runtime_client.invoke_endpoint(
    EndpointName="<endpoint-name>",
    ContentType="application/json",
    Accept="application/json",
    Body=payload
)

## deserialization
out = json.loads(response['Body'].read().decode()) ## for json
print (f'Response: {out}')

📚 ドキュメント

背景情報

コンテキストの順序が精度に影響を与えます(Lost in Middle, Liu et al., 2023)
Rerankerを使用する理由
- 現在のLLMは、多くのコンテキストを入力しても必ずしも良い結果が得られるわけではなく、関連性の高いコンテキストが上位にある必要があります。
- セマンティック検索で使用される類似度（関連性）スコアは高精度ではありません。（つまり、上位ランカーが必ずしも下位ランカーよりも質問により類似した情報を持っているとは限りません。）
  - 埋め込みは、文書の背後にある意味を捉えることに特化しています。
  - 質問と回答は意味的に必ずしも一致するわけではありません。(Hypothetical Document Embeddings)
  - ANNs(Approximate Nearest Neighbors)の使用によるペナルティ

Rerankerモデル

データセット

msmarco-triplets
- MS MARCOパッセージデータセットからの(質問, 回答, 否定)-トリプレット、499,184サンプル
- このデータセットは英語で構成されており、Amazon Translateを使用して翻訳されました。
形式

{"query": str, "pos": List[str], "neg": List[str]}

クエリは質問で、posは肯定的なテキストのリスト、negは否定的なテキストのリストです。クエリに対する否定的なテキストがない場合は、全体のコーパスから一部をランダムに抽出して否定的なテキストとして使用できます。
例

{"query": "대한민국의 수도는?", "pos": ["미국의 수도는 워싱턴이고, 일본은 도쿄이며 한국은 서울이다."], "neg": ["미국의 수도는 워싱턴이고, 일본은 도쿄이며 북한은 평양이다."]}

パフォーマンス

モデル	has-right-in-contexts	mrr (平均逆順位)
without-reranker (default)	0.93	0.80
with-reranker (bge-reranker-large)	0.95	0.84
with-reranker (韓国語で微調整)	0.96	0.87

評価セット:

./dataset/evaluation/eval_dataset.csv

トレーニングパラメータ:

{
    "learning_rate": 5e-6,
    "fp16": True,
    "num_train_epochs": 3,
    "per_device_train_batch_size": 1,
    "gradient_accumulation_steps": 32,
    "train_group_size": 3,
    "max_len": 512,
    "weight_decay": 0.01,
}