bloomz - 560m - rerankingオープンソースのバイリンガル再ランキングモデル - 英仏語のクエリとコンテキストの語義関連性を精度よく測定

ホーム

Bloomz 560m Reranking

cmarkeaによって開発

Bloomz-560mを基に構築されたバイリンガル再ランキングモデルで、クエリとコンテキストの意味的関連性を測定し、フランス語と英語をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Openrail #クロスランゲージ再ランキング #質問応答システムの最適化 #低リソース効率化

ダウンロード数 17

リリース時間 : 3/17/2024

モデル概要

このモデルはオープンドメインQA(ODQA)シナリオ向けに設計されており、標準化されたスコアリングメカニズムを通じて検索器が出力したクエリ/コンテキストマッチング結果を再ランキングし、結果の関連性を向上させます。フランス語と英語のバイリンガル処理をサポートし、クロスランゲージシナリオで安定したパフォーマンスを発揮します。

モデル特徴

バイリンガルサポート

ネイティブでフランス語と英語処理をサポート、クロスランゲージスコアリング時に安定した性能

効率的な再ランキング

従来の検索器よりも効率的な意味的関連性モデリングで、RAGアプリケーションに最適

標準化スコアリング

0-1の標準化スコアを出力、0.8閾値設定で低品質結果をフィルタリングすることを推奨

モデル能力

意味的関連性スコアリング

クロスランゲージテキストマッチング

検索結果の再ランキング

使用事例

情報検索

オープンドメイン質問応答システム

検索器が返した候補回答を再ランキングし、正解のランクを向上

SQuAD評価でTop-1精度83.55%(同一言語)/81.89%(クロスランゲージ)を達成

多言語ドキュメント検索

フランス語と英語が混在する検索システムを処理

クロスランゲージシナリオでMRR88.64を達成、同一言語性能に近い

🚀 Bloomz-560m 再ランキング

この再ランキングモデルは、cmarkea/bloomz-560m-dpo-chat モデルをベースに構築されており、質問（クエリ）とコンテキスト間の意味的な対応関係を測定することを目的としています。正規化されたスコアリングにより、ODQA（Open-Domain Question Answering）のコンテキストにおいて、リトリーバが出力したクエリ/コンテキストのマッチングをフィルタリングするのに役立ちます。さらに、リトリーバよりも効率的なモデリングアプローチを用いて結果を並べ替えることができます。ただし、このモデリングタイプは計算コストが高いため、直接的なデータベース検索には適していません。

このモデルは言語に依存しないように開発されており、フランス語と英語の両方をサポートしています。したがって、単言語（英語またはフランス語）のコンテキストでの動作に影響されることなく、クロス言語のコンテキストでも効果的にスコアリングすることができます。

📦 インストール

このセクションでは、必要な依存関係をインストールする方法を説明します。以下のコマンドを使用して、transformers ライブラリをインストールしてください。

pip install transformers

💻 使用例

基本的な使用法

from transformers import pipeline

reranker = pipeline(
    task='text-classification',
    model='cmarkea/bloomz-560m-reranking',
    top_k=None
)

query: str
contexts: List[str]

similarities = reranker(
    [
        dict(
            text=context, # the model was trained with context in `text`
            text_pair=query # and query in `text_pair` argument.
        )
        for context in contexts
    ]
)

score_label_1 = [
    next(item['score'] for item in entry if item['label'] == 'LABEL_1') 
    for entry in similarities
]
contexts_reranked = sorted(
    zip(score_label_1, contexts),
    key=lambda x: x[0],
    reverse=True
)

score, contexts_cleaned = zip(
    *filter(
        lambda x: x[0] >= 0.8,
        contexts_reranked
    )
)

📚 ドキュメント

データセット

トレーニングデータセットは、クエリ/ポジティブ/ハードネガティブのトリプレットから構成される mMARCO データセットで構成されています。さらに、"train" スプリットの SQuAD データを追加し、クエリ/ポジティブ/ハードネガティブのトリプレットを形成しています。SQuAD のハードネガティブデータを生成するために、クエリと同じテーマのコンテキストであるが、異なるクエリセットからのものを考慮しました。したがって、ネガティブサンプルはクエリと同じテーマに属していますが、おそらく質問の答えを含んでいません。

最後に、トリプレットを平坦化して、クエリ/コンテキストの文のペアを取得します。クエリ/ポジティブの場合はラベル 1 を、クエリ/ネガティブの場合はラベル 0 を付けます。ペアの各要素（クエリとコンテキスト）では、フランス語または英語の言語がランダムかつ均等に選択されます。

評価

再ランキングモデルの性能を評価するために、SQuAD データセットの "validation" スプリットを使用します。各段落の最初の質問と、オラクルモデリングでトップ 1 にランク付けされるべき段落を構成するコンテキストを選択します。興味深いことに、テーマの数は限られており、クエリと一致しない対応するテーマの各コンテキストはハードネガティブと見なされます（テーマ外の他のコンテキストはシンプルなネガティブです）。したがって、以下の表を作成することができます。各テーマには、コンテキストの数と関連するクエリが表示されます。

テーマ名	コンテキスト数	テーマ名	コンテキスト数
Normans	39	Civil_disobedience	26
Computational_complexity_theory	48	Construction	22
Southern_California	39	Private_school	26
Sky_(United_Kingdom)	22	Harvard_University	30
Victoria_(Australia)	25	Jacksonville,_Florida	21
Huguenot	44	Economic_inequality	44
Steam_engine	46	University_of_Chicago	37
Oxygen	43	Yuan_dynasty	47
1973_oil_crisis	24	Immune_system	49
European_Union_law	40	Intergovernmental_Panel_on_Climate_Change	24
Amazon_rainforest	21	Prime_number	31
Ctenophora	31	Rhine	44
Fresno,_California	28	Scottish_Parliament	39
Packet_switching	23	Islamism	39
Black_Death	23	Imperialism	39
Geology	25	Warsaw	49
Pharmacy	26	French_and_Indian_War	46
Force	44

評価コーパスは、ランク付けする必要のある 1204 ペアのクエリ/コンテキストで構成されています。

まず、クエリとコンテキストが同じ言語（フランス語/フランス語）である場合の評価スコアを計算しました。

モデル (フランス語/フランス語)	Top-mean	Top-std	Top-1 (%)	Top-10 (%)	Top-100 (%)	MRR (x100)	mean score Top	std score Top
BM25	14.47	92.19	69.77	92.03	98.09	77.74	NA	NA
CamemBERT	5.72	36.88	69.35	95.51	98.92	79.51	0.83	0.37
DistilCamemBERT	5.54	25.90	66.11	92.77	99.17	76.00	0.80	0.39
mMiniLMv2-L12	4.43	30.27	71.51	95.68	99.42	80.17	0.78	0.38
RoBERTa (multilingual)	15.13	60.39	57.23	83.87	96.18	66.21	0.53	0.11
cmarkea/bloomz-560m-reranking	1.49	2.58	83.55	99.17	100	89.98	0.93	0.15
cmarkea/bloomz-3b-reranking	1.22	1.06	89.37	99.75	100	93.79	0.94	0.10

次に、クエリがフランス語でコンテキストが英語のクロス言語のコンテキストでモデルを評価しました。

モデル (フランス語/英語)	Top-mean	Top-std	Top-1 (%)	Top-10 (%)	Top-100 (%)	MRR (x100)	mean score Top	std score Top
BM25	288.04	371.46	21.93	41.93	55.15	28.41	NA	NA
CamemBERT	12.20	61.39	59.55	89.71	97.42	70.38	0.65	0.47
DistilCamemBERT	40.97	104.78	25.66	64.78	88.62	38.83	0.53	0.49
mMiniLMv2-L12	6.91	32.16	59.88	89.95	99.09	70.39	0.61	0.46
RoBERTa (multilingual)	79.32	153.62	27.91	49.50	78.16	35.41	0.40	0.12
cmarkea/bloomz-560m-reranking	1.51	1.92	81.89	99.09	100	88.64	0.92	0.15
cmarkea/bloomz-3b-reranking	1.22	0.98	89.20	99.84	100	93.63	0.94	0.10

観察されたように、クロス言語のコンテキストはモデルの動作に大きな影響を与えません。モデルが検索結果の再ランキングとフィルタリングに使用される場合、0.8 のしきい値を適用して、リトリーバが出力したコンテキストをフィルタリングすることができます。これにより、RAG タイプのアプリケーションのコンテキストに存在するノイズの問題を軽減することができます。

📄 ライセンス

このモデルは、bigscience-bloom-rail-1.0 ライセンスの下で提供されています。

📖 引用

@online{DeBloomzReranking,
  AUTHOR = {Cyrile Delestre},
  ORGANIZATION = {Cr{\'e}dit Mutuel Ark{\'e}a},
  URL = {https://huggingface.co/cmarkea/bloomz-3b-reranking},
  YEAR = {2024},
  KEYWORDS = {NLP ; Transformers ; LLM ; Bloomz},
}