ColBERTオープンソーストルコ語モデル - 無料で文の類似度を計算し、文書の再排序を行う

ホーム

Colbert ModernBERT Base Turkish Uncased

99eren99によって開発

これはPyLateを使用してModernBERT-base-Turkish-uncased-mlmから微調整されたトルコ語モデルで、文の類似性計算と文書の再ランキングに使用されます。

テキスト埋め込み

Safetensors

その他オープンソースライセンス:Apache-2.0 #トルコ語意味検索 #長文書再ランキング #ColBERTアーキテクチャ

ダウンロード数 74

リリース時間 : 2/14/2025

モデル概要

このモデルは文と段落を128次元の密ベクトルシーケンスにマッピングし、MaxSim演算子を使用した意味的テキスト類似性計算をサポートし、トルコ語テキスト検索と再ランキングタスクに適しています。

モデル特徴

長文脈処理

最大8192トークンの文書処理をサポートし、長文検索シナリオに適しています

効率的な検索

Voyager HNSWインデックスを利用した高速文書検索を実現

マルチグレイン表現

128次元の密ベクトルシーケンスを生成し、テキストの細かい意味情報を保持します

モデル能力

意味的テキスト類似性計算

文書検索

クエリ-文書マッチング

検索結果再ランキング

使用事例

情報検索

文書検索エンジン

トルコ語文書検索エンジンを構築し、検索結果の関連性を向上

nDCGと再現率指標の向上

質問応答システム

質問応答システムでの回答候補の再ランキングに使用

回答精度の向上

🚀 トルコ語長文コンテキストColBERTベースのリランカー

このモデルは、99eren99/ModernBERT-base-Turkish-uncased-mlm をファインチューニングした PyLate モデルです。文章や段落を128次元の密ベクトルのシーケンスに変換し、MaxSim演算子を使用して意味的な文章の類似度を計算することができます。

🚀 クイックスタート

このモデルを使用するには、まずPyLateライブラリをインストールする必要があります。その後、テキストを正規化します。

pip install -U einops flash_attn
pip install -U pylate

次に、テキストを正規化します。具体的には、lambda x: x.replace("İ", "i").replace("I", "ı").lower() のように変換します。

✨ 主な機能

文章や段落を128次元の密ベクトルに変換することができます。
MaxSim演算子を使用して、意味的な文章の類似度を計算することができます。
PyLateライブラリを使用して、ドキュメントのインデックス作成と検索を行うことができます。

📦 インストール

まず、PyLateライブラリをインストールします。

pip install -U einops flash_attn
pip install -U pylate

💻 使用例

基本的な使用法

ドキュメントのインデックス作成

from pylate import indexes, models, retrieve

# Step 1: Load the ColBERT model
document_length = 180#some integer [0,8192] for truncating documents, you can maybe try rope scaling for longer inputs  
model = models.ColBERT(
    model_name_or_path="99eren99/ColBERT-ModernBERT-base-Turkish-uncased", document_length=document_length
)
try:
    model.tokenizer.model_input_names.remove("token_type_ids")
except:
    pass
#model.to("cuda")

# Step 2: Initialize the Voyager index
index = indexes.Voyager(
    index_folder="pylate-index",
    index_name="index",
    override=True,  # This overwrites the existing index if any
)

# Step 3: Encode the documents
documents_ids = ["1", "2", "3"]
documents = ["document 1 text", "document 2 text", "document 3 text"]

documents_embeddings = model.encode(
    documents,
    batch_size=32,
    is_query=False,  # Ensure that it is set to False to indicate that these are documents, not queries
    show_progress_bar=True,
)

# Step 4: Add document embeddings to the index by providing embeddings and corresponding ids
index.add_documents(
    documents_ids=documents_ids,
    documents_embeddings=documents_embeddings,
)

インデックスの読み込み

# To load an index, simply instantiate it with the correct folder/name and without overriding it
index = indexes.Voyager(
    index_folder="pylate-index",
    index_name="index",
)

クエリに対する上位k件のドキュメントの検索

# Step 1: Initialize the ColBERT retriever
retriever = retrieve.ColBERT(index=index)

# Step 2: Encode the queries
queries_embeddings = model.encode(
    ["query for document 3", "query for document 1"],
    batch_size=32,
    is_query=True,  #  # Ensure that it is set to False to indicate that these are queries
    show_progress_bar=True,
)

# Step 3: Retrieve top-k documents
scores = retriever.retrieve(
    queries_embeddings=queries_embeddings, 
    k=10,  # Retrieve the top 10 matches for each query
)

リランキング

from pylate import rank, models

queries = [
    "query A",
    "query B",
]

documents = [
    ["document A", "document B"],
    ["document 1", "document C", "document B"],
]

documents_ids = [
    [1, 2],
    [1, 3, 2],
]

model = models.ColBERT(
    model_name_or_path=pylate_model_id,
)

queries_embeddings = model.encode(
    queries,
    is_query=True,
)

documents_embeddings = model.encode(
    documents,
    is_query=False,
)

reranked_documents = rank.rerank(
    documents_ids=documents_ids,
    queries_embeddings=queries_embeddings,
    documents_embeddings=documents_embeddings,
)

📚 ドキュメント

ドキュメント: PyLateドキュメント
リポジトリ: GitHub上のPyLate
Hugging Face: Hugging Face上のPyLateモデル

🔧 技術詳細

評価結果

長文コンテキストの後期相互作用検索モデルのnDCGとRecallスコア、テストコード、および詳細なメトリクスは "./assets" にあります。 drawing

モデル情報

属性	详情
モデルタイプ	トルコ語長文コンテキストColBERTベースのリランカー
ベースモデル	99eren99/ModernBERT-base-Turkish-uncased-mlm
言語	tr
ライブラリ名	PyLate
パイプラインタグ	sentence-similarity
タグ	ColBERT, PyLate, sentence-transformers, sentence-similarity, generated_from_trainer, reranker, bert