turkish - colbert開源土耳其語段落檢索模型，實現土耳其語精準段落檢索

首頁

Turkish Colbert

由ytu-ce-cosmos開發

基於ColBERT架構的土耳其語段落檢索模型，在土耳其語翻譯版MS MARCO數據集上微調

文本嵌入

Safetensors

開源協議:MIT #土耳其語檢索 #段落相似度 #科學文獻檢索

下載量 1,724

發布時間 : 12/3/2024

模型概述

這是一個基於ColBERT架構的土耳其語段落檢索模型，專門用於土耳其語的段落檢索任務。模型在土耳其語翻譯版MS MARCO數據集的50萬組三元數據上進行了微調。

模型特點

土耳其語優化

專門針對土耳其語優化的段落檢索模型，基於土耳其語基礎BERT模型微調

高效檢索

採用ColBERT架構，提供高效的段落檢索能力

大小寫處理

提供特殊的大小寫處理方案，解決土耳其語特有的'I'字符問題

模型能力

土耳其語段落檢索

句子相似度計算

文檔索引與搜索

使用案例

信息檢索

科學文獻檢索

從科學文獻數據庫中檢索相關信息

在Scifact-tr數據集上達到48.38的R@1召回率

百科知識檢索

從百科知識庫中檢索相關信息

在WikiRAG-TR數據集上達到31.21的R@1召回率

🚀 Turkish - ColBERT

這是一個基於 ColBERT 架構的土耳其語段落檢索模型。該模型在土耳其語翻譯版本的 [MS MARCO 數據集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元組（查詢、正例段落、負例段落）上對 [Cosmos Turkish Base BERT](https://huggingface.co/ytu - ce - cosmos/turkish - base - bert - uncased) 模型進行了微調。

🚀 快速開始

此模型可用於土耳其語段落檢索任務，以下是使用前的準備和使用示例。

✨ 主要特性

基於 ColBERT 架構，適用於土耳其語段落檢索。
在土耳其語翻譯的 MS MARCO 數據集上微調，具有較好的檢索性能。

📦 安裝指南

!pip install ragatouille

💻 使用示例

基礎用法

from ragatouille import RAGPretrainedModel

rag = RAGPretrainedModel.from_pretrained("ytu-ce-cosmos/turkish-colbert")

docs = [
    "Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur.",
    "Isaac Newton, fizik ve matematik alanında yaptığı çalışmalarla bilinir. Yerçekimi teorisi ve hareket yasaları, bilim dünyasında çığır açmıştır. Ayrıca, matematiksel analiz üzerinde de önemli katkıları vardır.",
    "Albert Einstein, izafiyet teorisini geliştirerek modern fiziğin temellerini atmıştır. 1921 yılında Nobel Fizik Ödülü'nü kazanmıştır. Kütle-enerji eşitliği (E=mc²) onun en ünlü formülüdür.",
    "Alexander Fleming, 1928 yılında penisilini keşfederek modern tıpta devrim yaratmıştır. Bu keşfi sayesinde 1945 yılında Nobel Tıp Ödülü kazanmıştır. Fleming'in çalışmaları antibiyotiklerin gelişimine öncülük etmiştir.",
    "Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
]

docs = [doc.replace("I", "ı").lower() for doc in docs]

rag.index(docs, index_name="sampleTest")

query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
query = query.replace("I", "ı").lower()

results = rag.search(query, k= 1)
print(results[0]['content']) # "marie curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. polonyum ve radyum elementlerini keşfetmiştir. i̇ki farklı dalda nobel ödülü alan ilk kişi olmuştur."

高級用法

目前文檔中未提供高級用法示例，若有更多複雜場景需求，可根據模型特性進一步探索。

📚 詳細文檔

評估結果

屬性	詳情
模型類型	基於 ColBERT 架構的土耳其語段落檢索模型
訓練數據	土耳其語翻譯版本的 [MS MARCO 數據集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元組（查詢、正例段落、負例段落）

數據集	R@1	R@5	R@10	MRR@10
[Scifact - tr](https://huggingface.co/datasets/AbdulkaderSaoud/scifact - tr)	48.38	67.85	75.52	56.88
[WikiRAG - TR](https://huggingface.co/datasets/Metin/WikiRAG - TR)	31.21	75.63	79.63	49.08

致謝

本研究得到了 Google 的 TensorFlow Research Cloud（TFRC）的雲 TPU 支持。感謝提供對 TFRC 的訪問權限 ❤️
感謝 Hugging Face 團隊的慷慨支持，使得能夠從他們的 S3 存儲中下載模型 🤗

引用信息

@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium - Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}