🚀 Turkish - ColBERT
這是一個基於 ColBERT 架構的土耳其語段落檢索模型。該模型在土耳其語翻譯版本的 [MS MARCO 數據集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元組(查詢、正例段落、負例段落)上對 [Cosmos Turkish Base BERT](https://huggingface.co/ytu - ce - cosmos/turkish - base - bert - uncased) 模型進行了微調。
🚀 快速開始
此模型可用於土耳其語段落檢索任務,以下是使用前的準備和使用示例。
✨ 主要特性
- 基於 ColBERT 架構,適用於土耳其語段落檢索。
- 在土耳其語翻譯的 MS MARCO 數據集上微調,具有較好的檢索性能。
📦 安裝指南
!pip install ragatouille
💻 使用示例
基礎用法
from ragatouille import RAGPretrainedModel
rag = RAGPretrainedModel.from_pretrained("ytu-ce-cosmos/turkish-colbert")
docs = [
"Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur.",
"Isaac Newton, fizik ve matematik alanında yaptığı çalışmalarla bilinir. Yerçekimi teorisi ve hareket yasaları, bilim dünyasında çığır açmıştır. Ayrıca, matematiksel analiz üzerinde de önemli katkıları vardır.",
"Albert Einstein, izafiyet teorisini geliştirerek modern fiziğin temellerini atmıştır. 1921 yılında Nobel Fizik Ödülü'nü kazanmıştır. Kütle-enerji eşitliği (E=mc²) onun en ünlü formülüdür.",
"Alexander Fleming, 1928 yılında penisilini keşfederek modern tıpta devrim yaratmıştır. Bu keşfi sayesinde 1945 yılında Nobel Tıp Ödülü kazanmıştır. Fleming'in çalışmaları antibiyotiklerin gelişimine öncülük etmiştir.",
"Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
]
docs = [doc.replace("I", "ı").lower() for doc in docs]
rag.index(docs, index_name="sampleTest")
query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
query = query.replace("I", "ı").lower()
results = rag.search(query, k= 1)
print(results[0]['content'])
高級用法
目前文檔中未提供高級用法示例,若有更多複雜場景需求,可根據模型特性進一步探索。
📚 詳細文檔
評估結果
屬性 |
詳情 |
模型類型 |
基於 ColBERT 架構的土耳其語段落檢索模型 |
訓練數據 |
土耳其語翻譯版本的 [MS MARCO 數據集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元組(查詢、正例段落、負例段落) |
數據集 |
R@1 |
R@5 |
R@10 |
MRR@10 |
[Scifact - tr](https://huggingface.co/datasets/AbdulkaderSaoud/scifact - tr) |
48.38 |
67.85 |
75.52 |
56.88 |
[WikiRAG - TR](https://huggingface.co/datasets/Metin/WikiRAG - TR) |
31.21 |
75.63 |
79.63 |
49.08 |
致謝
引用信息
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium - Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
聯繫方式
COSMOS AI 研究小組,伊迪茲技術大學計算機工程系
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr
📄 許可證
本項目採用 MIT 許可證。
⚠️ 重要提示
不區分大小寫的使用需要手動進行小寫轉換。將文本轉換為小寫,如下所示:
text.replace("I", "ı").lower()
這是由於分詞器存在 已知問題。