🚀 Turkish - ColBERT
这是一个基于 ColBERT 架构的土耳其语段落检索模型。该模型在土耳其语翻译版本的 [MS MARCO 数据集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元组(查询、正例段落、负例段落)上对 [Cosmos Turkish Base BERT](https://huggingface.co/ytu - ce - cosmos/turkish - base - bert - uncased) 模型进行了微调。
🚀 快速开始
此模型可用于土耳其语段落检索任务,以下是使用前的准备和使用示例。
✨ 主要特性
- 基于 ColBERT 架构,适用于土耳其语段落检索。
- 在土耳其语翻译的 MS MARCO 数据集上微调,具有较好的检索性能。
📦 安装指南
!pip install ragatouille
💻 使用示例
基础用法
from ragatouille import RAGPretrainedModel
rag = RAGPretrainedModel.from_pretrained("ytu-ce-cosmos/turkish-colbert")
docs = [
"Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur.",
"Isaac Newton, fizik ve matematik alanında yaptığı çalışmalarla bilinir. Yerçekimi teorisi ve hareket yasaları, bilim dünyasında çığır açmıştır. Ayrıca, matematiksel analiz üzerinde de önemli katkıları vardır.",
"Albert Einstein, izafiyet teorisini geliştirerek modern fiziğin temellerini atmıştır. 1921 yılında Nobel Fizik Ödülü'nü kazanmıştır. Kütle-enerji eşitliği (E=mc²) onun en ünlü formülüdür.",
"Alexander Fleming, 1928 yılında penisilini keşfederek modern tıpta devrim yaratmıştır. Bu keşfi sayesinde 1945 yılında Nobel Tıp Ödülü kazanmıştır. Fleming'in çalışmaları antibiyotiklerin gelişimine öncülük etmiştir.",
"Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
]
docs = [doc.replace("I", "ı").lower() for doc in docs]
rag.index(docs, index_name="sampleTest")
query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
query = query.replace("I", "ı").lower()
results = rag.search(query, k= 1)
print(results[0]['content'])
高级用法
目前文档中未提供高级用法示例,若有更多复杂场景需求,可根据模型特性进一步探索。
📚 详细文档
评估结果
属性 |
详情 |
模型类型 |
基于 ColBERT 架构的土耳其语段落检索模型 |
训练数据 |
土耳其语翻译版本的 [MS MARCO 数据集](https://huggingface.co/datasets/parsak/msmarco - tr) 的 500k 三元组(查询、正例段落、负例段落) |
数据集 |
R@1 |
R@5 |
R@10 |
MRR@10 |
[Scifact - tr](https://huggingface.co/datasets/AbdulkaderSaoud/scifact - tr) |
48.38 |
67.85 |
75.52 |
56.88 |
[WikiRAG - TR](https://huggingface.co/datasets/Metin/WikiRAG - TR) |
31.21 |
75.63 |
79.63 |
49.08 |
致谢
引用信息
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium - Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
联系方式
COSMOS AI 研究小组,伊迪兹技术大学计算机工程系
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr
📄 许可证
本项目采用 MIT 许可证。
⚠️ 重要提示
不区分大小写的使用需要手动进行小写转换。将文本转换为小写,如下所示:
text.replace("I", "ı").lower()
这是由于分词器存在 已知问题。