🚀 Turkish - ColBERT
このモデルは、ColBERTアーキテクチャに基づくトルコ語のパッセージ検索モデルです。Cosmos Turkish Base BERTモデルは、MS MARCOデータセットのトルコ語翻訳版から抽出した50万個のトリプレット(クエリ、肯定的なパッセージ、否定的なパッセージ)で微調整されています。
🚀 クイックスタート
このトルコ語のパッセージ検索モデルは、ColBERTアーキテクチャを基に構築されており、特定のデータセットで微調整されています。以下の手順で使用を開始できます。
✨ 主な機能
- トルコ語のパッセージ検索に特化したモデルです。
- 事前学習済みのCosmos Turkish Base BERTモデルを微調整しています。
📦 インストール
必要なライブラリをインストールするには、以下のコマンドを実行します。
!pip install ragatouille
💻 使用例
基本的な使用法
from ragatouille import RAGPretrainedModel
rag = RAGPretrainedModel.from_pretrained("ytu-ce-cosmos/turkish-colbert")
docs = [
"Marie Curie, radyoaktivite üzerine yaptığı çalışmalarla bilim dünyasına büyük katkılar sağlamıştır. Polonyum ve radyum elementlerini keşfetmiştir. İki farklı dalda Nobel Ödülü alan ilk kişi olmuştur.",
"Isaac Newton, fizik ve matematik alanında yaptığı çalışmalarla bilinir. Yerçekimi teorisi ve hareket yasaları, bilim dünyasında çığır açmıştır. Ayrıca, matematiksel analiz üzerinde de önemli katkıları vardır.",
"Albert Einstein, izafiyet teorisini geliştirerek modern fiziğin temellerini atmıştır. 1921 yılında Nobel Fizik Ödülü'nü kazanmıştır. Kütle-enerji eşitliği (E=mc²) onun en ünlü formülüdür.",
"Alexander Fleming, 1928 yılında penisilini keşfederek modern tıpta devrim yaratmıştır. Bu keşfi sayesinde 1945 yılında Nobel Tıp Ödülü kazanmıştır. Fleming'in çalışmaları antibiyotiklerin gelişimine öncülük etmiştir.",
"Nikola Tesla, alternatif akım (AC) sistemini geliştirmiştir. Elektrik mühendisliği alanında devrim niteliğinde çalışmalar yapmıştır. Kablosuz enerji aktarımı üzerine projeleriyle tanınır."
]
docs = [doc.replace("I", "ı").lower() for doc in docs]
rag.index(docs, index_name="sampleTest")
query = "Birden fazla Nobel Ödülü alan bilim insanı kimdir?"
query = query.replace("I", "ı").lower()
results = rag.search(query, k= 1)
print(results[0]['content'])
注意事項
⚠️ 重要提示
大文字と小文字を区別しない使用には、手動で小文字に変換する必要があります。これはトークナイザーの既知の問題によるものです。以下のようにテキストを小文字に変換してください。
text.replace("I", "ı").lower()
📚 ドキュメント
評価結果
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
📖 引用
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
お問い合わせ
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr