🚀 Turkish-e5-Large
This is a fine-tuned version of the intfloat/multilingual-e5-large-instruct model using various Turkish datasets, designed for feature extraction and passage retrieval in Turkish.
🚀 Quick Start
This model is a fine-tuned version of intfloat/multilingual-e5-large-instruct with various Turkish datasets. The recommended instruction is "Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query".
✨ Features
- Finetuned for Turkish: Specifically adapted to perform well on Turkish language tasks.
- Feature Extraction: Ideal for extracting features from Turkish text.
- Passage Retrieval: Capable of retrieving relevant passages based on Turkish queries.
📦 Installation
No specific installation steps are provided in the original document.
💻 Usage Examples
Basic Usage
from sentence_transformers import SentenceTransformer
def get_detailed_instruct(task_description: str, query: str) -> str:
return f'Instruct: {task_description}\nQuery: {query}'
task = 'Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query'
queries = [
get_detailed_instruct(task, 'Kolay bir kahvaltı tarifi nedir?'),
get_detailed_instruct(task, 'Dış mekan yürüyüşü için en iyi saat hangisidir?')
]
documents = [
"Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir kahvaltı hem pratik hem de besleyicidir. Üzerine biraz bal ve tarçın eklerseniz lezzeti artar.",
"Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için idealdir. Bu saatlerde hava daha serin ve temiz olur, ayrıca gün ışığı vücut ritmini destekler.",
"Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür ve yaklaşık 1.355 kilometre uzunluğundadır."
]
input_texts = queries + documents
model = SentenceTransformer('ytu-ce-cosmos/turkish-e5-large')
embeddings = model.encode(input_texts, convert_to_tensor=True, normalize_embeddings=True)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
for i, query in enumerate(queries):
print(f"\nSorgu: {query.split('Query: ')[-1]}")
for j, doc in enumerate(documents):
print(f" → Belge {j+1} Skoru: {scores[i][j]:.2f}")
print(f" İçerik: {doc[:80]}...")
"""
Sorgu: Kolay bir kahvaltı tarifi nedir?
→ Belge 1 Skoru: 67.36
İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
→ Belge 2 Skoru: 31.68
İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
→ Belge 3 Skoru: 7.06
İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
Sorgu: Dış mekan yürüyüşü için en iyi saat hangisidir?
→ Belge 1 Skoru: 28.14
İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
→ Belge 2 Skoru: 78.02
İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
→ Belge 3 Skoru: 18.70
İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
"""
📚 Documentation
- Base Model: intfloat/multilingual-e5-large-instruct
- Tags: Turkish, retrieval, passage-retrieval
- Pipeline Tag: feature-extraction
Property |
Details |
Model Type |
Fine-tuned version of intfloat/multilingual-e5-large-instruct |
Training Data |
Various Turkish datasets |
📄 License
This project is licensed under the MIT License.
📖 Citations
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
Contact
COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr