turkish-e5-large Open-source Turkish Retrieval Model - Achieve Precise Paragraph Retrieval Efficiently for Free

Turkish E5 Large

Developed by ytu-ce-cosmos

A Turkish language retrieval model fine-tuned based on the intfloat/multilingual-e5-large-instruct model, focusing on Turkish paragraph retrieval tasks.

Text Embedding

Safetensors

Open Source License:MIT #Turkish language retrieval #Multilingual paragraph matching #Instruction-enhanced feature extraction

Downloads 2,327

Release Time : 4/11/2025

Model Overview

This is a feature extraction model optimized for Turkish, specifically designed to retrieve the most relevant paragraphs for Turkish search queries.

Model Features

Turkish language optimization

Specially fine-tuned for Turkish, providing more accurate Turkish text retrieval capabilities

Instruction enhancement

Supports instruction-formatted input to better understand the context of retrieval tasks

Multi-domain applicability

Can be applied to Turkish information retrieval needs across various domains

Model Capabilities

Turkish text feature extraction

Semantic similarity calculation

Paragraph retrieval

Use Cases

Information retrieval

Recipe retrieval

Retrieve relevant recipe information based on user queries

Can accurately match paragraphs related to breakfast recipes

Health advice retrieval

Retrieve lifestyle health recommendations

Can accurately identify recommendations for the best time for outdoor activities

Knowledge retrieval

Geographical knowledge retrieval

Retrieve information about Turkish geography

Can identify knowledge paragraphs related to Turkish rivers

🚀 Turkish-e5-Large

This is a fine-tuned version of the intfloat/multilingual-e5-large-instruct model using various Turkish datasets, designed for feature extraction and passage retrieval in Turkish.

🚀 Quick Start

This model is a fine-tuned version of intfloat/multilingual-e5-large-instruct with various Turkish datasets. The recommended instruction is "Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query".

✨ Features

Finetuned for Turkish: Specifically adapted to perform well on Turkish language tasks.
Feature Extraction: Ideal for extracting features from Turkish text.
Passage Retrieval: Capable of retrieving relevant passages based on Turkish queries.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

from sentence_transformers import SentenceTransformer

def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery: {query}'

# Task: Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query
task = 'Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query'

queries = [
    get_detailed_instruct(task, 'Kolay bir kahvaltı tarifi nedir?'),
    get_detailed_instruct(task, 'Dış mekan yürüyüşü için en iyi saat hangisidir?')
]

documents = [
    "Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir kahvaltı hem pratik hem de besleyicidir. Üzerine biraz bal ve tarçın eklerseniz lezzeti artar.",
    "Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için idealdir. Bu saatlerde hava daha serin ve temiz olur, ayrıca gün ışığı vücut ritmini destekler.",
    "Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür ve yaklaşık 1.355 kilometre uzunluğundadır."
]

input_texts = queries + documents

model = SentenceTransformer('ytu-ce-cosmos/turkish-e5-large')

embeddings = model.encode(input_texts, convert_to_tensor=True, normalize_embeddings=True)
scores = (embeddings[:2] @ embeddings[2:].T) * 100

for i, query in enumerate(queries):
    print(f"\nSorgu: {query.split('Query: ')[-1]}")
    for j, doc in enumerate(documents):
        print(f"   → Belge {j+1} Skoru: {scores[i][j]:.2f}")
        print(f"     İçerik: {doc[:80]}...")

"""
Sorgu: Kolay bir kahvaltı tarifi nedir?
   → Belge 1 Skoru: 67.36
     İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
   → Belge 2 Skoru: 31.68
     İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
   → Belge 3 Skoru: 7.06
     İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...

Sorgu: Dış mekan yürüyüşü için en iyi saat hangisidir?
   → Belge 1 Skoru: 28.14
     İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
   → Belge 2 Skoru: 78.02
     İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
   → Belge 3 Skoru: 18.70
     İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
"""

📚 Documentation

Base Model: intfloat/multilingual-e5-large-instruct
Tags: Turkish, retrieval, passage-retrieval
Pipeline Tag: feature-extraction

Property	Details
Model Type	Fine-tuned version of intfloat/multilingual-e5-large-instruct
Training Data	Various Turkish datasets

📄 License

This project is licensed under the MIT License.

📖 Citations

@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}

Contact

COSMOS AI Research Group, Yildiz Technical University Computer Engineering Department
https://cosmos.yildiz.edu.tr/
cosmos@yildiz.edu.tr

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご