🚀 土耳其語-e5-大模型
這是基於模型 intfloat/multilingual-e5-large-instruct
使用各種土耳其語數據集進行微調後的版本。該模型可根據土耳其語搜索查詢,檢索出能最佳回答該查詢的相關土耳其語文本段落。
模型信息
屬性 |
詳情 |
模型類型 |
特徵提取 |
基礎模型 |
intfloat/multilingual-e5-large-instruct |
標籤 |
土耳其語、檢索、段落檢索 |
🚀 快速開始
本模型是 intfloat/multilingual-e5-large-instruct
的微調版本,使用了多種土耳其語數據集進行微調。
推薦指令:“給定一個土耳其語搜索查詢,檢索用土耳其語編寫的、最能回答該查詢的相關段落”
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
def get_detailed_instruct(task_description: str, query: str) -> str:
return f'Instruct: {task_description}\nQuery: {query}'
task = 'Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query'
queries = [
get_detailed_instruct(task, 'Kolay bir kahvaltı tarifi nedir?'),
get_detailed_instruct(task, 'Dış mekan yürüyüşü için en iyi saat hangisidir?')
]
documents = [
"Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir kahvaltı hem pratik hem de besleyicidir. Üzerine biraz bal ve tarçın eklerseniz lezzeti artar.",
"Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için idealdir. Bu saatlerde hava daha serin ve temiz olur, ayrıca gün ışığı vücut ritmini destekler.",
"Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür ve yaklaşık 1.355 kilometre uzunluğundadır."
]
input_texts = queries + documents
model = SentenceTransformer('ytu-ce-cosmos/turkish-e5-large')
embeddings = model.encode(input_texts, convert_to_tensor=True, normalize_embeddings=True)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
for i, query in enumerate(queries):
print(f"\nSorgu: {query.split('Query: ')[-1]}")
for j, doc in enumerate(documents):
print(f" → Belge {j+1} Skoru: {scores[i][j]:.2f}")
print(f" İçerik: {doc[:80]}...")
"""
Sorgu: Kolay bir kahvaltı tarifi nedir?
→ Belge 1 Skoru: 67.36
İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
→ Belge 2 Skoru: 31.68
İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
→ Belge 3 Skoru: 7.06
İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
Sorgu: Dış mekan yürüyüşü için en iyi saat hangisidir?
→ Belge 1 Skoru: 28.14
İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
→ Belge 2 Skoru: 78.02
İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
→ Belge 3 Skoru: 18.70
İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
"""
📚 引用信息
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
📞 聯繫我們
耶迪特佩大學計算機工程系COSMOS人工智能研究小組
官網鏈接
郵箱:cosmos@yildiz.edu.tr
📄 許可證
本項目採用MIT許可證。