🚀 土耳其语-e5-大模型
这是基于模型 intfloat/multilingual-e5-large-instruct
使用各种土耳其语数据集进行微调后的版本。该模型可根据土耳其语搜索查询,检索出能最佳回答该查询的相关土耳其语文本段落。
模型信息
属性 |
详情 |
模型类型 |
特征提取 |
基础模型 |
intfloat/multilingual-e5-large-instruct |
标签 |
土耳其语、检索、段落检索 |
🚀 快速开始
本模型是 intfloat/multilingual-e5-large-instruct
的微调版本,使用了多种土耳其语数据集进行微调。
推荐指令:“给定一个土耳其语搜索查询,检索用土耳其语编写的、最能回答该查询的相关段落”
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
def get_detailed_instruct(task_description: str, query: str) -> str:
return f'Instruct: {task_description}\nQuery: {query}'
task = 'Given a Turkish search query, retrieve relevant passages written in Turkish that best answer the query'
queries = [
get_detailed_instruct(task, 'Kolay bir kahvaltı tarifi nedir?'),
get_detailed_instruct(task, 'Dış mekan yürüyüşü için en iyi saat hangisidir?')
]
documents = [
"Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir kahvaltı hem pratik hem de besleyicidir. Üzerine biraz bal ve tarçın eklerseniz lezzeti artar.",
"Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için idealdir. Bu saatlerde hava daha serin ve temiz olur, ayrıca gün ışığı vücut ritmini destekler.",
"Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür ve yaklaşık 1.355 kilometre uzunluğundadır."
]
input_texts = queries + documents
model = SentenceTransformer('ytu-ce-cosmos/turkish-e5-large')
embeddings = model.encode(input_texts, convert_to_tensor=True, normalize_embeddings=True)
scores = (embeddings[:2] @ embeddings[2:].T) * 100
for i, query in enumerate(queries):
print(f"\nSorgu: {query.split('Query: ')[-1]}")
for j, doc in enumerate(documents):
print(f" → Belge {j+1} Skoru: {scores[i][j]:.2f}")
print(f" İçerik: {doc[:80]}...")
"""
Sorgu: Kolay bir kahvaltı tarifi nedir?
→ Belge 1 Skoru: 67.36
İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
→ Belge 2 Skoru: 31.68
İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
→ Belge 3 Skoru: 7.06
İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
Sorgu: Dış mekan yürüyüşü için en iyi saat hangisidir?
→ Belge 1 Skoru: 28.14
İçerik: Güne enerjik başlamak için yulaf ezmesi, süt ve meyveyle hazırlanan basit bir ka...
→ Belge 2 Skoru: 78.02
İçerik: Sabah saatleri, özellikle 07:00 ile 10:00 arası, açık havada yürüyüş yapmak için...
→ Belge 3 Skoru: 18.70
İçerik: Türkiye'nin en uzun nehri Kızılırmak'tır. Sivas'tan doğar, Karadeniz'e dökülür v...
"""
📚 引用信息
@article{kesgin2023developing,
title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
journal={arXiv preprint arXiv:2307.14134},
year={2023}
}
📞 联系我们
耶迪特佩大学计算机工程系COSMOS人工智能研究小组
官网链接
邮箱:cosmos@yildiz.edu.tr
📄 许可证
本项目采用MIT许可证。