EEVE-Korean-Instruct-10.8B-v1.0-Grade-Retrieval开源模型

首页

EEVE Korean Instruct 10.8B V1.0 Grade Retrieval

由 sinjy1203 开发

该模型是基于EEVE-韩语指导-10.8B-v1.0微调的，用于评估RAG（检索增强生成）中针对问题的检索上下文是否正确，并以'是'或'否'回答。

大型语言模型

Transformers

韩语开源协议:Apache-2.0 #韩语RAG评估 #检索质量评分 #高精度分类

下载量 1,764

发布时间 : 6/4/2024

模型简介

该模型专门用于评估在检索增强生成（RAG）系统中检索到的上下文信息是否足够回答问题，输出为简单的'是'或'否'判断。

模型特点

检索上下文评估

能够准确评估检索到的上下文信息是否足以回答给定的问题

简洁输出

输出仅为'是'或'否'，便于系统集成和处理

韩语优化

专门针对韩语内容和问题进行了优化

模型能力

文本分类

检索质量评估

韩语理解

使用案例

检索增强生成系统

RAG系统检索质量监控

在RAG系统中自动评估检索到的上下文是否相关和充分

提高系统整体回答质量

知识库检索优化

评估知识库检索结果的质量，帮助优化检索算法

提升知识库检索准确率

🚀 EEVE-Korean-Instruct-10.8B-v1.0-Grade-Retrieval

本模型经过微调，用于评估检索增强生成（RAG）中针对某个问题所检索到的上下文是否正确，并以“是”或“否”进行回答。

📚 详细文档

关于模型

该模型的基础模型是 yanolja/EEVE-Korean-Instruct-10.8B-v1.0。

提示模板

当给定问题和信息时，请评估这些信息是否足以回答该问题。
请用“예（是）”或“아니오（否）”来回答信息是否充足。

### 问题: 
{question}

### 信息: 
{context}

### 评估:

🚀 快速开始

如何使用

import torch
from transformers import (
    BitsAndBytesConfig,
    AutoModelForCausalLM,
    AutoTokenizer,
)

model_path = "sinjy1203/EEVE-Korean-Instruct-10.8B-v1.0-Grade-Retrieval"
nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.float16,
)

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(
    model_path, quantization_config=nf4_config, device_map={'': 'cuda:0'}
)

prompt_template = '주어진 질문과 정보가 주어졌을 때 질문에 답하기에 충분한 정보인지 평가해줘.\n정보가 충분한지를 평가하기 위해 "예" 또는 "아니오"로 답해줘.\n\n### 질문:\n{question}\n\n### 정보:\n{context}\n\n### 평가:\n'
query = {
    "question": "동아리 종강총회가 언제인가요?",
    "context": "종강총회 날짜는 6월 21일입니다."
}

model_inputs = tokenizer(prompt_template.format_map(query), return_tensors='pt')
output = model.generate(**model_inputs, max_new_tokens=100, max_length=200)
print(output)

示例输出

当给定问题和信息时，请评估这些信息是否足以回答该问题。
请用“예（是）”或“아니오（否）”来回答信息是否充足。

### 问题:
社团结课总会什么时候举行？

### 信息:
结课总会日期是6月21日。

### 评估:
예<|end_of_text|>

训练数据

参考了 stanford_alpaca 生成的指令。
使用 yanolja/EEVE-Korean-Instruct-10.8B-v1.0 作为问题生成的模型。

🔧 技术细节

指标

韩语大语言模型基准测试

模型	平均分	Ko-ARC	Ko-HellaSwag	Ko-MMLU	Ko-TruthfulQA	Ko-CommonGen V2
EEVE-Korean-Instruct-10.8B-v1.0	56.08	55.2	66.11	56.48	49.14	53.48
EEVE-Korean-Instruct-10.8B-v1.0-Grade-Retrieval	56.1	55.55	65.95	56.24	48.66	54.07

生成数据集

模型	准确率	F1值	精确率	召回率
EEVE-Korean-Instruct-10.8B-v1.0	0.824	0.800	0.885	0.697
EEVE-Korean-Instruct-10.8B-v1.0-Grade-Retrieval	0.892	0.875	0.903	0.848

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库