RAG Specialized LLM
R
RAG Specialized LLM
由Surromind開發
基於Qwen2.5-14B微調的韓語大語言模型,專注於RAG(檢索增強生成)任務,能夠生成包含來源引用的結構化回答。
下載量 52
發布時間 : 3/21/2025
模型概述
本模型針對RAG服務優化,能夠分析輸入文檔並生成包含準確來源引用的回答,輸出格式為結構化JSON。特別適用於需要提供可信來源信息的問答場景。
模型特點
結構化JSON輸出
自動生成包含相關文檔、來源引用和答案的標準化JSON格式輸出
來源標註
在回答中精確標註引用來源,使用<co: doc_id>標籤標記引用段落
多文檔分析
能夠同時分析多個相關文檔並整合信息生成綜合回答
韓語優化
針對韓語文本理解和生成進行專項優化
模型能力
文本生成
問答系統
文檔分析
來源引用
結構化輸出
使用案例
企業知識庫
內部文檔問答
基於企業內部分檔快速生成帶來源引用的專業回答
提高信息可信度和可追溯性
客戶服務
產品FAQ生成
根據產品文檔自動生成帶來源引用的客戶問答
減少人工客服工作量同時保證回答準確性
教育研究
學術文獻問答
基於研究論文生成帶精確引用的解釋性回答
輔助研究人員快速獲取關鍵信息
🚀 RAG 특화 한국어 LLM 모델
本項目基於Qwen2.5 14B模型,使用自行構建的RAG特化數據集、CoT數據集和基準數據集進行全量微調。該模型能夠針對常見RAG服務的輸入數據生成準確的答案及答案出處,並以Json格式輸出。
🚀 快速開始
以下是使用該模型的快速示例代碼:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Surromind/RAG-Specialized-LLM"
model = AutoModelForCausalLM.from_pretrained(
model_name, torch_dtype="auto", device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = """ 질문 : NAOG 외에 몽골의 어떤 사람들이 행정자치부 지방행정연수원의 교육 프로그램에 참가해왔지?\n\n doc_id : 44365 / title : 한국 지방인재개발전략 베트남에 전수된다. / content : 한국 지방인재개발전략 베트남에 전수된다.\n□ 베트남 랑선성 지방정부 공무원들이 공무원 인재채용 및 교육 훈련제도 시스템 등 한국의 인적자원개발전략을 배우러 우리나라를 찾았다. \n○ 행정자치부 지방행정연수원(원장 ***, 이하 연수원)은 한국국제 협력단(KOICA)과 공동으로 11월 26일부터 12월 9일까지 2주간 베트남 랑선성 지방정부 공무원 15명을 대상으로『베트남 랑선성 지방정부 공무원 역량강화과정(Capacity Building for Vietnamese Local Government Officials from Lan Son Province』을 운영한다.\n□ 이번 과정은 연수생 대부분이 베트남 랑선성 소속공무원인 만큼 해당 지방정부가 요청한 지방행정, 공무원 채용·교육, 지역경제 활성화 강의 및 현장견학 등의 맞춤형 연수과정으로 설계되었다. \n○ 특히, 베트남 지방정부 공무원들의 리더십과 역량을 강화하기 위해 공무원 인재채용 및 교육훈련제도 시스템에 대한 토론식 세미나 방식으로 Action Plan을 수립하도록 하여 연수생이 랑선성의 인적자원개발 정책수립에 적용할 수 있도록 지원할 예정이다.\n○ 아울러, 연수단은 농업소득증대와 지역경제 활성화 성공사례로 평가 받고 있는 완주군 거점농민가공센터, 지역경제순환센터 등을 방문하여 지역농민이 생산한 농산물이 2차, 3차 식품 가공 과정을 거쳐 안정적으로 판매될 수 있도록 지원하는 농산물 가공 시스템 현장을 살펴 볼 예정이다. \n○ 이외에도 베트남 랑선성에서 관심이 많은 인천경제자유구역청을 견학하여 한국의 경제발전상 등 현장을 둘러보면서 랑선성 지역 경제에 접목할 수 있는 체험의 기회도 가질 예정이다. \n□ 한편, 연수원은 2006년부터 베트남 지방 공무원들을 대상으로 연수과정을 운영한 이후 5개 베트남 과정과 기타 다국 과정을 통하여 총 130명의 연수생을 동창생으로 배출했다.doc_id : 45112 / title : “한국 공기업 혁신사례 배우러 왔어요!” / content : 몽골 NAOG 교수단 및 고위공무원 방한 “한국 공기업 혁신사례 배우러 왔어요!” - 지방행정연수원, 13년째 몽골 맞춤형 교육실시-\n□ 행정자치부 지방행정연수원(원장 최두영, 이하 연수원)은 3월 1일부터 3월 8일까지 『몽골 NAOG* 역량강화과정』을 운영한다. \n○ 이번 과정에는 교수, 고위공무원, 연수관계관 14명이 참가한다. \n* NAOG (국립거버넌스 아카데미, National Academy of Governance) : 공무원은 물론 정치인·민간인 등 몽골의 오피니언 리더들을 교육하는 몽골 최대의 교육기관으로 석․박사학위 수여\n□ 연수원은 몽골 NAOG와 2002년 교류협력 MOU를 체결한 이후, 13개 교육과정(행정개혁, 경제발전 전략, 행정의 투명성 제고 방안 등)을 운영해 158명의 NAOG 교수와 고위 공무원을 동창생으로 배출했고, \n○ 그 이외에도 몽골의 도지사, 군수 등 지방공무원 1,310명을 대상으로 한국 지방행정의 우수사례를 벤치마킹할 수 있는 몽골군수 과정 등 다양한 교육프로그램을 운영해 오고 있다."""
messages = [
{
"role": "system",
"content": """당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[{"related_document" : {"문서 정보에서 찾은 doc_id"}, "source" : {"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기", "문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기"},"answer" : "출처를 표기하지 않은 3~6문장 설명형 답변","grounded_answer" : "answer과 동일하되 <co: doc_id>와 </co: doc_id> 기호로 인용 출처를 명시한 답변"}]\n""",
},
{"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
generated_ids = [
output_ids[len(input_ids) :]
for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主要特性
- 基於Qwen2.5 14B模型進行全量微調,能夠針對常見RAG服務的輸入數據生成準確的答案及答案出處。
- 以Json格式輸出答案,輸出的鍵值包含 "related_document"、"source"、"answer" 和 "grounded_answer"。
📦 安裝指南
暫未提供相關安裝步驟,你可以參考上述快速開始部分的代碼進行使用。
💻 使用示例
基礎用法
# 上述快速開始部分的代碼即為基礎使用示例
高級用法
暫未提供高級使用場景的示例代碼。
📚 詳細文檔
RAG提示模板
RAG_PROMPT = """<|im_start|>system\n\n 당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[
{{
"related_document" : {{"문서 정보에서 찾은 doc_id"}}
"source" : {{"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기",
"문서 정보에서 찾은 doc_id" : "해당 문서에서 찾을 수 있는 인용구 구절, 원문 그대로 표기"}},
"answer" : "출처를 표기하지 않은 3~6문장 설명형 답변",
"grounded_answer" : "answer과 동일하되 <co: doc_id>와 </co: doc_id> 기호로 인용 출처를 명시한 답변"
}}
]\n
<|im_end|>\n<|im_start|>user\n {instruction} <|im_end|>\n<|im_start|>assistant\n"""
答案輸出示例
{
"related_document": {
"D0000042284685": "가락몰 전동 삼륜차 화재예방 추진 대책",
"4895": "차세대 고신뢰성 고출력 슈퍼축전기"
},
"source": {
"D0000042284685": "「물류운반장비 충전장치(리튬이온 배터리) ...",
"4895": "슈퍼축전기와 리튬이차전지의 비교 ..."
},
"answer": "가락몰 전동 삼륜차의 리튬이온 배터리와 슈퍼축전기는 메...",
"grounded_answer": "가락몰 전동 삼륜차의 리튬이온 배터리와 슈퍼축전기는 <co: 4895>메커니즘, 소재, 수명, 보호회로, 극성, 과전압, 잔존용량측정, 특징</co: 4895> 등에서 차이가 있습니다. 리튬이온 배터리는 <co: 4895>리튬이온 이동 메커니즘</co: 4895>을 가지고 있으며,... "
}
🔧 技術細節
訓練環境及參數
屬性 | 詳情 |
---|---|
調優環境 | H100(80GB) * 8 |
tokenizer_model_mex_length | 4500 |
use_flash_attn | True |
num_train_epochs | 3.0 |
weight_decay | 0.001 |
lr_scheduler_type | "linear" |
per_device_train_batch_size | 1 |
gradient_accumulation_steps | 64 |
learning_rate | 5e-06 |
bf16 | True |
deepspeed | ds_stage2.json |
使用數據集
- AIhub 16 行政文檔對象機器閱讀理解數據
- AIhub 17 新聞文章機器閱讀理解數據
- AIhub 21 圖書資料機器閱讀理解
- AIhub 149 表信息問答數據
- AIhub 150 數字運算機器閱讀理解數據
- AIhub 151 金融、法律文檔機器閱讀理解數據
- kyujinpy/KoCoT_2000
- MarkrAI/KoCommercial-Dataset
- CarrotAI/ko-instruction-dataset
- heegyu/CoT-collection-ko
📄 許可證
本項目採用 Apache-2.0 許可證。
📞 聯繫我們
- 公司名稱:써로마인드
- 公司地址:首爾市冠嶽區南部循環路 1802, 2層
- 聯繫電話:02 - 872 - 5127
- 郵箱:contact@surromind.ai
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98