🚀 ICKG模型卡片
ICKG(集成上下文知识图谱生成器)是一款专门用于知识图谱构建(KGC)任务的语言模型,它基于指令执行能力,能根据特定提示生成知识图谱。该模型适用于对自然语言处理和知识图谱构建感兴趣的研究人员、数据科学家和开发者。
✨ 主要特性
- 专业定制:ICKG 2.0 是从 LMSYS 的 Vicuna - 7B 微调而来的特定领域模型,而 Vicuna - 7B 源自 Meta 的 LLaMA 2.0 LLM,专门针对知识图谱构建任务进行优化。
- 灵活定制:提示模板中的实体和关系可根据具体任务进行定制,能满足不同场景的需求。
- 性能优越:在知识图谱构建任务的初步评估中,ICKG 表现优于 GPT - 3.5 和原始的 Vicuna - 7B 模型,与 GPT - 4 具有相当的能力,尤其在生成基于指令的知识图谱时,注重质量和格式的遵循。
📦 安装指南
文档未提供具体安装步骤,可参考代码仓库获取相关信息:[https://github.com/xiaohui - victor - li/FinDKG](https://github.com/xiaohui - victor - li/FinDKG)
📚 详细文档
模型详情
- 开发者:[Xiaohui Li](https://xiaohui - victor - li.github.io/)
- 模型类型:基于Transformer架构的自回归语言模型。
- 许可证:非商业用途
- 微调基础模型:[Vicuna - 7B](https://huggingface.co/lmsys/vicuna - 7b - v1.5)(最初源自 LLaMA 2.0)
模型来源
- 代码仓库:[https://github.com/xiaohui - victor - li/FinDKG](https://github.com/xiaohui - victor - li/FinDKG)
- 项目网站:[https://xiaohui - victor - li.github.io/FinDKG/](https://xiaohui - victor - li.github.io/FinDKG/)
- 相关论文:[https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445](https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445)
用途
ICKG LLM 的主要用途是基于指令执行能力,通过特定提示生成知识图谱,适用于对自然语言处理和知识图谱构建感兴趣的研究人员、数据科学家和开发者。
如何开始使用模型
可参考 Python 代码获取使用方法:[https://github.com/xiaohui - victor - li/FinDKG](https://github.com/xiaohui - victor - li/FinDKG)
训练详情
ICKG 2.0 是使用约 3K 个指令执行示例从最新的 Vicuna - 7B 微调而来,这些示例包括知识图谱构建的输入文档和提取的知识图谱三元组作为响应输出。通过提示工程,ICKG 学会了从给定的文本文档中提取知识图谱三元组列表。更多深入的训练细节,请参考 [相关论文](https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445) 中的“Generative Knowledge Graph Construction with Fine - tuned LLM”部分。
- 提示模板:实体和关系可根据具体任务进行定制。
<input_text>
是要替换的文档文本。
从标记为 INPUT_TEXT 的提供文档中,你的任务是从中提取结构化信息,以三元组的形式用于构建知识图谱。每个元组应采用 ('h', 'type', 'r', 'o', 'type') 的形式,其中 'h' 代表头实体,'r' 代表关系,'o' 代表尾实体。'type' 表示相应实体的类别。请勿包含冗余三元组,请勿包含关系发生在过去的三元组。
请注意,实体不应是通用的、数值的或时间性的(如日期或百分比)。实体必须分类为以下类别:
ORG:除政府或监管机构之外的组织
ORG/GOV:政府机构(例如,“美国政府”)
ORG/REG:监管机构(例如,“美联储”)
PERSON:个人(例如,“埃隆·马斯克”)
GPE:地缘政治实体,如国家、城市等(例如,“德国”)
COMP:公司(例如,“谷歌”)
PRODUCT:产品或服务(例如,“iPhone”)
EVENT:特定和实质性事件(例如,“奥运会”,“新冠疫情”)
SECTOR:公司部门或行业(例如,“科技行业”)
ECON_INDICATOR:经济指标(例如,“通货膨胀率”),像 “10%” 这样的数值不是 ECON_INDICATOR;
FIN_INSTRUMENT:金融和市场工具(例如,“股票”,“全球市场”)
CONCEPT:抽象概念或观念或主题(例如,“通货膨胀”,“人工智能”,“气候变化”)
这些实体之间的关系 'r' 必须由以下关系动词集之一表示:Has, Announce, Operate_In, Introduce, Produce, Control, Participates_In, Impact, Positive_Impact_On, Negative_Impact_On, Relate_To, Is_Member_Of, Invests_In, Raise, Decrease。
请记住进行实体消歧,合并指代同一实体的不同短语或缩写(例如,“英国央行”,“BOE” 和 “英格兰银行” 应统一为 “英格兰银行”)。将三元组中的每个实体简化为少于四个单词。
你的输出应严格采用 JSON 列表格式的三元组列表,其中关系 'r' 必须在上述给定的关系动词集中。仅输出列表。
===========================================================
作为示例,考虑以下新闻摘录:
'苹果公司本月将在科技行业推出新款 iPhone 14。该产品的发布可能会对苹果的股票价值产生积极影响。'
从这段文本中,你的输出应该是:
[('苹果公司', 'COMP', 'Introduce', 'iPhone 14', 'PRODUCT'),
('苹果公司', 'COMP', 'Operate_In', '科技行业', 'SECTOR'),
('iPhone 14', 'PRODUCT', 'Positive_Impact_On', '苹果股票价值', 'FIN_INSTRUMENT')]
INPUT_TEXT:
<input_text>
评估
ICKG 已进行了初步评估,将其性能与 GPT - 3.5、GPT - 4 和原始的 Vicuna - 7B 模型进行了比较。在知识图谱构建任务方面,它优于 GPT - 3.5 和 Vicuna - 7B,同时与 GPT - 4 具有相当的能力。ICKG 在生成基于指令的知识图谱时,尤其注重质量和格式的遵循。更多详细介绍,请参考 [相关论文](https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445)。
📄 许可证
本模型采用 CC - BY - NC - 4.0 许可证,仅可用于非商业用途。