Gemma-2-2B-TR-Knowledge-Graph开源模型 - 从文档轻松生成结构化知识图谱

首页

Gemma 2 2B TR Knowledge Graph

由 Metin 开发

Gemma-2-2B-TR-Knowledge-Graph 是基于 gemma-2-2b-it 微调的模型，专注于从文档内容生成结构化知识图谱。

知识图谱

Safetensors

其他#知识图谱生成 #结构化数据提取 #图数据库构建

下载量 122

发布时间 : 1/16/2025

模型简介

该模型能够从文档内容中自动生成结构化的知识图谱，可用于构建和填充图数据库，实现数据关系的高效存储、查询和可视化。

模型特点

高质量知识图谱生成

在高质量的知识图谱生成样本上进行了训练，能够从文档内容中自动生成结构化的知识图谱。

图数据库支持

生成的知识图谱可用于构建和填充图数据库，支持数据关系的高效存储、查询和可视化。

高效微调

基于 gemma-2-2b-it 模型进行微调，训练时间短，效果显著。

模型能力

文本生成

知识图谱提取

结构化数据生成

使用案例

知识管理

学术文献分析

从学术文献中提取关键概念和关系，构建知识图谱。

生成的结构化知识图谱可用于学术研究和文献综述。

企业知识库构建

从企业文档中提取实体和关系，构建企业知识库。

支持企业知识的高效存储和查询。

数据可视化

知识图谱可视化

将生成的图谱数据可视化，展示复杂关系网络。

提供直观的数据关系展示，便于理解和分析。

🚀 Gemma-2-2B-TR-Knowledge-Graph

Gemma-2-2B-TR-Knowledge-Graph 是 gemma-2-2b-it 的微调版本。它在高质量的知识图谱生成样本上进行了训练，能够从文档内容中自动生成结构化的知识图谱，可用于构建和填充图数据库，实现数据关系的高效存储、查询和可视化。

The Model

🚀 快速开始

安装

首先，你需要安装 vLLM：

pip install vllm

使用示例

在用户提示的末尾添加 \n<knowledge_graph> 以触发知识图谱提取：

from vllm import LLM, SamplingParams
import json

llm = LLM(model="Metin/Gemma-2-2B-TR-Knowledge-Graph")

sampling_params = SamplingParams(temperature=0.1, max_tokens=4096)

content = """Guido van Rossum (d. 31 Ocak 1956), Hollandalı bir bilgisayar programcısıdır.
Python programlama dilinin yazarıdır. Van Rossum 12 Temmuz 2018'de Python yönetiminden istifa ettiğini ve emekliye ayrıldığını duyurdu.[1] 12 Kasım 2020 tarihinde emeklilikten geri dönerek Microsoft'a katıldığını açıklamıştır.[2]"""

conversation = [
  {
      "role": "user",
      "content": content + "\n<knowledge_graph>"
  }
]

outputs = llm.chat(
  conversation,
  sampling_params=sampling_params,
  use_tqdm=False
)

result = json.loads(outputs[0].outputs[0].text)

print(result)

✨ 主要特性

基于 gemma-2-2b-it 模型进行微调，可从文档内容中自动生成结构化知识图谱。
生成的知识图谱可用于构建和填充图数据库，支持数据关系的高效存储、查询和可视化。

📦 安装指南

安装 vLLM：

pip install vllm

💻 使用示例

基础用法

以下是一个使用该模型生成知识图谱的示例：

from vllm import LLM, SamplingParams
import json

llm = LLM(model="Metin/Gemma-2-2B-TR-Knowledge-Graph")

sampling_params = SamplingParams(temperature=0.1, max_tokens=4096)

content = """Derin öğrenme (aynı zamanda derin yapılandırılmış öğrenme, hiyerarşik öğrenme ya da derin makine öğrenmesi) bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

Yani en az bir adet yapay sinir ağının (YSA) kullanıldığı ve birçok algoritma ile, bilgisayarın eldeki verilerden yeni veriler elde etmesidir.

Derin öğrenme gözetimli, yarı gözetimli veya gözetimsiz olarak gerçekleştirilebilir.[1] Derin yapay sinir ağları pekiştirmeli öğrenme yaklaşımıyla da başarılı sonuçlar vermiştir.[2] Yapay sinir ağları, biyolojik sistemlerdeki bilgi işleme ve dağıtılmış iletişim düğümlerinden esinlenilmiştir. Yapay sinir ağlarının biyolojik beyinlerden çeşitli farklılıkları vardır. Özellikle, sinir ağları statik ve sembolik olma eğilimindeyken, çoğu canlı organizmanın biyolojik beyni dinamik(plastik) ve analogtur.[3][4][5]"""

conversation = [
  {
      "role": "user",
      "content": content + "\n<knowledge_graph>"
  }
]

outputs = llm.chat(
  conversation,
  sampling_params=sampling_params,
  use_tqdm=False
)

result = json.loads(outputs[0].outputs[0].text)

print(result)

输出示例

示例 1

文档内容：

Derin öğrenme (aynı zamanda derin yapılandırılmış öğrenme, hiyerarşik öğrenme ya da derin makine öğrenmesi) bir veya daha fazla gizli katman içeren yapay sinir ağları ve benzeri makine öğrenme algoritmalarını kapsayan çalışma alanıdır.

Yani en az bir adet yapay sinir ağının (YSA) kullanıldığı ve birçok algoritma ile, bilgisayarın eldeki verilerden yeni veriler elde etmesidir.

Derin öğrenme gözetimli, yarı gözetimli veya gözetimsiz olarak gerçekleştirilebilir.[1] Derin yapay sinir ağları pekiştirmeli öğrenme yaklaşımıyla da başarılı sonuçlar vermiştir.[2] Yapay sinir ağları, biyolojik sistemlerdeki bilgi işleme ve dağıtılmış iletişim düğümlerinden esinlenilmiştir. Yapay sinir ağlarının biyolojik beyinlerden çeşitli farklılıkları vardır. Özellikle, sinir ağları statik ve sembolik olma eğilimindeyken, çoğu canlı organizmanın biyolojik beyni dinamik(plastik) ve analogtur.[3][4][5]

输出结果：

{
  "nodes": [
    {
      "type": "object",
      "name": "Derin öğrenme"
    },
    {
      "type": "object",
      "name": "yapay sinir ağları"
    },
    {
      "type": "object",
      "name": "bilgisayar"
    },
    {
      "type": "object",
      "name": "veriler"
    },
    {
      "type": "object",
      "name": "pekiştirmeli öğrenme"
    },
    {
      "type": "object",
      "name": "biyolojik sistemler"
    },
    {
      "type": "object",
      "name": "biyolojik beyin"
    },
    {
      "type": "object",
      "name": "sinir ağları"
    },
    {
      "type": "object",
      "name": "dinamik beyin"
    },
    {
      "type": "object",
      "name": "analog beyin"
    }
  ],
  "relationships": [
    {
      "source": "Derin öğrenme",
      "target": "yapay sinir ağları",
      "relationship": "kapsar"
    },
    {
      "source": "yapay sinir ağları",
      "target": "bilgisayar",
      "relationship": "kullanılır"
    },
    {
      "source": "yapay sinir ağları",
      "target": "veriler",
      "relationship": "yeni veriler elde eder"
    },
    {
      "source": "yapay sinir ağları",
      "target": "pekiştirmeli öğrenme",
      "relationship": "başarılı sonuçlar verir"
    },
    {
      "source": "yapay sinir ağları",
      "target": "biyolojik sistemler",
      "relationship": "esinlenilmiştir"
    },
    {
      "source": "biyolojik beyin",
      "target": "sinir ağları",
      "relationship": "farklılıkları vardır"
    },
    {
      "source": "sinir ağları",
      "target": "dinamik beyin",
      "relationship": "özellik gösterir"
    },
    {
      "source": "sinir ağları",
      "target": "analog beyin",
      "relationship": "özellik gösterir"
    }
  ]
}

知识图谱可视化： Graph

示例 2

文档内容：

Guido van Rossum (d. 31 Ocak 1956), Hollandalı bir bilgisayar programcısıdır.

Python programlama dilinin yazarıdır. Van Rossum 12 Temmuz 2018'de Python yönetiminden istifa ettiğini ve emekliye ayrıldığını duyurdu.[1] 12 Kasım 2020 tarihinde emeklilikten geri dönerek Microsoft'a katıldığını açıklamıştır.[2]

输出结果：

{
  "nodes": [
    {
      "type": "person",
      "name": "Guido van Rossum"
    },
    {
      "type": "object",
      "name": "Python"
    },
    {
      "type": "organization",
      "name": "Microsoft"
    },
    {
      "type": "date",
      "name": "31 Ocak 1956"
    },
    {
      "type": "date",
      "name": "12 Temmuz 2018"
    },
    {
      "type": "date",
      "name": "12 Kasım 2020"
    }
  ],
  "relationships": [
    {
      "source": "Guido van Rossum",
      "target": "Python",
      "relationship": "yazarıdır"
    },
    {
      "source": "Guido van Rossum",
      "target": "Python",
      "relationship": "yönetiminden istifa etti"
    },
    {
      "source": "Guido van Rossum",
      "target": "Microsoft",
      "relationship": "katıldı"
    },
    {
      "source": "Guido van Rossum",
      "target": "31 Ocak 1956",
      "relationship": "doğum tarihi"
    },
    {
      "source": "Guido van Rossum",
      "target": "12 Temmuz 2018",
      "relationship": "istifa tarihi"
    },
    {
      "source": "Guido van Rossum",
      "target": "12 Kasım 2020",
      "relationship": "emeklilikten geri dönme tarihi"
    }
  ]
}

知识图谱可视化： Graph_2

🔧 技术细节

模型信息

属性	详情
模型类型	Gemma-2-2B-TR-Knowledge-Graph
基础模型	gemma-2-2b-it
训练数据	使用了一个由 30K 个样本组成的合成生成知识图谱数据集，不包含专有数据。
训练时间	在单个 RTX 6000 ADA 上训练 3 小时。
LoRA 配置	lora_r: 64 lora_alpha: 32 lora_dropout: 0.05 lora_target_linear: true

注意事项

该模型仍可能会生成错误或无意义的输出，请在使用输出结果之前进行验证。

📄 许可证

Gemma

📚 引用

@article{Metin,
  title={Metin/Gemma-2-2B-TR-Knowledge-Graph},
  author={Metin Usta},
  year={2024},
  url={https://huggingface.co/Metin/Gemma-2-2B-TR-Knowledge-Graph}
}