🚀 ICKG模型卡片
ICKG(集成上下文知識圖譜生成器)是一款專門用於知識圖譜構建(KGC)任務的語言模型,它基於指令執行能力,能根據特定提示生成知識圖譜。該模型適用於對自然語言處理和知識圖譜構建感興趣的研究人員、數據科學家和開發者。
✨ 主要特性
- 專業定製:ICKG 2.0 是從 LMSYS 的 Vicuna - 7B 微調而來的特定領域模型,而 Vicuna - 7B 源自 Meta 的 LLaMA 2.0 LLM,專門針對知識圖譜構建任務進行優化。
- 靈活定製:提示模板中的實體和關係可根據具體任務進行定製,能滿足不同場景的需求。
- 性能優越:在知識圖譜構建任務的初步評估中,ICKG 表現優於 GPT - 3.5 和原始的 Vicuna - 7B 模型,與 GPT - 4 具有相當的能力,尤其在生成基於指令的知識圖譜時,注重質量和格式的遵循。
📦 安裝指南
文檔未提供具體安裝步驟,可參考代碼倉庫獲取相關信息:[https://github.com/xiaohui - victor - li/FinDKG](https://github.com/xiaohui - victor - li/FinDKG)
📚 詳細文檔
模型詳情
- 開發者:[Xiaohui Li](https://xiaohui - victor - li.github.io/)
- 模型類型:基於Transformer架構的自迴歸語言模型。
- 許可證:非商業用途
- 微調基礎模型:[Vicuna - 7B](https://huggingface.co/lmsys/vicuna - 7b - v1.5)(最初源自 LLaMA 2.0)
模型來源
- 代碼倉庫:[https://github.com/xiaohui - victor - li/FinDKG](https://github.com/xiaohui - victor - li/FinDKG)
- 項目網站:[https://xiaohui - victor - li.github.io/FinDKG/](https://xiaohui - victor - li.github.io/FinDKG/)
- 相關論文:[https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445](https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445)
用途
ICKG LLM 的主要用途是基於指令執行能力,通過特定提示生成知識圖譜,適用於對自然語言處理和知識圖譜構建感興趣的研究人員、數據科學家和開發者。
如何開始使用模型
可參考 Python 代碼獲取使用方法:[https://github.com/xiaohui - victor - li/FinDKG](https://github.com/xiaohui - victor - li/FinDKG)
訓練詳情
ICKG 2.0 是使用約 3K 個指令執行示例從最新的 Vicuna - 7B 微調而來,這些示例包括知識圖譜構建的輸入文檔和提取的知識圖譜三元組作為響應輸出。通過提示工程,ICKG 學會了從給定的文本文檔中提取知識圖譜三元組列表。更多深入的訓練細節,請參考 [相關論文](https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445) 中的“Generative Knowledge Graph Construction with Fine - tuned LLM”部分。
- 提示模板:實體和關係可根據具體任務進行定製。
<input_text>
是要替換的文檔文本。
從標記為 INPUT_TEXT 的提供文檔中,你的任務是從中提取結構化信息,以三元組的形式用於構建知識圖譜。每個元組應採用 ('h', 'type', 'r', 'o', 'type') 的形式,其中 'h' 代表頭實體,'r' 代表關係,'o' 代表尾實體。'type' 表示相應實體的類別。請勿包含冗餘三元組,請勿包含關係發生在過去的三元組。
請注意,實體不應是通用的、數值的或時間性的(如日期或百分比)。實體必須分類為以下類別:
ORG:除政府或監管機構之外的組織
ORG/GOV:政府機構(例如,“美國政府”)
ORG/REG:監管機構(例如,“美聯儲”)
PERSON:個人(例如,“埃隆·馬斯克”)
GPE:地緣政治實體,如國家、城市等(例如,“德國”)
COMP:公司(例如,“谷歌”)
PRODUCT:產品或服務(例如,“iPhone”)
EVENT:特定和實質性事件(例如,“奧運會”,“新冠疫情”)
SECTOR:公司部門或行業(例如,“科技行業”)
ECON_INDICATOR:經濟指標(例如,“通貨膨脹率”),像 “10%” 這樣的數值不是 ECON_INDICATOR;
FIN_INSTRUMENT:金融和市場工具(例如,“股票”,“全球市場”)
CONCEPT:抽象概念或觀念或主題(例如,“通貨膨脹”,“人工智能”,“氣候變化”)
這些實體之間的關係 'r' 必須由以下關係動詞集之一表示:Has, Announce, Operate_In, Introduce, Produce, Control, Participates_In, Impact, Positive_Impact_On, Negative_Impact_On, Relate_To, Is_Member_Of, Invests_In, Raise, Decrease。
請記住進行實體消歧,合併指代同一實體的不同短語或縮寫(例如,“英國央行”,“BOE” 和 “英格蘭銀行” 應統一為 “英格蘭銀行”)。將三元組中的每個實體簡化為少於四個單詞。
你的輸出應嚴格採用 JSON 列表格式的三元組列表,其中關係 'r' 必須在上述給定的關係動詞集中。僅輸出列表。
===========================================================
作為示例,考慮以下新聞摘錄:
'蘋果公司本月將在科技行業推出新款 iPhone 14。該產品的發佈可能會對蘋果的股票價值產生積極影響。'
從這段文本中,你的輸出應該是:
[('蘋果公司', 'COMP', 'Introduce', 'iPhone 14', 'PRODUCT'),
('蘋果公司', 'COMP', 'Operate_In', '科技行業', 'SECTOR'),
('iPhone 14', 'PRODUCT', 'Positive_Impact_On', '蘋果股票價值', 'FIN_INSTRUMENT')]
INPUT_TEXT:
<input_text>
評估
ICKG 已進行了初步評估,將其性能與 GPT - 3.5、GPT - 4 和原始的 Vicuna - 7B 模型進行了比較。在知識圖譜構建任務方面,它優於 GPT - 3.5 和 Vicuna - 7B,同時與 GPT - 4 具有相當的能力。ICKG 在生成基於指令的知識圖譜時,尤其注重質量和格式的遵循。更多詳細介紹,請參考 [相關論文](https://papers.ssrn.com/sol3/papers.cfm?abstract_id = 4608445)。
📄 許可證
本模型採用 CC - BY - NC - 4.0 許可證,僅可用於非商業用途。