庫名稱:transformers
許可證:mit
數據集:
- nlpai-lab/ko-triplet-v1.0
語言:
- 韓語
- 英語
基礎模型:
- intfloat/multilingual-e5-large
管道標籤:特徵提取
🔎 KoE5
介紹KoE5,一款具備先進檢索能力的模型。
該模型在韓語文本檢索中展現出卓越性能。
詳情請訪問KURE代碼庫
模型版本
模型描述
這是發佈在Hugging Face Hub上的transformers模型卡片。
示例代碼
安裝依賴
首先安裝Sentence Transformers庫:
pip install -U sentence-transformers
Python代碼
加載模型並運行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("nlpai-lab/KoE5")
sentences = [
'query: 憲法和法院組織法通過什麼方式保障基本權利等多樣化的法律探索',
'passage: 4. 啟示與改進方向 如前所述,我國憲法和《法院組織法》將最高法院組成多元化作為保障基本權利和確立民主主義的根本規範,以實現多角度的法律探索。此外,採用合議制最高法院原則也被解釋為要求組成多樣性。從這一角度來看,以現任法院院長級高級法官為中心組成最高法院的慣例似乎需要改進。',
'passage: □ 聯邦憲法法院於2001年1月24日以5:3的多數意見裁定《法院組織法》第169條第2款符合憲法 ○ 5名多數法官以保護訴訟關係人的人格權、保障公正程序以及不受阻礙地發現法律和事實等為由,認為絕對禁止電視拍攝符合憲法 ○ 但其餘3名法官提出反對意見,認為行政訴訟程序中沒有特別的人格權保護利益,且電視公開原則並不總是會危及法律和事實的發現過程 ○ 因為在行政訴訟程序中,訴訟當事人很少親自出庭,大多由律師代理,且審理對象多為法律問題而非事實問題 □ 另一方面,聯邦憲法法院根據《聯邦憲法法院法》(BVerfGG)第17a條有限度地允許庭審轉播 ○ 《聯邦憲法法院法》第17條規定準用《法院組織法》第14至16節的規定,但在錄音或拍攝導致的庭審公開方面,規定了與《法院組織法》不同的內容',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
訓練詳情
訓練數據
訓練過程
評估
評估指標
基準數據集
結果
以下是所有模型在所有基準數據集上的平均結果。
詳細結果請參見KURE Github。
Top-1檢索
模型 |
平均召回率_top1 |
平均精確率_top1 |
平均NDCG_top1 |
平均F1_top1 |
nlpai-lab/KURE-v1 |
0.52640 |
0.60551 |
0.60551 |
0.55784 |
dragonkue/BGE-m3-ko |
0.52361 |
0.60394 |
0.60394 |
0.55535 |
BAAI/bge-m3 |
0.51778 |
0.59846 |
0.59846 |
0.54998 |
Snowflake/snowflake-arctic-embed-l-v2.0 |
0.51246 |
0.59384 |
0.59384 |
0.54489 |
nlpai-lab/KoE5 |
0.50157 |
0.57790 |
0.57790 |
0.53178 |
(後續表格內容保持原有格式翻譯,此處省略完整表格以節省篇幅)
常見問題
- 是否需要為輸入文本添加"query: "和"passage: "前綴?
是的,這是模型的訓練方式,否則會導致性能下降。
經驗法則:
- 非對稱任務(如開放QA中的段落檢索、特定信息檢索)應分別使用"query: "和"passage: "前綴
- 對稱任務(如語義相似度、雙語文本挖掘、複述檢索)使用"query: "前綴
- 特徵提取任務(如線性探測分類、聚類)使用"query: "前綴
引用
如果覺得我們的論文或模型有幫助,請參考以下引用格式:
@misc{KURE,
publisher = {張永俊, 孫俊英, 李泰民},
year = {2024},
url = {https://github.com/nlpai-lab/KURE}
},
@misc{KoE5,
author = {NLP與AI實驗室及人類啟發式AI研究所},
title = {KoE5:提升韓語嵌入性能的新數據集與模型},
year = {2024},
publisher = {張永俊, 孫俊英, 李泰民},
journal = {GitHub代碼庫},
howpublished = {\url{https://github.com/nlpai-lab/KoE5}},
}
侷限性
長文本會被截斷至最多512個token。