Re2g Qry Encoder Fever
R
Re2g Qry Encoder Fever
由ibm-research開發
Re2G是一個結合神經初始檢索和重排序的生成模型,用於知識密集型任務。該問題編碼器是Re2G系統的組成部分,用於將問題編碼為向量以進行檢索。
下載量 17
發布時間 : 8/1/2022
模型概述
該模型是Re2G系統的查詢編碼組件,基於DPR架構,用於將自然語言問題編碼為向量表示,以便與段落編碼器配合進行信息檢索和重排序。
模型特點
端到端訓練
通過知識蒸餾方法實現初始檢索、重排序和生成器的聯合訓練
多源檢索集成
能夠整合BM25和神經初始檢索等不同來源的檢索結果
知識密集型任務優化
專門針對需要大量知識的任務設計,如問答、事實核查等
模型能力
問題編碼
信息檢索
檢索結果重排序
使用案例
知識密集型任務
零樣本槽填充
在沒有特定訓練數據的情況下填充結構化槽位
相對之前SOTA提升9%-34%
事實核查
驗證聲明的真實性
問答系統
回答需要外部知識的複雜問題
🚀 Re2G中FEVER問題編碼器的模型卡片
本模型用於將問題編碼為向量,可作為近似最近鄰索引的查詢。它結合上下文編碼器,能在信息檢索等任務中發揮重要作用。
📚 詳細文檔
模型詳情
RAG、Multi - DPR和KGI的方法是訓練一個神經信息檢索(IR)組件,並通過其在生成正確輸出中的影響進行端到端訓練。
訓練、評估和推理
訓練、評估和推理的代碼可在我們的GitHub倉庫的re2g分支中找到。
使用方法
使用該模型的最佳方式是調整dpr_apply.py。
引用信息
@inproceedings{glass-etal-2022-re2g,
title = "{R}e2{G}: Retrieve, Rerank, Generate",
author = "Glass, Michael and
Rossiello, Gaetano and
Chowdhury, Md Faisal Mahbub and
Naik, Ankita and
Cai, Pengshan and
Gliozzo, Alfio",
booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.naacl-main.194",
doi = "10.18653/v1/2022.naacl-main.194",
pages = "2701--2715",
abstract = "As demonstrated by GPT-3 and T5, transformers grow in capability as parameter spaces become larger and larger. However, for tasks that require a large amount of knowledge, non-parametric memory allows models to grow dramatically with a sub-linear increase in computational cost and GPU memory requirements. Recent models such as RAG and REALM have introduced retrieval into conditional generation. These models incorporate neural initial retrieval from a corpus of passages. We build on this line of research, proposing Re2G, which combines both neural initial retrieval and reranking into a BART-based sequence-to-sequence generation. Our reranking approach also permits merging retrieval results from sources with incomparable scores, enabling an ensemble of BM25 and neural initial retrieval. To train our system end-to-end, we introduce a novel variation of knowledge distillation to train the initial retrieval, reranker and generation using only ground truth on the target sequence output. We find large gains in four diverse tasks: zero-shot slot filling, question answering, fact checking and dialog, with relative gains of 9{\%} to 34{\%} over the previous state-of-the-art on the KILT leaderboard. We make our code available as open source.",
}
模型描述
模型創建者在相關論文中指出:
正如GPT - 3和T5所展示的,隨著參數空間越來越大,Transformer的能力也在不斷增強。然而,對於需要大量知識的任務,非參數內存允許模型以亞線性的計算成本和GPU內存需求大幅增長。最近的模型如RAG和REALM已將檢索引入到條件生成中。這些模型包含了從段落語料庫進行的神經初始檢索。我們在此研究基礎上,提出了Re2G,它將神經初始檢索和重排序結合到基於BART的序列到序列生成中。我們的重排序方法還允許合併來自分數不可比來源的檢索結果,從而實現BM25和神經初始檢索的集成。為了端到端地訓練我們的系統,我們引入了一種新穎的知識蒸餾變體,僅使用目標序列輸出的真實值來訓練初始檢索、重排序器和生成器。我們在四個不同的任務中取得了顯著的收益:零樣本插槽填充、問答、事實核查和對話,在KILT排行榜上相對於先前的最先進技術有9%到34%的相對提升。我們將代碼開源。
屬性 | 詳情 |
---|---|
開發者 | IBM |
共享者 | IBM |
模型類型 | 查詢/段落重排序器 |
語言(NLP) | 英語 |
許可證 | Apache 2.0 |
基礎模型 | dpr - question_encoder - multiset - base |
更多信息資源 | GitHub倉庫、相關論文 |
📖 使用場景
直接使用
該模型可用於將問題編碼為向量,作為近似最近鄰索引的查詢。它必須與將段落編碼為向量並進行索引的上下文編碼器結合使用。
📄 許可證
本模型採用Apache 2.0許可證。
📜 引用
BibTeX格式:
@inproceedings{glass-etal-2022-re2g,
title = "{R}e2{G}: Retrieve, Rerank, Generate",
author = "Glass, Michael and
Rossiello, Gaetano and
Chowdhury, Md Faisal Mahbub and
Naik, Ankita and
Cai, Pengshan and
Gliozzo, Alfio",
booktitle = "Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jul,
year = "2022",
address = "Seattle, United States",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.naacl-main.194",
doi = "10.18653/v1/2022.naacl-main.194",
pages = "2701--2715",
abstract = "As demonstrated by GPT-3 and T5, transformers grow in capability as parameter spaces become larger and larger. However, for tasks that require a large amount of knowledge, non-parametric memory allows models to grow dramatically with a sub-linear increase in computational cost and GPU memory requirements. Recent models such as RAG and REALM have introduced retrieval into conditional generation. These models incorporate neural initial retrieval from a corpus of passages. We build on this line of research, proposing Re2G, which combines both neural initial retrieval and reranking into a BART-based sequence-to-sequence generation. Our reranking approach also permits merging retrieval results from sources with incomparable scores, enabling an ensemble of BM25 and neural initial retrieval. To train our system end-to-end, we introduce a novel variation of knowledge distillation to train the initial retrieval, reranker and generation using only ground truth on the target sequence output. We find large gains in four diverse tasks: zero-shot slot filling, question answering, fact checking and dialog, with relative gains of 9{\%} to 34{\%} over the previous state-of-the-art on the KILT leaderboard. We make our code available as open source.",
}
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98