gte-en-mlm-large開源英語文本編碼器 - 長上下文支持免費部署，實用之選！

首頁

Gte En Mlm Large

由Alibaba-NLP開發

GTE-v1.5系列中的大型英語文本編碼器，支持長達8192的上下文長度，基於改進的BERT架構構建。

大型語言模型

Safetensors

支持多種語言開源協議:Apache-2.0 #長上下文編碼 #英語文本嵌入 #高效MLM訓練

下載量 171

發布時間 : 8/6/2024

模型概述

該模型是阿里巴巴集團智能計算研究院開發的通用文本編碼器，主要用於英語文本的嵌入表示和重排序任務，支持長上下文處理。

模型特點

長上下文支持

支持長達8192的上下文長度，適用於處理長文檔和複雜文本。

改進的BERT架構

結合RoPE和GLU的改進架構，提升了模型性能。

分階段訓練策略

採用從512到8192的分階段訓練策略，有效支持長上下文學習。

模型能力

文本嵌入

文本重排序

長文本處理

掩碼語言建模

使用案例

信息檢索

文檔檢索

用於長文檔的語義檢索和排序

在長上下文場景下提供更準確的檢索結果

自然語言處理

文本表示學習

生成高質量的文本嵌入表示

可用於下游NLP任務的特徵提取

🚀 gte-en-mlm-large

我們推出了 GTE-v1.5 系列，這是全新的通用文本編碼器、嵌入和重排序模型，其上下文長度可達 8192。這些模型基於 Transformer++ 編碼器骨幹架構（BERT + RoPE + GLU，代碼參考 Alibaba-NLP/new-impl）以及 bert-base-uncased 的詞彙表構建。

此文本編碼器是我們論文表 13 中的 GTEv1.5-en-MLM-large-8192。

開發者：阿里巴巴集團智能計算研究所
模型類型：文本編碼器
論文：mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

🚀 快速開始

本項目介紹了 GTE-v1.5 系列模型，它具有長上下文處理能力，適用於文本編碼、嵌入和重排序等任務。

✨ 主要特性

上下文長度可達 8192，能處理長文本。
基於 Transformer++ 編碼器骨幹架構，結合了 BERT、RoPE 和 GLU。
使用 bert-base-uncased 的詞彙表。

📚 詳細文檔

模型列表

模型	語言	模型大小	最大序列長度	GLUE	XTREME-R
`gte-multilingual-mlm-base`	多語言	306M	8192	83.47	64.44
`gte-en-mlm-base`	英語	-	8192	85.61	-
`gte-en-mlm-large`	英語	-	8192	87.58	-

訓練詳情

訓練數據

掩碼語言模型（MLM）：c4-en

訓練過程

為使骨幹模型支持 8192 的上下文長度，我們採用了多階段訓練策略。模型首先在較短長度上進行初步的 MLM 預訓練，然後重新採樣數據，減少短文本的比例，並繼續進行 MLM 預訓練。

整個訓練過程如下：

MLM - 512：學習率 2e - 4，掩碼概率 0.3，批量大小 4096，步數 300000，RoPE 基數 10000
MLM - 2048：學習率 5e - 5，掩碼概率 0.3，批量大小 4096，步數 30000，RoPE 基數 10000
MLM - 8192：學習率 5e - 5，掩碼概率 0.3，批量大小 1024，步數 30000，RoPE 基數 160000

評估

模型	語言	模型大小	最大序列長度	GLUE	XTREME-R
`gte-multilingual-mlm-base`	多語言	306M	8192	83.47	64.44
`gte-en-mlm-base`	英語	137M	8192	85.61	-
`gte-en-mlm-large`	英語	435M	8192	87.58	-
`MosaicBERT-base`	英語	137M	128	85.4	-
`MosaicBERT-base-2048`	英語	137M	2048	85	-
`JinaBERT-base`	英語	137M	512	85	-
`nomic-bert-2048`	英語	137M	2048	84	-
`MosaicBERT-large`	英語	434M	128	86.1	-
`JinaBERT-large`	英語	434M	512	83.7	-
`XLM-R-base`	多語言	279M	512	80.44	62.02
`RoBERTa-base`	英語	125M	512	86.4	-
`RoBERTa-large`	英語	355M	512	88.9	-

引用

如果您認為我們的論文或模型有幫助，請考慮按以下方式引用：

@misc{zhang2024mgte,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval}, 
  author={Xin Zhang and Yanzhao Zhang and Dingkun Long and Wen Xie and Ziqi Dai and Jialong Tang and Huan Lin and Baosong Yang and Pengjun Xie and Fei Huang and Meishan Zhang and Wenjie Li and Min Zhang},
  year={2024},
  eprint={2407.19669},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2407.19669}, 
}