gte-en-mlm-baseオープンソース英語テキストエンコーダ - 超長コンテキストで英語テキスト表現タスクをサポート

Home

Gte En Mlm Base

Developed by Alibaba-NLP

GTE-v1.5シリーズの英語テキストエンコーダーで、BERTアーキテクチャを改良し、最大8192のコンテキスト長をサポート、英語テキスト表現タスクに適しています。

テキスト埋め込み

Safetensors

Supports Multiple LanguagesOpen Source License:Apache-2.0 #長文エンコーディング #英語専用 #RoPE強化

Downloads 231

Release Time : 8/6/2024

Model Overview

このモデルはGTE-v1.5シリーズの英語テキストエンコーダーで、transformer++エンコーダーアーキテクチャ（BERT + RoPE + GLU）に基づき、英語テキスト表現のために設計され、長いコンテキスト処理をサポートします。

Model Features

長いコンテキストサポート

最大8192のコンテキスト長をサポートし、長文書や複雑なテキストの処理に適しています。

改良されたアーキテクチャ

BERTアーキテクチャを改良し、RoPEとGLUを追加することで、モデルの性能を向上させました。

段階的なトレーニング

段階的なトレーニング戦略を採用し、まず短いシーケンスで事前学習を行い、その後長いシーケンスで微調整を行うことで、長文処理能力を最適化しました。

Model Capabilities

テキストエンコーディング

長文処理

マスク言語モデリング

Use Cases

情報検索

ドキュメント検索

長文書の検索とマッチングに使用され、検索システムの精度を向上させます。

自然言語処理

テキスト表現

高品質なテキスト埋め込みを生成し、下流のNLPタスクに使用します。

🚀 gte-en-mlm-base

GTE-v1.5シリーズをご紹介します。これは、最大8192のコンテキスト長を持つ新しい汎用的なテキストエンコーダ、埋め込み、および再ランキングモデルです。これらのモデルは、Transformer++エンコーダバックボーン（BERT + RoPE + GLU、コードはAlibaba-NLP/new-implを参照）とbert-base-uncasedの語彙に基づいて構築されています。

このテキストエンコーダは、我々の論文の表13にあるGTEv1.5-en-MLM-base-8192です。

開発者: アリババグループ知能計算研究所
モデルタイプ: テキストエンコーダ
論文: mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

🚀 クイックスタート

このモデルは、最大8192のコンテキスト長をサポートする汎用的なテキストエンコーダです。以下のセクションでは、モデルの詳細、トレーニング情報、評価結果、および引用情報を提供します。

✨ 主な機能

最大8192のコンテキスト長をサポート
Transformer++エンコーダバックボーンを使用
bert-base-uncasedの語彙を利用

📦 モデル一覧

モデル	言語	モデルサイズ	最大シーケンス長	GLUE	XTREME-R
`gte-multilingual-mlm-base`	複数言語	306M	8192	83.47	64.44
`gte-en-mlm-base`	英語	-	8192	85.61	-
`gte-en-mlm-large`	英語	-	8192	87.58	-

🔧 技術詳細

トレーニングデータ

マスク言語モデリング（MLM）: c4-en

トレーニング手順

バックボーンモデルが8192のコンテキスト長をサポートできるように、多段階トレーニング戦略を採用しました。モデルはまず、短い長さで予備的なMLM事前トレーニングを行います。その後、データを再サンプリングして短いテキストの割合を減らし、MLM事前トレーニングを続けます。

全体のトレーニングプロセスは以下の通りです。

MLM-2048: lr 5e-4, mlm_probability 0.3, batch_size 4096, num_steps 70000, rope_base 10000
MLM-8192: lr 5e-5, mlm_probability 0.3, batch_size 1024, num_steps 20000, rope_base 500000

📚 ドキュメント

評価結果

モデル	言語	モデルサイズ	最大シーケンス長	GLUE	XTREME-R
`gte-multilingual-mlm-base`	複数言語	306M	8192	83.47	64.44
`gte-en-mlm-base`	英語	137M	8192	85.61	-
`gte-en-mlm-large`	英語	435M	8192	87.58	-
`MosaicBERT-base`	英語	137M	128	85.4	-
`MosaicBERT-base-2048`	英語	137M	2048	85	-
`JinaBERT-base`	英語	137M	512	85	-
`nomic-bert-2048`	英語	137M	2048	84	-
`MosaicBERT-large`	英語	434M	128	86.1	-
`JinaBERT-large`	英語	434M	512	83.7	-
`XLM-R-base`	複数言語	279M	512	80.44	62.02
`RoBERTa-base`	英語	125M	512	86.4	-
`RoBERTa-large`	英語	355M	512	88.9	-

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📖 引用

もし我々の論文やモデルが役に立った場合は、以下のように引用していただけると幸いです。

@misc{zhang2024mgte,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval}, 
  author={Xin Zhang and Yanzhao Zhang and Dingkun Long and Wen Xie and Ziqi Dai and Jialong Tang and Huan Lin and Baosong Yang and Pengjun Xie and Fei Huang and Meishan Zhang and Wenjie Li and Min Zhang},
  year={2024},
  eprint={2407.19669},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2407.19669}, 
}