M2-BERT-8k-Retrieval-Encoder-V1開源檢索模型 - 支持長上下文內容精準檢索

Home

M2 BERT 8k Retrieval Encoder V1

Developed by hazyresearch

M2-BERT-8K是一個8000萬參數的長上下文檢索模型，基於論文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》提出的架構。

大型語言模型

Transformers

EnglishOpen Source License:Apache-2.0 #長文本檢索 #8K上下文 #BERT架構

Downloads 52

Release Time : 5/22/2024

Model Overview

M2-BERT-8K是一個專為長上下文檢索任務設計的BERT變體模型，支持最大8192的序列長度，能夠生成768維的嵌入向量用於檢索任務。

Model Features

長上下文支持

支持最大8192的序列長度，適合處理長文檔檢索任務

高效檢索

生成768維的嵌入向量，優化了檢索效率

自定義架構

採用Monarch Mixer架構改進的BERT變體

Model Capabilities

文本嵌入生成

長文檔檢索

掩碼語言建模

Use Cases

信息檢索

文檔檢索系統

構建支持長文檔的檢索系統

能夠有效處理長達8192 token的文檔

🚀 Monarch Mixer-BERT

Monarch Mixer-BERT是來自論文Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT的M2-BERT-8k的80M檢查點。該模型可用於長上下文檢索，具有重要的應用價值。

前往我們的 GitHub 獲取下載和微調該模型的說明！

🚀 快速開始

本部分將介紹如何使用Monarch Mixer-BERT模型，包括模型加載、分詞器使用以及生成嵌入等操作。

✨ 主要特性

基於論文提出的架構，適用於長上下文檢索任務。
生成的嵌入維度為768，可用於相關的檢索應用。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 GitHub 上的說明進行安裝。

💻 使用示例

基礎用法

你可以使用Hugging Face的 AutoModel 加載此模型：

from transformers import AutoModelForMaskedLM, BertConfig
config = BertConfig.from_pretrained("hazyresearch/M2-BERT-8K-Retrieval-Encoder-V1")
model = AutoModelForMaskedLM.from_pretrained("hazyresearch/M2-BERT-8K-Retrieval-Encoder-V1", config=config,trust_remote_code=True)

此模型使用Hugging Face的 bert-base-uncased 分詞器：

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

高級用法

此模型用於生成用於檢索的嵌入，嵌入維度為768：

from transformers import AutoTokenizer, AutoModelForMaskedLM, BertConfig

max_seq_length = 8192
testing_string = "Every morning, I make a cup of coffee to start my day."
config = BertConfig.from_pretrained("hazyresearch/M2-BERT-8K-Retrieval-Encoder-V1")
model = AutoModelForMaskedLM.from_pretrained("hazyresearch/M2-BERT-8K-Retrieval-Encoder-V1", config=config, trust_remote_code=True)

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased", model_max_length=max_seq_length)
input_ids = tokenizer([testing_string], return_tensors="pt", padding="max_length", return_token_type_ids=False, truncation=True, max_length=max_seq_length)

outputs = model(**input_ids)
embeddings = outputs['sentence_embedding']

遠程代碼

此模型需要在 from_pretrained 方法中傳入 trust_remote_code=True。這是因為我們使用了自定義的PyTorch代碼（詳見我們的GitHub）。你可以考慮傳入一個 revision 參數來指定代碼的確切git提交版本，例如：

mlm = AutoModelForMaskedLM.from_pretrained(
   "hazyresearch/M2-BERT-8K-Retrieval-Encoder-V1",
   config=config,
   trust_remote_code=True,
)

配置

注意，use_flash_mm 默認值為 false。目前不支持使用FlashMM。

📄 許可證

本項目採用Apache-2.0許可證。

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご