M2-BERT-2k-Retrieval-Encoder-V1开源模型 - 免费部署助力长上下文检索任务

首页

M2 BERT 2k Retrieval Encoder V1

由 hazyresearch 开发

80M参数的M2-BERT-2k模型检查点，专为长上下文检索任务设计，支持2048个token的上下文长度。

文本嵌入

Transformers

英语开源协议:Apache-2.0 #长文本检索 #2048上下文 #LoCo优化

下载量 80

发布时间 : 5/22/2024

模型简介

M2-BERT是基于BERT架构改进的模型，特别优化了长上下文检索任务。它能够生成768维的嵌入向量，适用于信息检索等场景。

模型特点

长上下文支持

支持2048个token的长上下文处理能力，适合处理长文档检索任务

高效检索嵌入

生成768维的高质量嵌入向量，优化了检索任务的性能

轻量级架构

仅80M参数的轻量级设计，在保持性能的同时减少计算资源需求

模型能力

文本嵌入生成

长文本处理

信息检索

使用案例

信息检索

文档检索

使用模型生成的嵌入向量进行相似文档检索

可有效处理长达2048个token的文档

语义搜索

基于语义相似度的内容搜索系统

🚀 Monarch Mixer-BERT

Monarch Mixer-BERT是来自论文Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT的M2-BERT-2k的80M检查点。该模型可用于生成用于检索的嵌入向量，为长上下文检索任务提供支持。

查看我们的 GitHub 以获取有关如何下载和微调该模型的说明！

🚀 快速开始

模型加载

你可以使用Hugging Face的 AutoModel 来加载此模型：

from transformers import AutoModelForMaskedLM, BertConfig
config = BertConfig.from_pretrained("hazyresearch/M2-BERT-2K-Retrieval-Encoder-V1")
model = AutoModelForMaskedLM.from_pretrained("hazyresearch/M2-BERT-2k-Retrieval-Encoder-V1", config=config, trust_remote_code=True)

分词器使用

此模型使用Hugging Face的 bert-base-uncased tokenizer：

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

生成嵌入向量

该模型用于生成用于检索的嵌入向量，嵌入向量的维度为768：

from transformers import AutoTokenizer, AutoModelForMaskedLM, BertConfig

max_seq_length = 2048
testing_string = "Every morning, I make a cup of coffee to start my day."
config = BertConfig.from_pretrained("hazyresearch/M2-BERT-2K-Retrieval-Encoder-V1")
model = AutoModelForMaskedLM.from_pretrained("hazyresearch/M2-BERT-2k-Retrieval-Encoder-V1", config=config, trust_remote_code=True)

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased", model_max_length=max_seq_length)
input_ids = tokenizer([testing_string], return_tensors="pt", padding="max_length", return_token_type_ids=False, truncation=True, max_length=max_seq_length)

outputs = model(**input_ids)
embeddings = outputs['sentence_embedding']

远程代码使用

此模型在调用 from_pretrained 方法时需要传入 trust_remote_code=True。这是因为我们使用了自定义的PyTorch代码（详见我们的GitHub）。你可以考虑传入一个 revision 参数来指定代码的确切git提交版本，例如：

mlm = AutoModelForMaskedLM.from_pretrained(
   "hazyresearch/M2-BERT-2k-Retrieval-Encoder-V1",
   config=config,
   trust_remote_code=True,
)

配置说明

请注意，use_flash_mm 默认值为 false，目前暂不支持使用FlashMM。

📄 许可证

本项目采用Apache-2.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库