msmarco-distilbert-word2vec256k-MLM_230k开源语言模型

首页

Msmarco Distilbert Word2vec256k MLM 230k

由 vocab-transformers 开发

该模型是基于DistilBERT架构的预训练语言模型，使用word2vec初始化的256k词汇表，并在MS MARCO语料库上进行了掩码语言模型(MLM)训练。

大型语言模型

Transformers

#大规模词汇表 #词嵌入冻结 #MS MARCO预训练

下载量 16

发布时间 : 3/2/2022

模型简介

该模型结合了word2vec的词嵌入初始化和DistilBERT的轻量级架构，适用于文本表示和语义理解任务。

模型特点

word2vec初始化

使用word2vec方法初始化256k大小的词汇表，有助于提升词嵌入的质量。

轻量级架构

基于DistilBERT架构，相比原始BERT模型更轻量高效。

大规模训练

在MS MARCO语料库上进行了23万步的MLM训练，具有强大的语义理解能力。

词嵌入冻结

训练过程中保持词嵌入矩阵冻结，专注于上层结构的优化。

模型能力

文本表示

语义理解

掩码语言建模

使用案例

信息检索

文档检索

可用于构建高效的文档检索系统，理解查询和文档的语义关系。

问答系统

开放域问答

可作为问答系统的语义理解组件，帮助理解问题和检索相关答案。

属性	详情
模型类型	基于 nicoladecao/msmarco-word2vec256000-distilbert-base-uncased 且用 word2vec 初始化 256k 词汇表的模型
训练数据	MS MARCO 语料库
训练步数	230k 步
训练设备	2 块 V100 GPU
特殊设置	词嵌入矩阵冻结

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

Msmarco Distilbert Word2vec256k MLM 230k

模型简介

模型特点

模型能力

使用案例

🚀 模型

📚 详细文档

模型基础信息

训练脚本