msmarco-distilbert-word2vec256k-MLM_230k開源語言模型

首頁

Msmarco Distilbert Word2vec256k MLM 230k

由vocab-transformers開發

該模型是基於DistilBERT架構的預訓練語言模型，使用word2vec初始化的256k詞彙表，並在MS MARCO語料庫上進行了掩碼語言模型(MLM)訓練。

大型語言模型

Transformers

#大規模詞彙表 #詞嵌入凍結 #MS MARCO預訓練

下載量 16

發布時間 : 3/2/2022

模型概述

該模型結合了word2vec的詞嵌入初始化和DistilBERT的輕量級架構，適用於文本表示和語義理解任務。

模型特點

word2vec初始化

使用word2vec方法初始化256k大小的詞彙表，有助於提升詞嵌入的質量。

輕量級架構

基於DistilBERT架構，相比原始BERT模型更輕量高效。

大規模訓練

在MS MARCO語料庫上進行了23萬步的MLM訓練，具有強大的語義理解能力。

詞嵌入凍結

訓練過程中保持詞嵌入矩陣凍結，專注於上層結構的優化。

模型能力

文本表示

語義理解

掩碼語言建模

使用案例

信息檢索

文檔檢索

可用於構建高效的文檔檢索系統，理解查詢和文檔的語義關係。

問答系統

開放域問答

可作為問答系統的語義理解組件，幫助理解問題和檢索相關答案。

屬性	詳情
模型類型	基於 nicoladecao/msmarco-word2vec256000-distilbert-base-uncased 且用 word2vec 初始化 256k 詞彙表的模型
訓練數據	MS MARCO 語料庫
訓練步數	230k 步
訓練設備	2 塊 V100 GPU
特殊設置	詞嵌入矩陣凍結

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Msmarco Distilbert Word2vec256k MLM 230k

模型概述

模型特點

模型能力

使用案例

🚀 模型

📚 詳細文檔

模型基礎信息

訓練腳本