Vbert 2021 Base
V
Vbert 2021 Base
Developed by VMware
VMware公司針對技術領域優化的BERT基礎模型,通過增量預訓練強化了對專有術語的處理能力
Downloads 14
Release Time : 5/11/2022
Model Overview
基於BERT-base架構優化的領域專用語言模型,針對VMware技術文檔、博客等文本數據進行增量預訓練,顯著提升對專有詞彙和技術術語的理解能力
Model Features
專有詞彙優化
替換BERT詞彙表中前1000個未使用token為VMware專有術語(如Tanzu、vSphere等)
領域增量訓練
基於32萬篇VMware技術文檔進行增量預訓練(5個epoch)
複合詞處理增強
改進對技術領域常見覆合詞的分詞和語義理解能力
Model Capabilities
技術文本理解
專有名詞識別
語義特徵提取
信息檢索增強
Use Cases
企業知識管理
技術文檔檢索
在VMware知識庫中實現更精準的語義搜索
相比原始BERT模型提升檢索準確率
自動分類系統
對用戶提交的技術支持請求進行自動分類
減少人工標註工作量約40%
內容處理
技術文檔摘要
自動生成VMware產品文檔的摘要
關鍵信息保留率提升25%
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98