RBT4開源中文預訓練模型 - 加速自然語言處理，免費助力中文研究

首頁

Rbt4

由hfl開發

這是一個採用全詞掩碼策略的中文預訓練BERT模型，由哈工大訊飛聯合實驗室發佈，旨在加速中文自然語言處理研究。

大型語言模型中文開源協議:Apache-2.0 #全詞掩碼預訓練 #中文自然語言處理 #輕量級BERT

下載量 22

發布時間 : 3/2/2022

模型概述

該模型是基於谷歌BERT架構的中文預訓練語言模型，採用全詞掩碼策略進行訓練，適用於各種中文自然語言處理任務。

模型特點

全詞掩碼策略

採用全詞掩碼而非單字掩碼，更符合中文語言特點，提升模型理解能力。

中文優化

專門針對中文語言特點進行優化訓練，在中文NLP任務上表現優異。

輕量級架構

採用4層精簡架構，在保持性能的同時提高推理效率。

模型能力

中文文本理解

文本分類

命名實體識別

問答系統

文本相似度計算

使用案例

文本分析

情感分析

分析中文文本的情感傾向

在中文情感分析任務上表現優異

命名實體識別

識別中文文本中的人名、地名、機構名等實體

準確識別中文特有命名實體

問答系統

中文問答

構建基於中文的問答系統

能夠理解中文問題並給出準確回答

🚀 四層RoBERTa-wwm-ext再訓練模型

本項目提供了一個經過再訓練的四層RoBERTa-wwm-ext模型，旨在進一步加速中文自然語言處理任務。

🚀 快速開始

此項目提供了經過再訓練的四層RoBERTa - wwm - ext模型，為中文自然語言處理提供了更高效的解決方案。

✨ 主要特性

全詞掩碼預訓練：本項目提供了帶全詞掩碼的中文預訓練BERT模型，有助於提升中文自然語言處理的效果。
多模型關聯：該倉庫基於https://github.com/google-research/bert開發，同時還關聯了一系列相關的中文預訓練模型倉庫，如中文BERT系列、中文MacBERT等。
資源豐富：由HFL提供了更多相關資源，可查看HFL文集。

📚 詳細文檔

📄 許可證

本項目採用Apache - 2.0許可證。

📚 引用信息

如果你發現本技術報告或資源有用，請在論文中引用以下技術報告：

主要引用

論文鏈接：https://arxiv.org/abs/2004.13922

@inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

次要引用

論文鏈接：https://arxiv.org/abs/1906.08101

@article{chinese-bert-wwm,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing and Wang, Shijin and Hu, Guoping},
  journal={arXiv preprint arXiv:1906.08101},
  year={2019}
 }