bert-base-japanese-whole-word-masking開源模型 - 助力日語文本處理，免費部署即用！

首頁

Bert Base Japanese Whole Word Masking

由tohoku-nlp開發

基於日語文本預訓練的BERT模型，採用IPA詞典分詞和全詞掩碼技術

大型語言模型日語#日語全詞掩碼 #IPA詞典分詞 #維基百科預訓練

下載量 113.33k

發布時間 : 3/2/2022

模型概述

這是一個基於日語維基百科語料預訓練的BERT模型，主要用於日語自然語言處理任務。模型採用IPA詞典進行詞語級分詞，並支持全詞掩碼訓練機制。

模型特點

IPA詞典分詞

使用MeCab分詞器配合IPA詞典進行詞語級切分，更適合日語語言特點

全詞掩碼技術

訓練時對完整詞語的所有子詞token同時進行掩碼，提升語言建模效果

大規模預訓練

基於2.6GB日語維基百科語料（約1700萬句）訓練100萬步

模型能力

日語文本理解

日語語言建模

日語文本特徵提取

使用案例

自然語言處理

日語文本分類

可用於新聞分類、情感分析等任務

日語問答系統

作為基礎模型構建日語問答應用

🚀 BERT基礎日語模型（IPA詞典，啟用全詞掩碼）

本項目是一個基於日語文本預訓練的 BERT 模型。該模型版本採用基於 IPA 詞典的詞級分詞處理輸入文本，隨後進行 WordPiece 子詞分詞。此外，該模型在訓練掩碼語言模型（MLM）目標時啟用了全詞掩碼。

預訓練代碼可在 cl-tohoku/bert-japanese 找到。

✨ 主要特性

模型架構與原始 BERT 基礎模型相同，包含 12 層、768 維隱藏狀態和 12 個注意力頭。
採用基於 IPA 詞典的詞級分詞和 WordPiece 子詞分詞處理輸入文本。
在訓練掩碼語言模型（MLM）目標時啟用全詞掩碼。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型架構

模型架構與原始 BERT 基礎模型相同，具有 12 層、768 維隱藏狀態和 12 個注意力頭。

訓練數據

該模型基於 2019 年 9 月 1 日的日語維基百科進行訓練。為生成訓練語料庫，使用 WikiExtractor 從維基百科文章的轉儲文件中提取純文本。用於訓練的文本文件大小為 2.6GB，約包含 1700 萬個句子。

分詞

文本首先由 MeCab 形態分析器結合 IPA 詞典進行分詞，然後通過 WordPiece 算法拆分為子詞。詞彙表大小為 32000。

訓練

模型的訓練配置與原始 BERT 相同，每個實例 512 個標記，每個批次 256 個實例，訓練步數為 100 萬步。

在訓練掩碼語言模型（MLM）目標時，引入了 全詞掩碼 機制，即一次性對對應於單個單詞（由 MeCab 分詞）的所有子詞標記進行掩碼。

許可證

預訓練模型根據知識共享署名 - 相同方式共享 3.0 許可條款分發。

致謝

在訓練模型時，使用了 TensorFlow 研究雲計劃提供的 Cloud TPU。

屬性	詳情
模型類型	BERT基礎日語模型（IPA詞典，啟用全詞掩碼）
訓練數據	2019年9月1日的日語維基百科，文本文件大小為2.6GB，約包含1700萬個句子

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫