S

Slovakbert

由gerulata開發
基於斯洛伐克語訓練的預訓練模型,採用掩碼語言建模(MLM)目標,區分大小寫。
下載量 5,009
發布時間 : 3/2/2022

模型概述

斯洛伐克BERT是一個基於斯洛伐克語的預訓練模型,主要用於掩碼語言建模任務,也可在下游任務上進行微調。

模型特點

區分大小寫
模型能夠區分大小寫,例如“slovensko”和“Slovensko”會被視為不同詞彙。
大規模預訓練數據
模型基於多個高質量數據集(如維基百科、開放字幕、OSCAR等)進行預訓練,總計19.35GB文本。
優化的文本處理
訓練數據經過URL和電子郵件地址替換、標點符號縮減、Markdown語法刪除等處理,以提高模型性能。

模型能力

掩碼語言建模
文本特徵提取
下游任務微調

使用案例

自然語言處理
句子補全
使用掩碼語言建模任務補全句子中的缺失部分。
例如,輸入“Deti sa <mask> na ihrisku.”,模型會預測“hrali”等可能的詞彙。
歷史事件預測
預測歷史事件中的關鍵信息,如年份。
例如,輸入“Slovenské národne povstanie sa uskutočnilo v roku <mask>.”,模型會預測“1944”。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase