tavbert - he開源希伯來語語言模型 - 輕鬆進行字符掩碼預訓練處理

首頁

Tavbert He

由tau開發

一個基於字符操作的希伯來語BERT風格掩碼語言模型，通過掩碼字符片段進行預訓練，類似於SpanBERT。

大型語言模型

Transformers

其他#希伯來語字符掩碼 #SpanBERT風格 #OSCAR數據集

下載量 116

發布時間 : 3/2/2022

模型概述

TavBERT是一個專門針對希伯來語的BERT風格語言模型，採用字符級別的掩碼策略進行預訓練，適用於希伯來語文本處理任務。

模型特點

字符級掩碼訓練

採用字符片段級別的掩碼策略進行預訓練，類似於SpanBERT方法，適合希伯來語特性。

希伯來語優化

專門針對希伯來語設計和訓練，能更好地處理希伯來語文本特徵。

基於RoBERTa架構

採用RoBERTa架構改進，繼承了其優秀的語言建模能力。

模型能力

希伯來語文本理解

掩碼語言建模

字符級文本預測

使用案例

自然語言處理

希伯來語文本補全

預測被掩碼的希伯來語字符片段

能夠準確預測被掩碼的希伯來語字符片段

希伯來語文本理解

用於下游NLP任務的預訓練模型

可作為希伯來語NLP任務的基礎模型

屬性	詳情
模型類型	希伯來語BERT風格的掩碼語言模型
訓練數據	OSCAR（Ortiz，2019）希伯來語部分（10GB文本，2000萬條句子）

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Tavbert He

模型概述

模型特點

模型能力

使用案例

🚀 TavBERT基礎模型

🚀 快速開始

如何使用

📚 詳細文檔

訓練數據