tavbert - tr開源模型 - 針對土耳其語實現基於字符級別的語言處理功能

首頁

Tavbert Tr

由tau開發

針對土耳其語的類BERT掩碼語言模型，基於字符級別運行，採用類似SpanBERT的字符跨度掩碼方法進行預訓練。

大型語言模型

Transformers

其他#土耳其語字符級BERT #跨度掩碼預訓練 #OSCAR數據集

下載量 15

發布時間 : 4/9/2022

模型概述

TavBERT是一個專門為土耳其語設計的預訓練語言模型，採用字符級別的處理方式，能夠更好地處理土耳其語的形態學特性。

模型特點

字符級別處理

採用字符級別而非詞級別處理，更適合土耳其語的形態學特性

跨度掩碼預訓練

使用類似SpanBERT的字符跨度掩碼方法進行預訓練，提升模型性能

大規模訓練數據

基於OSCAR土耳其語部分(27GB文本)進行訓練

模型能力

土耳其語文本理解

掩碼語言建模

字符級別預測

使用案例

自然語言處理

土耳其語文本補全

預測被掩碼的土耳其語文本片段

能夠準確預測被掩碼的字符序列

土耳其語語言模型

作為下游NLP任務的基礎模型

屬性	詳情
模型類型	土耳其語BERT風格掩碼語言模型
訓練數據	OSCAR（Ortiz，2019）土耳其語部分（27GB文本，7700萬個句子）

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Tavbert Tr

模型概述

模型特點

模型能力

使用案例

🚀 TavBERT基礎模型

🚀 快速開始

💻 使用示例

基礎用法

📚 詳細文檔

訓練數據