turkish - base - bert - uncased開源模型 - 免費用於土耳其語掩碼填充任務

首頁

Turkish Base Bert Uncased

由ytu-ce-cosmos開發

這是一個針對土耳其語的基礎版BERT模型，不區分大小寫，主要用於填充掩碼任務。

大型語言模型

Transformers

其他#土耳其語填充掩碼 #無大小寫敏感 #網絡數據訓練

下載量 241

發布時間 : 7/29/2023

模型概述

該模型是一個無大小寫區分的土耳其語BERT模型，適用於自然語言處理任務，特別是填充掩碼任務。

模型特點

無大小寫區分

模型不區分大小寫，turkish和Turkish被視為相同。

土耳其語優化

專門針對土耳其語進行訓練和優化。

填充掩碼任務

特別適合用於填充掩碼任務，能夠預測句子中被掩碼的詞語。

模型能力

填充掩碼

土耳其語文本理解

使用案例

自然語言處理

填充掩碼示例

預測句子中被掩碼的詞語，如'回來時我買了一升[MASK]。'

預測結果為'水'、'更多'、'汽油'、'啤酒'、'酒精'等。

🚀 土耳其基礎無大小寫區分BERT模型

這是一個土耳其語基礎無大小寫區分的BERT模型。由於該模型不區分大小寫，因此“turkish”和“Turkish”對它來說沒有區別。

🚀 快速開始

本模型是土耳其語基礎無大小寫區分的BERT模型。使用時需注意，由於它不區分大小寫，在處理文本時需要進行特殊的小寫轉換。

⚠️ 重要提示

無大小寫區分的使用需要手動進行小寫轉換。不要在分詞器中使用 do_lower_case = True 標誌。相反，按照以下方式將文本轉換為小寫：

text.replace("I", "ı").lower()

這是由於分詞器存在一個已知問題。

💡 使用建議

要注意，該模型可能會出現有偏差的預測，因為它主要是在爬取的數據上進行訓練的，而這些數據本身可能包含各種偏差。

其他相關信息可在論文中找到。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, BertForMaskedLM
from transformers import pipeline

model = BertForMaskedLM.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")
# or
# model = BertForMaskedLM.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased", from_tf = True)

tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")

unmasker = pipeline('fill-mask', model=model, tokenizer=tokenizer)
unmasker("gelirken bir litre [MASK] aldım.")
[{'score': 0.6248273253440857,
  'token': 2417,
  'token_str': 'su',
  'sequence': 'gelirken bir litre su aldım.'},
 {'score': 0.10369712114334106,
  'token': 2168,
  'token_str': 'daha',
  'sequence': 'gelirken bir litre daha aldım.'},
 {'score': 0.06832519918680191,
  'token': 11818,
  'token_str': 'benzin',
  'sequence': 'gelirken bir litre benzin aldım.'},
 {'score': 0.027739914134144783,
  'token': 11973,
  'token_str': 'bira',
  'sequence': 'gelirken bir litre bira aldım.'},
 {'score': 0.02571810781955719,
  'token': 7279,
  'token_str': 'alkol',
  'sequence': 'gelirken bir litre alkol aldım.'}]

📄 致謝

本研究得到了谷歌TensorFlow研究雲（TFRC）的雲TPU支持。感謝提供對TFRC的訪問權限 ❤️
感謝Hugging Face團隊的慷慨支持，使得能夠從他們的S3存儲中下載模型 🤗

📚 引用

@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}