turkish - base - bert - uncased开源模型 - 免费用于土耳其语掩码填充任务

首页

Turkish Base Bert Uncased

由 ytu-ce-cosmos 开发

这是一个针对土耳其语的基础版BERT模型，不区分大小写，主要用于填充掩码任务。

大型语言模型

Transformers

其他#土耳其语填充掩码 #无大小写敏感 #网络数据训练

下载量 241

发布时间 : 7/29/2023

模型简介

该模型是一个无大小写区分的土耳其语BERT模型，适用于自然语言处理任务，特别是填充掩码任务。

模型特点

无大小写区分

模型不区分大小写，turkish和Turkish被视为相同。

土耳其语优化

专门针对土耳其语进行训练和优化。

填充掩码任务

特别适合用于填充掩码任务，能够预测句子中被掩码的词语。

模型能力

填充掩码

土耳其语文本理解

使用案例

自然语言处理

填充掩码示例

预测句子中被掩码的词语，如'回来时我买了一升[MASK]。'

预测结果为'水'、'更多'、'汽油'、'啤酒'、'酒精'等。

🚀 土耳其基础无大小写区分BERT模型

这是一个土耳其语基础无大小写区分的BERT模型。由于该模型不区分大小写，因此“turkish”和“Turkish”对它来说没有区别。

🚀 快速开始

本模型是土耳其语基础无大小写区分的BERT模型。使用时需注意，由于它不区分大小写，在处理文本时需要进行特殊的小写转换。

⚠️ 重要提示

无大小写区分的使用需要手动进行小写转换。不要在分词器中使用 do_lower_case = True 标志。相反，按照以下方式将文本转换为小写：

text.replace("I", "ı").lower()

这是由于分词器存在一个已知问题。

💡 使用建议

要注意，该模型可能会出现有偏差的预测，因为它主要是在爬取的数据上进行训练的，而这些数据本身可能包含各种偏差。

其他相关信息可在论文中找到。

💻 使用示例

基础用法

from transformers import AutoTokenizer, BertForMaskedLM
from transformers import pipeline

model = BertForMaskedLM.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")
# or
# model = BertForMaskedLM.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased", from_tf = True)

tokenizer = AutoTokenizer.from_pretrained("ytu-ce-cosmos/turkish-base-bert-uncased")

unmasker = pipeline('fill-mask', model=model, tokenizer=tokenizer)
unmasker("gelirken bir litre [MASK] aldım.")
[{'score': 0.6248273253440857,
  'token': 2417,
  'token_str': 'su',
  'sequence': 'gelirken bir litre su aldım.'},
 {'score': 0.10369712114334106,
  'token': 2168,
  'token_str': 'daha',
  'sequence': 'gelirken bir litre daha aldım.'},
 {'score': 0.06832519918680191,
  'token': 11818,
  'token_str': 'benzin',
  'sequence': 'gelirken bir litre benzin aldım.'},
 {'score': 0.027739914134144783,
  'token': 11973,
  'token_str': 'bira',
  'sequence': 'gelirken bir litre bira aldım.'},
 {'score': 0.02571810781955719,
  'token': 7279,
  'token_str': 'alkol',
  'sequence': 'gelirken bir litre alkol aldım.'}]

📄 致谢

本研究得到了谷歌TensorFlow研究云（TFRC）的云TPU支持。感谢提供对TFRC的访问权限 ❤️
感谢Hugging Face团队的慷慨支持，使得能够从他们的S3存储中下载模型 🤗

📚 引用

@article{kesgin2023developing,
  title={Developing and Evaluating Tiny to Medium-Sized Turkish BERT Models},
  author={Kesgin, Himmet Toprak and Yuce, Muzaffer Kaan and Amasyali, Mehmet Fatih},
  journal={arXiv preprint arXiv:2307.14134},
  year={2023}
}