pyc2py_alpha2 ByT5開源模型 - 無需分詞器，處理噪聲和多語言文本超實用

首頁

Pyc2py Alpha2

由baffo32開發

ByT5是谷歌T5的無分詞器版本，直接處理原始UTF-8字節，無需依賴分詞器，特別適合處理噪聲文本和多語言場景。

大型語言模型其他開源協議:Apache-2.0 #字節級處理 #多語言支持 #噪聲文本魯棒

下載量 15

發布時間 : 3/2/2022

模型概述

ByT5是基於字節到字節預訓練的Transformer模型，直接處理原始UTF-8字節序列，無需分詞器。該模型在mC4數據集上預訓練，適用於多語言文本處理任務，尤其在噪聲文本上表現優異。

模型特點

無分詞器設計

直接處理原始UTF-8字節，無需依賴獨立分詞器，降低技術複雜性。

多語言支持

基於字節級處理，天然支持所有語言的文本，無需額外語言適配。

噪聲魯棒性

在噪聲文本（如拼寫錯誤、非標準格式）上表現顯著優於傳統分詞模型。

統一架構

使用標準Transformer架構，僅需微小調整即可處理字節序列。

模型能力

多語言文本生成

噪聲文本處理

跨語言遷移學習

文本理解與轉換

使用案例

自然語言處理

多語言文本摘要

對多種語言的文本生成摘要

無需語言特定處理即可實現跨語言摘要

噪聲文本處理

處理包含拼寫錯誤或非標準格式的文本

在TweetQA任務中表現優於傳統分詞模型

機器翻譯

字節級機器翻譯

直接在字節序列層面進行語言轉換

避免分詞帶來的信息損失

🚀 ByT5 - Base

ByT5是谷歌T5的無分詞器版本，總體上遵循MT5的架構。它無需分詞器，能直接處理原始的UTF - 8字節數據，在處理嘈雜文本數據方面表現出色。

🚀 快速開始

ByT5是基於Transformer架構的模型，在mC4數據集上進行預訓練，平均跨度掩碼為20個UTF - 8字符。該模型在用於下游任務前需要進行微調。

✨ 主要特性

無分詞器：ByT5是無分詞器版本的T5模型，可直接處理原始的UTF - 8字節數據。
預訓練數據：僅在mC4上進行預訓練，未進行任何監督訓練，平均跨度掩碼為20個UTF - 8字符。
下游任務需微調：該模型在用於下游任務前需要進行微調。
處理嘈雜文本能力強：在嘈雜文本數據上表現出色，例如在TweetQA任務中，google/byt5 - base顯著優於[mt5 - base](https://huggingface.co/google/mt5 - base)。

💻 使用示例

基礎用法

ByT5可直接處理原始的UTF - 8字節數據，無需分詞器：

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高級用法

對於批量推理和訓練，建議使用分詞器類進行填充：

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-base')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 詳細文檔

論文信息

標題：ByT5: Towards a token - free future with pre - trained byte - to - byte models
作者：Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel