deberta-xxlarge-fixed开源文本生成模型 - 修复问题，助力文本快速产出

首页

Deberta Xxlarge Fixed

由 ltg 开发

这是deberta-v2-xxlarge的更新版本，实现了AutoModelForCausalLM类，使其能够生成文本。修复了原始实现中的三个问题，包括输出嵌入权重名称、增强掩码解码器实现和位置嵌入截断处理。

大型语言模型

Transformers

英语开源协议:MIT #生成式文本补全 #增强掩码解码 #长序列支持

下载量 203

发布时间 : 4/22/2024

模型简介

基于DeBERTa-v2-xxlarge的改进版本，支持文本生成功能，修复了原始实现中的若干问题，适用于自然语言处理任务。

模型特点

修复原始实现问题

修正了检查点文件中输出嵌入权重的错误名称，修复了增强掩码解码器（EMD）的实现，并对位置嵌入进行了截断处理以支持长序列。

支持文本生成

实现了AutoModelForCausalLM类，使原本仅用于填充掩码的DeBERTa模型能够生成文本。

大模型容量

基于DeBERTa-v2-xxlarge架构，具有15亿参数的大规模模型。

模型能力

文本生成

填充掩码

语言理解

机器翻译

使用案例

自然语言处理

文本补全

根据给定的部分文本，生成完整的句子或段落。

机器翻译

在不同语言之间进行文本翻译，如示例中的德语到英语翻译。

可生成流畅准确的翻译结果

🚀 DeBERTa (1.5B) 修复版本

本项目是对 deberta-v2-xxlarge 进行更新，使其实现了 AutoModelForCausalLM 类，从而能够生成文本。此实现基于我们的论文 "BERTs are Generative In-Context Learners"。

本仓库还修复了 DeBERTa 在 Hugging Face 上的原始实现中的三个问题：

修复了检查点文件中输出嵌入权重的错误名称；
基于原始 GitHub 仓库修复了增强掩码解码器（EMD）的实现；
对位置嵌入进行了限制，使其能够处理长序列。

🚀 快速开始

本项目是对 deberta-v2-xxlarge 的更新版本，实现了 AutoModelForCausalLM 类，从而具备文本生成能力。其实现基于论文 "BERTs are Generative In-Context Learners"。同时，本仓库修复了原始实现中的三个问题，提升了模型的性能和稳定性。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("ltg/deberta-xxlarge-fixed", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("ltg/deberta-xxlarge-fixed", trust_remote_code=True).cuda().eval()

prompt = """German: Hallo, wie geht es Ihnen heute?
English:"""
prompt = prompt.replace('\n', '\\n ')
input_ids = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).input_ids.cuda()

prediction = model.generate(
    input_ids,
    num_beams=4,
    do_sample=False,
    use_cache=None,
    max_new_tokens=64,
    eos_token_id=tokenizer(".\\", add_special_tokens=False).input_ids[1:]
)
prediction = prediction[0, input_ids.size(1):]
prediction = tokenizer.decode(prediction).rstrip('\\')

# Expected output: "Hello, how are you doing today?"
print(prediction)

📄 许可证

本项目采用 MIT 许可证。

📚 引用

如果您发现 DeBERTa 对您的工作有帮助，请引用以下论文：

@inproceedings{
  samuel2024berts,
  title={{BERT}s are Generative In-Context Learners},
  author={David Samuel},
  booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems},
  year={2024},
  url={https://openreview.net/forum?id=BCA9NMZkLS}
}

@inproceedings{he2021deberta,
  title={{DeBERTa}: Decoding-enhanced {BERT} with disentangled attention},
  author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
  booktitle={International Conference on Learning Representations},
  year={2021},
  url={https://openreview.net/forum?id=XPZIaotutsD}
}