nllb-jaen-1.3B-lightnovels开源翻译模型 - 日译英精准翻译轻小说段落

首页

Nllb Jaen 1.3B Lightnovels

由 thefrigidliquidation 开发

针对轻小说及网络小说的日译英任务进行微调的翻译模型，支持最长512标记的句子和段落翻译

机器翻译

Transformers

支持多种语言#轻小说翻译 #日英互译 #术语自定义

下载量 842

发布时间 : 10/1/2022

模型简介

该模型是基于NLLB-1.3B架构微调的日英翻译模型，专门优化了轻小说和网络小说的翻译质量，支持术语控制和敬语处理

模型特点

轻小说专用优化

针对轻小说和网络小说的语言特点进行了专门优化

术语控制

支持最多10个自定义名词或角色名的翻译控制

敬语处理

可强制控制译文中的敬语使用模式

长文本支持

可处理最长512个标记的句子和段落翻译

模型能力

日语到英语翻译

轻小说文本翻译

网络小说文本翻译

术语控制翻译

敬语模式控制

使用案例

文学翻译

轻小说翻译

将日语轻小说翻译为英语

保留原作风格的专业翻译

网络小说翻译

将日语网络小说翻译为英语

准确传达网络用语和特殊表达

本地化

角色名本地化

保持角色名翻译一致性

通过术语表实现统一翻译

🚀 NLLB 1.3B在日英轻小说翻译上的微调模型

本模型在轻小说和网络小说数据上进行微调，用于日语到英语的翻译。它能够翻译最多512个标记的句子和段落。

🚀 快速开始

模型调用

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
model = AutoModelForSeq2SeqLM.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")

generated_tokens = model.generate(
    **inputs,
    forced_bos_token_id=tokenizer.lang_code_to_id[tokenizer.tgt_lang],
    max_new_tokens=1024,
    no_repeat_ngram_size=6,
).cpu()

translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]

多样化束搜索生成

使用多样化束搜索进行生成似乎效果最佳。在 model.generate 中添加以下参数：

num_beams=8,
num_beam_groups=4,
do_sample=False,

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
model = AutoModelForSeq2SeqLM.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")

generated_tokens = model.generate(
    **inputs,
    forced_bos_token_id=tokenizer.lang_code_to_id[tokenizer.tgt_lang],
    max_new_tokens=1024,
    no_repeat_ngram_size=6,
).cpu()

translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]

高级用法

# 多样化束搜索生成
num_beams=8,
num_beam_groups=4,
do_sample=False,

📚 详细文档

术语表

在运行时，你可以为名词和角色名称提供最多10个自定义翻译。具体做法是，用术语标记包围日语术语。在单词前加上 <t0>、<t1>、...、<t9> 中的一个，在单词后加上 </t>。该术语将被翻译为前缀术语标记，然后可以进行字符串替换。

例如，在 マイン、ルッツが迎えに来たよ 中，如果你希望将 マイン 翻译为 Myne，你可以将 マイン 替换为 <t0>マイン</t>。模型会将 <t0>マイン</t>、ルッツが迎えに来たよ 翻译为 <t0>, Lutz is here to pick you up. 然后只需对输出进行字符串替换，将 <t0> 替换为 Myne。

敬语处理

你可以强制模型生成或忽略敬语。

# 默认情况下，模型决定是否使用敬语
tokenizer.tgt_lang = "jpn_Jpan"
# 不使用敬语，模型会尽量避免使用敬语
tokenizer.tgt_lang = "zsm_Latn"
# 使用敬语，模型会倾向于使用敬语
tokenizer.tgt_lang = "zul_Latn"