nllb-jaen-1.3B-lightnovels開源翻譯模型 - 日譯英精準翻譯輕小說段落

首頁

Nllb Jaen 1.3B Lightnovels

由thefrigidliquidation開發

針對輕小說及網絡小說的日譯英任務進行微調的翻譯模型，支持最長512標記的句子和段落翻譯

機器翻譯

Transformers

支持多種語言#輕小說翻譯 #日英互譯 #術語自定義

下載量 842

發布時間 : 10/1/2022

模型概述

該模型是基於NLLB-1.3B架構微調的日英翻譯模型，專門優化了輕小說和網絡小說的翻譯質量，支持術語控制和敬語處理

模型特點

輕小說專用優化

針對輕小說和網絡小說的語言特點進行了專門優化

術語控制

支持最多10個自定義名詞或角色名的翻譯控制

敬語處理

可強制控制譯文中的敬語使用模式

長文本支持

可處理最長512個標記的句子和段落翻譯

模型能力

日語到英語翻譯

輕小說文本翻譯

網絡小說文本翻譯

術語控制翻譯

敬語模式控制

使用案例

文學翻譯

輕小說翻譯

將日語輕小說翻譯為英語

保留原作風格的專業翻譯

網絡小說翻譯

將日語網絡小說翻譯為英語

準確傳達網絡用語和特殊表達

本地化

角色名本地化

保持角色名翻譯一致性

通過術語表實現統一翻譯

🚀 NLLB 1.3B在日英輕小說翻譯上的微調模型

本模型在輕小說和網絡小說數據上進行微調，用於日語到英語的翻譯。它能夠翻譯最多512個標記的句子和段落。

🚀 快速開始

模型調用

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
model = AutoModelForSeq2SeqLM.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")

generated_tokens = model.generate(
    **inputs,
    forced_bos_token_id=tokenizer.lang_code_to_id[tokenizer.tgt_lang],
    max_new_tokens=1024,
    no_repeat_ngram_size=6,
).cpu()

translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]

多樣化束搜索生成

使用多樣化束搜索進行生成似乎效果最佳。在 model.generate 中添加以下參數：

num_beams=8,
num_beam_groups=4,
do_sample=False,

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
model = AutoModelForSeq2SeqLM.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")

generated_tokens = model.generate(
    **inputs,
    forced_bos_token_id=tokenizer.lang_code_to_id[tokenizer.tgt_lang],
    max_new_tokens=1024,
    no_repeat_ngram_size=6,
).cpu()

translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]

高級用法

# 多樣化束搜索生成
num_beams=8,
num_beam_groups=4,
do_sample=False,

📚 詳細文檔

術語表

在運行時，你可以為名詞和角色名稱提供最多10個自定義翻譯。具體做法是，用術語標記包圍日語術語。在單詞前加上 <t0>、<t1>、...、<t9> 中的一個，在單詞後加上 </t>。該術語將被翻譯為前綴術語標記，然後可以進行字符串替換。

例如，在 マイン、ルッツが迎えに來たよ 中，如果你希望將 マイン 翻譯為 Myne，你可以將 マイン 替換為 <t0>マイン</t>。模型會將 <t0>マイン</t>、ルッツが迎えに來たよ 翻譯為 <t0>, Lutz is here to pick you up. 然後只需對輸出進行字符串替換，將 <t0> 替換為 Myne。

敬語處理

你可以強制模型生成或忽略敬語。

# 默認情況下，模型決定是否使用敬語
tokenizer.tgt_lang = "jpn_Jpan"
# 不使用敬語，模型會盡量避免使用敬語
tokenizer.tgt_lang = "zsm_Latn"
# 使用敬語，模型會傾向於使用敬語
tokenizer.tgt_lang = "zul_Latn"