🚀 NLLB 1.3B在日英輕小說翻譯上的微調模型
本模型在輕小說和網絡小說數據上進行微調,用於日語到英語的翻譯。它能夠翻譯最多512個標記的句子和段落。
🚀 快速開始
模型調用
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
model = AutoModelForSeq2SeqLM.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
generated_tokens = model.generate(
**inputs,
forced_bos_token_id=tokenizer.lang_code_to_id[tokenizer.tgt_lang],
max_new_tokens=1024,
no_repeat_ngram_size=6,
).cpu()
translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
多樣化束搜索生成
使用多樣化束搜索進行生成似乎效果最佳。在 model.generate
中添加以下參數:
num_beams=8,
num_beam_groups=4,
do_sample=False,
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
model = AutoModelForSeq2SeqLM.from_pretrained("thefrigidliquidation/nllb-jaen-1.3B-lightnovels")
generated_tokens = model.generate(
**inputs,
forced_bos_token_id=tokenizer.lang_code_to_id[tokenizer.tgt_lang],
max_new_tokens=1024,
no_repeat_ngram_size=6,
).cpu()
translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
高級用法
num_beams=8,
num_beam_groups=4,
do_sample=False,
📚 詳細文檔
術語表
在運行時,你可以為名詞和角色名稱提供最多10個自定義翻譯。具體做法是,用術語標記包圍日語術語。在單詞前加上 <t0>、<t1>、...、<t9>
中的一個,在單詞後加上 </t>
。該術語將被翻譯為前綴術語標記,然後可以進行字符串替換。
例如,在 マイン、ルッツが迎えに來たよ
中,如果你希望將 マイン
翻譯為 Myne
,你可以將 マイン
替換為 <t0>マイン</t>
。模型會將 <t0>マイン</t>、ルッツが迎えに來たよ
翻譯為 <t0>, Lutz is here to pick you up.
然後只需對輸出進行字符串替換,將 <t0>
替換為 Myne
。
敬語處理
你可以強制模型生成或忽略敬語。
tokenizer.tgt_lang = "jpn_Jpan"
tokenizer.tgt_lang = "zsm_Latn"
tokenizer.tgt_lang = "zul_Latn"
📄 許可證
本模型使用的許可證為 cc-by-nc-4.0
。
屬性 |
詳情 |
語言支持 |
英語、日語 |
標籤 |
nllb |
許可證 |
cc-by-nc-4.0 |