🚀 超棒v4日语->英语神经机器翻译模型 by MingShiba
本模型是一个强大的日语到英语的神经机器翻译(NMT)模型,由MingShiba开发。它能高效准确地完成日语到英语的翻译任务,适用于多种翻译场景。
相关链接
🚀 快速开始
📦 安装指南
使用Python下载模型
- 安装Python,可从 Python官网 下载。
- 打开命令提示符(
cmd
)。
- 检查Python版本:
python --version
- 安装
huggingface_hub
库:
python -m pip install huggingface_hub
- 进入Python交互环境:
python
- 在Python中执行以下代码下载模型:
import huggingface_hub
huggingface_hub.download_snapshot('entai2965/sugoi-v4-ja-en-ctranslate2',local_dir='sugoi-v4-ja-en-ctranslate2')
运行模型(批量语法)
- 参考 CTranslate2与Fairseq的使用指南。
- 打开命令提示符(
cmd
)。
- 安装
ctranslate2
和sentencepiece
库:
python -m pip install ctranslate2 sentencepiece
- 进入Python交互环境:
python
💻 使用示例
基础用法
import ctranslate2
import sentencepiece
model_path='sugoi-v4-ja-en-ctranslate2'
sentencepiece_model_path=model_path+'/spm'
device='cpu'
string1='は静かに前へと歩み出た。'
string2='悲しいGPTと話したことがありますか?'
raw_list=[string1,string2]
translator = ctranslate2.Translator(model_path, device=device)
tokenizer_for_source_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.ja.nopretok.model')
tokenizer_for_target_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.en.nopretok.model')
tokenized_batch=[]
for text in raw_list:
tokenized_batch.append(tokenizer_for_source_language.encode(text,out_type=str))
translated_batch=translator.translate_batch(source=tokenized_batch,beam_size=5)
assert(len(raw_list)==len(translated_batch))
for count,tokens in enumerate(translated_batch):
translated_batch[count]=tokenizer_for_target_language.decode(tokens.hypotheses[0]).replace('<unk>','')
for text in translated_batch:
print(text)
高级用法(函数式编程版本)
import ctranslate2
import sentencepiece
model_path='sugoi-v4-ja-en-ctranslate2'
sentencepiece_model_path=model_path+'/spm'
device='cpu'
string1='は静かに前へと歩み出た。'
string2='悲しいGPTと話したことがありますか?'
raw_list=[string1,string2]
translator = ctranslate2.Translator(model_path, device=device)
tokenizer_for_source_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.ja.nopretok.model')
tokenizer_for_target_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.en.nopretok.model')
translated_batch=[tokenizer_for_target_language.decode(tokens.hypotheses[0]).replace('<unk>','') for tokens in translator.translate_batch(source=[tokenizer_for_source_language.encode(text,out_type=str) for text in raw_list],beam_size=5)]
assert(len(raw_list)==len(translated_batch))
for text in translated_batch:
print(text)
📄 许可证
本模型采用其他许可证(ntt-license
),具体许可信息请参考 LICENSE 文件。
模型信息
属性 |
详情 |
模型类型 |
神经机器翻译(NMT)模型 |
训练数据 |
未提及 |
支持语言 |
日语、英语 |
库名称 |
fairseq |
标签 |
nmt |