sugoi-v4-ja-en-ctranslate2開源翻譯模型 - 實現日語到英語的高質量翻譯

首頁

Sugoi V4 Ja En Ctranslate2

由entai2965開發

由明芝(MingShiba)開發的日語到英語高質量神經機器翻譯模型，基於fairseq框架和CTranslate2優化

機器翻譯支持多種語言開源協議:其他 #日語英語互譯 #批量翻譯處理 #CTranslate2加速

下載量 25

發布時間 : 11/17/2024

模型概述

專為日語到英語翻譯任務優化的神經機器翻譯模型，支持批量處理，提供CPU/GPU加速選項

模型特點

高質量翻譯

針對日語到英語翻譯任務進行了專門優化

批量處理支持

支持同時處理多個句子，提高翻譯效率

硬件加速

支持CPU和CUDA GPU加速，可根據硬件條件選擇

開源工具鏈

基於fairseq和CTranslate2等開源工具構建

模型能力

日語到英語文本翻譯

批量文本處理

支持CPU/GPU推理

使用案例

內容本地化

日語內容英文化

將日語網站、文檔或媒體內容翻譯為英語

高質量英語譯文

語言學習

日語學習輔助

幫助日語學習者理解英語對應表達

快速獲取準確翻譯

🚀 超棒v4日語->英語神經機器翻譯模型 by MingShiba

本模型是一個強大的日語到英語的神經機器翻譯（NMT）模型，由MingShiba開發。它能高效準確地完成日語到英語的翻譯任務，適用於多種翻譯場景。

🚀 快速開始

📦 安裝指南

使用Python下載模型

安裝Python，可從 Python官網下載。
打開命令提示符（cmd）。
檢查Python版本：

python --version

安裝huggingface_hub庫：

python -m pip install huggingface_hub

進入Python交互環境：

python

在Python中執行以下代碼下載模型：

import huggingface_hub
huggingface_hub.download_snapshot('entai2965/sugoi-v4-ja-en-ctranslate2',local_dir='sugoi-v4-ja-en-ctranslate2')

運行模型（批量語法）

參考 CTranslate2與Fairseq的使用指南。
打開命令提示符（cmd）。
安裝ctranslate2和sentencepiece庫：

python -m pip install ctranslate2 sentencepiece

進入Python交互環境：

python

💻 使用示例

基礎用法

import ctranslate2
import sentencepiece

# 設置默認值
model_path='sugoi-v4-ja-en-ctranslate2'
sentencepiece_model_path=model_path+'/spm'

device='cpu'
# device='cuda'

# 加載數據
string1='は靜かに前へと歩み出た。'
string2='悲しいGPTと話したことがありますか?'
raw_list=[string1,string2]

# 加載模型
translator = ctranslate2.Translator(model_path, device=device)
tokenizer_for_source_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.ja.nopretok.model')
tokenizer_for_target_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.en.nopretok.model')

# 批量分詞
tokenized_batch=[]
for text in raw_list:
    tokenized_batch.append(tokenizer_for_source_language.encode(text,out_type=str))

# 翻譯
# https://opennmt.net/CTranslate2/python/ctranslate2.Translator.html?#ctranslate2.Translator.translate_batch
translated_batch=translator.translate_batch(source=tokenized_batch,beam_size=5)
assert(len(raw_list)==len(translated_batch))

# 解碼
for count,tokens in enumerate(translated_batch):
    translated_batch[count]=tokenizer_for_target_language.decode(tokens.hypotheses[0]).replace('<unk>','')

# 輸出
for text in translated_batch:
    print(text)

高級用法（函數式編程版本）

import ctranslate2
import sentencepiece

# 設置默認值
model_path='sugoi-v4-ja-en-ctranslate2'
sentencepiece_model_path=model_path+'/spm'

device='cpu'
# device='cuda'

# 加載數據
string1='は靜かに前へと歩み出た。'
string2='悲しいGPTと話したことがありますか?'
raw_list=[string1,string2]

# 加載模型
translator = ctranslate2.Translator(model_path, device=device)
tokenizer_for_source_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.ja.nopretok.model')
tokenizer_for_target_language = sentencepiece.SentencePieceProcessor(sentencepiece_model_path+'/spm.en.nopretok.model')

# 調用處理邏輯
translated_batch=[tokenizer_for_target_language.decode(tokens.hypotheses[0]).replace('<unk>','') for tokens in translator.translate_batch(source=[tokenizer_for_source_language.encode(text,out_type=str) for text in raw_list],beam_size=5)]
assert(len(raw_list)==len(translated_batch))

# 輸出
for text in translated_batch:
    print(text)