Honyaku Multi Translator Swallow Ms7b
基於Swallow-MS-7b開發的英日/日英雙向翻譯模型,專注中長文本翻譯,支持部分多語言翻譯
下載量 22
發布時間 : 3/30/2024
模型概述
該模型基於Swallow-MS-7b的日語能力開發,通過8K上下文窗口微調,主要面向100至數千token的中長文本翻譯場景。核心優勢在於英日互譯,但也部分支持其他語種翻譯。
模型特點
中長文本翻譯優化
專為100token至數千token的中長文本翻譯場景優化,支持8K上下文窗口
多語言支持
除核心的英日互譯外,還支持意大利語、法語、西班牙語等多種語言的翻譯
高效指令理解
採用類XML指令格式,指令token消耗少且模型理解精準
模型能力
英日雙向翻譯
日英雙向翻譯
多語言翻譯
中長文本處理
使用案例
翻譯服務
學術文獻翻譯
翻譯國際法、經濟政策等專業領域的學術文獻
保持專業術語準確性,處理複雜句式
商業文件翻譯
翻譯跨國企業合同、報告等商業文件
確保法律和商業術語的準確轉換
多語言內容處理
多語言內容本地化
將內容從英語翻譯為日語或其他支持語言
適應不同語言的文化表達習慣
🚀 多語言翻譯模型 - Honyaku-7b-v2
本項目是一款基於 Swallow-MS-7b 的翻譯模型,主要聚焦於英日互譯,同時部分支持多種其他語言的翻譯。它經過 8K 上下文的微調,適合處理 100 到數千 token 的較長文本。
🚀 快速開始
2024 年 4 月 8 日,我們上傳了一個新模型,增強了多語言支持能力,你可以通過以下鏈接獲取: Honyaku-7b-v2
✨ 主要特性
- 多語言翻譯:核心支持英日互譯,同時部分支持意大利語、法語、西班牙語等多種語言。
- 長文本處理:經過 8K 上下文微調,適合翻譯 100 到數千 token 的相對長文。
- 特定 Prompt 格式:採用 XML 風格的指令模板,減少 token 消耗,提升模型對指令的理解。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
💻 使用示例
基礎用法
英日翻譯的 Prompt 格式
<english>: {} </english>
<japanese>: {} </japanese>
日英翻譯的 Prompt 格式
<japanese>: {} </japanese>
<english>: {} </english>
高級用法
對於長文翻譯,建議使用 TextStreamer
,以下是一個長文英日翻譯的示例代碼:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model_name = "aixsatoshi/Honyaku-Multi-Translator-Swallow-ms7b"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Define the streamer
streamer = TextStreamer(tokenizer)
# Define the English prompt
english_prompt = """
In an era marked by rapid globalization, the intricate interplay between international law, economic policies, and political dynamics has become increasingly complex.
Legal frameworks, once confined within national borders, now stretch across continents, necessitating a nuanced understanding of transnational legislation and treaties.
As multinational corporations navigate the labyrinthine maze of global markets, economic theories that underpin currency fluctuations, trade imbalances, and fiscal policies are more pertinent than ever.
Central to these economic considerations is the concept of market equilibrium, a delicate balance affected by myriad factors including consumer behavior, governmental regulations, and global crises.
Politically, the landscape is equally labyrinthine. Ideological shifts and the resurgence of nationalism have reshaped diplomatic relations, with international agreements and alliances being tested under the strain of geopolitical tensions.
The role of supranational entities like the United Nations and the European Union in mediating these conflicts is of paramount importance, as is the need for diplomatic finesse in an increasingly multipolar world.
Furthermore, the intersection of politics and economics is evident in the debate over economic sanctions and their efficacy in swaying political decisions.
In this context, understanding the subtleties of rhetoric used in political discourse, and how it interweaves with legal jargon and economic terminology, is crucial.
For instance, the rhetoric surrounding fiscal austerity measures often intertwines with legal discourse on budgetary legislation and economic debates on inflation control.
Similarly, discussions on constitutional amendments are frequently laden with political undertones, reflecting broader societal issues and ideological divides.
This convergence of legal, economic, and political vernacular presents a unique challenge for machine translation systems, demanding not only linguistic accuracy but also a deep comprehension of the nuanced interplay of these disciplines.
"""
# Prepare the prompt for English to Japanese translation
prompt = f"<english>: {english_prompt} </english>\n\n<japanese>:"
# Tokenize the input text and move to CUDA device
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
# Generate the output using the model and streamer
output = model.generate(**inputs, max_new_tokens=4096, do_sample=True, top_k=20, top_p=0.95, streamer=streamer)
多語言翻譯示例
以下是不同語言的翻譯示例:
>**<english>**:In an era marked by rapid globalization, the intricate interplay between international law, economic policies, and political dynamics has become increasingly complex. Legal frameworks, once confined within national borders, now stretch across continents, necessitating a nuanced understanding of transnational legislation and treaties. As multinational corporations navigate the labyrinthine maze of global markets, economic theories that underpin currency fluctuations, trade imbalances, and fiscal policies are more pertinent than ever. Central to these economic considerations is the concept of market equilibrium, a delicate balance affected by myriad factors including consumer behavior, governmental regulations, and global crises.
>
>Politically, the landscape is equally labyrinthine. Ideological shifts and the resurgence of nationalism have reshaped diplomatic relations, with international agreements and alliances being tested under the strain of geopolitical tensions. The role of supranational entities like the United Nations and the European Union in mediating these conflicts is of paramount importance, as is the need for diplomatic finesse in an increasingly multipolar world. Furthermore, the intersection of politics and economics is evident in the debate over economic sanctions and their efficacy in swaying political decisions.
>
>In this context, understanding the subtleties of rhetoric used in political discourse, and how it interweaves with legal jargon and economic terminology, is crucial. For instance, the rhetoric surrounding fiscal austerity measures often intertwines with legal discourse on budgetary legislation and economic debates on inflation control. Similarly, discussions on constitutional amendments are frequently laden with political undertones, reflecting broader societal issues and ideological divides.
>This convergence of legal, economic, and political vernacular presents a unique challenge for machine translation systems, demanding not only linguistic accuracy but also a deep comprehension of the nuanced interplay of these disciplines.
></english>
>
>**<japanese>**:急速なグローバル化を特徴とする時代において、國際法、経済政策、政治的ダイナミクスの間の複雑な相互作用はますます複雑になっています。かつては國內國境內でのみ適用されていた法的枠組みが今や大陸を超えて広がっており、それらを理解するためには、國境を越えた法律や條約に関する繊細な理解が必要です。多國籍企業が世界市場の迷路をナビゲートしながら、通貨変動、貿易不均衡、財政政策などを裡付ける経済理論は、より重要性を増しています。これらの経済上の考慮事項の中心にあるのは、消費者行動、政府規制、そしてグローバル危機を含むさまざまな要因によって影響を受けるデリケートなバランスである市場平衡の概念です。
>
>政治的に見ても、この地形も同様に複雑です。イデオロギーの変化とナショナリズムの復活により、外交関係が地政學的緊張の下で試練にさらされる中、國際協定や同盟が検査されています。國連や歐州連合などの超國家機関の仲介役としての役割は極めて重要であり、さらに、ますます多極化する世界における外交手腕の必要性も不可欠です。さらに、経済制裁の有効性についての議論の中でも、政治と経済の交差點が明らかです。
>
>この文脈では、政治的討論で使用される口語表現の微妙な違いを理解し、それが法律用語や経済用語とどのように絡み合っているかを理解することが重要です。たとえば、緊縮財政措置にまつわる言説は、予算立法に関する法的議論やインフレ制御に関する経済議論と絡み合う傾向があります。また、憲法改正に関する議論には政治的ニュアンスが含まれていることが多く、社會全體の問題やイデオロギー的対立を反映しています。
>
>このように、法律、経済、政治の言葉が融合した狀況に対処するには、機械翻訳システムにとって獨自の課題が生じます。言語的正確さだけでなく、これらの分野の微妙な相互作用の深い理解も求められます。<NL>
></japanese>
>
>
>**<french>**:L’ère marquée par le rapide processus de mondialisation se caractérise par un jeu subtil entre la loi internationale, les politiques économiques et les dynamiques politiques qui sont plus complexes que jamais. Les législations nationales désormais s’étendent sur des continents nécessitant une compréhension fine des réglementations transnationaux et des traités internationaux. Dans le contexte des multinationaux qui naviguent dans le labyrinthe du marché mondial, les théories économiques fondées sur les fluctuations monétaires, les équilibres commerciaux et les politiques fiscales sont plus pertinent qu'ever. À leur centre, la notion d’équilibre du marché, affecté par un nombre sans cesse croissant de facteurs, notamment le comportement des consommateurs, les réglementations gouvernementales et les crises mondiales, est centrale.
>
>Politiquement, la paysage est aussi labyrinthique. L’évolution des idées et du renouveau du nationalisme ont modifié les relations diplomatiques, où les accords internationaux et les alliances sont testées sous le poids de tensions géopolitiques. Le rôle des entités supra-nationales telles que l’Organisation des Nations Unies ou de l’Union européenne pour médier ces conflits est de premier plan, comme aussi bien la délicate diplomatie dans un monde devenu plus multipolaire. De plus, les liens de politique avec l’économie sont évidents lorsque la question de l’efficacité des mesures de blocade économique et de leurs impacts sur les décisions politiques est abordée.
>
>Dans ce contexte, comprendre les subtilités du langage utilisé dans le discours politique ainsi que comment il se intègre aux termes juridiques et économiques est essentiel. Par exemple, le langage autour des mesures budgétaires de rigueur se mêle souvent à la discours législatif sur les lois budgétaires et au débat économique sur la lutte contre l’inflation. De même, les discussions sur les amendements constitutionnels sont souvent chargées de tonalité politique, reflétant des problèmes sociétaux plus larges et des divisions idéologiques.
>Cette convergence de langages juridiques, économiques et politiques présente un défaut unique pour les systèmes de traduction machines, demandant non seulement la précision linguistique mais également une profonde compréhension de cette interactivité des disciplines.
></french>
>
>
>**<spanish>**:La era de la globalización rápida ha marcado un cambio complejo en el interplay entre el derecho internacional, políticas económicas y dinámica política. Los marcos legales, una vez contenederos dentro de los límites nacionales, se extienden a través de continent, lo que necesita una comprensión minuciosa de las leyes transnacionales y tratados. En un mundo de empresas multinacionales, la economía está más relevante que nunca, ya que las teorías económicas subyacentes al cambio monetario, desequilibrios comerciales y políticas fiscales son más pertinentes que nunca. A estos aspectos económicos centrales es la idea del equilibrio del mercado, un equilibrio precuoque influenciado por factores tan variados como el comportamiento de los consumidores, reglamentaciones gubernamentales y crisis globales.
>
>Políticamente, la escenografía es igualmente complicada. El cambio de paradigma ideológico y la reactivización del nacionalismo han alterado relaciones diplomáticas internacionales, sometidas al cernido de tensiones geopolíticas. La mediación de estos conflictos por entidades supranacionales como las Naciones Unidas o la Unión Europea es fundamental, así como la necesidad de diplomacia sutil en un mundo cada vez más multipolar. Además, la intersección de política y economía está evidenciada en el debate sobre las sanciones económicas y sus capacidades para dirigir decisiones políticas.
>
>En este contexto, comprender las subtiles de oratoria utilizadas en el discurso político y cómo se interrelaciona con el vocabulario jurídico y el terminología económica es crítico. Por ejemplo, el oratorio sobre medidas fiscales austera les intertwine con el discurso sobre legislación presupuestaria y dilectas sobre inflación controlada. De manera similar, las discusiones sobre modificaciones constitucionales están frecuentemente cargadas de tintes políticas, reflejando problemáticas sociales más amplias y división ideológica.
>Esta convergencia de vocabularios jurídico, económico y político presenta un desafío único para sistemas de traducción automatizada, demandiendo no solo lingüística exactitud, pero también profunda comprensión de los subtelos de interacción de estas disciplinas.
></span>
>
>
>**<Indonesian>**:Era yang dikarakterkan oleh kecepatan globalisasi pembandingan antara negara berlatih, hubungan antara hukum internasional, ekonomi dan politika dinamis menjadi semakin kompleks. Hukuman-hukuman yang sebelumnya terbatas dalam batas nasional saat ini menyajikan hingga kontinen, memerlukan pengecahahan yang diperluaskan tentang peraturan dan persuatan internasional. Pusat usaha multi nasional navigasi kasih meandrean pasar global, teori ekonomi yang berdasarkannya untuk mata angka, imbalance dagangan, dan polisi fiskal lebih penting akhirnya. Tentang ekonomi ini senter ke konsep keadaan rata-rata pasar, diwakilkan oleh berbagai faktor termasuk gerakan pelaku, regulasi negara dan krisis global.
>
>Hidup politik, landskap juga penuh meanderean. Perubahan ideologi dan resurekta Nasionalisme adalah peningkatan hubungan diplomatik, dimana perjanji antar negara dan aliansi internasional di ujuk oleh tegakan geopolitik. Mediasi konflik ini oleh entitas supra nasional seperti PBB dan EUB yang melakukanya penting besar, sama sekali diperlukan kekerjaan kerjasama diplomatika dalam dunia yang semakin polarisasi. Selain itu, masalah politik dan ekonomi disajikan dalam debat mengenai ekonomsan dan kesaktinan ekonomsan dalam menghantarkan keputusan politik.
>
>Dalam context ini, memahami subtilitas bahasa yang digunakan dalam diskursi politik, dan bagaimana ia weave dengan jurileg dan bahasa ekonomi, sangat penting. Misalnya, bahasa yang digunakan kerasa yang bersifat budgetari kerap weave dengan bahasa legalkritik budget dan ekonomi dalam mencoba memelihar konsensus inflasi. Sama sekala, percakapan amandemen constitutions sering diberimbau dengan temuan politis, mereflecting kesulitan umum dan ideologi pemisahan.
>Konvergensi bahasa hukum, ekonomi, dan politik membuat sistem mesin translater paling unik, membutuhkan tidak hanya lingkungan lingual baik tetapi penuh pemahaman nuansa interaksi antara kedua-dua ilmu ini.
></indonesian>
>
📚 詳細文檔
模型描述
本模型利用了 tokyotech-llm/Swallow-MS-7b-v0.1
的高日語能力,主要用於英日和日英翻譯。模型在 8K 上下文下進行了微調,旨在處理 100 到數千 token 的相對長文。同時,它也部分支持多種其他語言的翻譯,但多語言翻譯功能和長文翻譯在量化時可能會變得不穩定。
tokyotech-llm/Swallow-MS-7b-v0.1
Prompt 格式
採用了類似 XML 的指令模板,其優點是減少 Instruction
的 token 消耗,且模型對指令的理解較好;缺點是對帶標籤的文本處理能力較弱。
多語言支持情況
- 表現較好的語言標籤:英語到日語翻譯的標籤工作正常,其他功能標籤如
<english>
、<italian>
、<french>
、<spanish>
、<Portuguese>
、<German>
、<Danish>
、Nederlands
、Czech
等有一定支持,但大多不太穩定。 - 表現不佳的語言:
<Indonesian>
、<Norwegian>
、<Swedish>
、<turkish>
、Русский
、Dutch
、turkish
、Vietnamese
、ελληνική γλώσσα
、Arabic
、Vietnamese
、Tiếng Việt
、မြန်မာဘာသာ
、Filipino
等語言的翻譯效果不太好,大多不穩定。 - 幾乎無法工作的語言:
Finnish
、Hindi
、తెలుగు
、አማርኛ
、ພາສາລາວ
等語言的翻譯幾乎無法正常工作。
🔧 技術細節
模型侷限性
- 短文本和超長文本:在短文本或非常長的文章中,可能會出現
stoptoken
不穩定和重複翻譯的問題。 - 長文性能:當翻譯超過 4000 token 的文本時,會出現明顯的性能下降,如跳讀等情況。
- 概念理解:對於模型無法理解的概念,容易出現幻覺現象。
未來計劃
由於支持多種語言翻譯,部分語言的翻譯精度有所犧牲,後續將繼續訓練更準確的模型。
📄 許可證
本項目採用 Apache-2.0
許可證。
⚠️ 重要提示
模型在短文本、超長文本以及處理無法理解的概念時存在侷限性,請自行承擔輸出內容的使用風險。
💡 使用建議
對於長文翻譯,建議使用
TextStreamer
以提升翻譯體驗。
M2m100 418M
MIT
M2M100是一個多語言編碼器-解碼器模型,支持100種語言的9900個翻譯方向
機器翻譯 支持多種語言
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
基於Transformer的法語到英語神經機器翻譯模型,由Helsinki-NLP團隊開發,採用OPUS多語數據集訓練。
機器翻譯 支持多種語言
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
基於OPUS數據訓練的阿拉伯語到英語的機器翻譯模型,採用transformer-align架構
機器翻譯 支持多種語言
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100是一個支持100種語言的多語言機器翻譯模型,可直接在9900個翻譯方向之間進行翻譯。
機器翻譯 支持多種語言
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
支持25種印度語言與英語互譯的1.1B參數規模機器翻譯模型,由AI4Bharat項目開發
機器翻譯
Transformers 支持多種語言

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
基於Transformer架構的英漢多方言翻譯模型,支持英語到13種漢語變體的翻譯任務
機器翻譯 支持多種語言
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
由赫爾辛基大學開發的基於OPUS語料庫的中文到英語機器翻譯模型
機器翻譯 支持多種語言
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
基於mBART-large-50微調的多語言機器翻譯模型,支持50種語言間的互譯
機器翻譯 支持多種語言
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-en 是一個基於 transformer-align 架構的德語到英語的機器翻譯模型,由 Helsinki-NLP 團隊開發。
機器翻譯 支持多種語言
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
這是一個基於Transformer架構的西班牙語到英語的機器翻譯模型,由Helsinki-NLP團隊開發。
機器翻譯
Transformers 支持多種語言

O
Helsinki-NLP
385.40k
71
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98