模型介紹
內容詳情
替代品
模型概述
模型特點
模型能力
使用案例
🚀 SalamandraTA模型卡
SalamandraTA-2b-instruct是一個翻譯大語言模型(LLM),它是在SalamandraTA-2b-base的基礎上進行指令微調得到的。基礎模型是通過在平行數據上對 Salamandra-2b 進行持續預訓練得到的,尚未發佈,僅供內部使用。SalamandraTA-2b-instruct精通35種歐洲語言(外加3種變體),支持與翻譯相關的任務,即:句子級翻譯、段落級翻譯、自動後編輯、語法檢查、機器翻譯評估、替代翻譯、命名實體識別和上下文感知翻譯。
⚠️ 重要提示
免責聲明:此版本的Salamandra專門為翻譯任務量身定製。它不具備聊天功能,也未使用任何聊天指令進行訓練。
🚀 快速開始
你可以在以下 35種語言(和3種變體)之間進行翻譯:
阿拉貢語、阿斯圖里亞斯語、巴斯克語、保加利亞語、加泰羅尼亞語(和加泰羅尼亞 - 瓦倫西亞變體)、克羅地亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、加利西亞語、德語、希臘語、匈牙利語、愛爾蘭語、意大利語、拉脫維亞語、立陶宛語、馬耳他語、挪威語(書面挪威語和新挪威語變體)、奧克語(和阿蘭語變體)、波蘭語、葡萄牙語、羅馬尼亞語、俄語、塞爾維亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語、烏克蘭語、威爾士語。
遵循指令的模型使用了普遍採用的ChatML模板:
<|im_start|>system
{系統提示}<|im_end|>
<|im_start|>user
{用戶提示}<|im_end|>
<|im_start|>assistant
{模型響應}<|im_end|>
<|im_start|>user
[...]
應用它的最簡單方法是使用分詞器的內置函數,如下列代碼片段所示。
from datetime import datetime
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "BSC-LT/salamandraTA-2b-instruct"
source = 'Spanish'
target = 'Catalan'
sentence = "Ayer se fue, tomó sus cosas y se puso a navegar. Una camisa, un pantalón vaquero y una canción, dónde irá, dónde irá. Se despidió, y decidió batirse en duelo con el mar. Y recorrer el mundo en su velero. Y navegar, nai-na-na, navegar"
text = f"Translate the following text from {source} into {target}.\n{source}: {sentence} \n{target}:"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16
)
message = [ { "role": "user", "content": text } ]
date_string = datetime.today().strftime('%Y-%m-%d')
prompt = tokenizer.apply_chat_template(
message,
tokenize=False,
add_generation_prompt=True,
date_string=date_string
)
inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
input_length = inputs.shape[1]
outputs = model.generate(input_ids=inputs.to(model.device),
max_new_tokens=400,
early_stopping=True,
num_beams=5)
print(tokenizer.decode(outputs[0, input_length:], skip_special_tokens=True))
# Ahir se'n va anar, va recollir les seves coses i es va fer a la mar. Una camisa, uns texans i una cançó, on anirà, on anirà. Es va acomiadar i va decidir batre's en duel amb el mar. I fer la volta al món en el seu veler. I navegar, nai-na-na, navegar
使用此模板時,每一輪對話都以 <|im_start|>
分隔符和實體角色(用戶提供的內容為 user
,大語言模型的響應為 assistant
)開頭,並以 <|im_end|>
標記結束。
✨ 主要特性
通用翻譯
對於機器翻譯任務,你可以使用以下提示模板:
將以下文本從 {源語言} 翻譯成 {目標語言}。
{源語言}: {源句子}
{目標語言}:
查看示例
source = 'Catalan'
target = 'Galician'
source_sentence = "Als antics egipcis del període de l'Imperi Nou els fascinaven els monuments dels seus predecessors, que llavors tenien més de mil anys."
text = f"Translate the following text from {source} into {target}.\n{source}: {source_sentence} \n{target}:"
# Os antigos exipcios do período do Imperio Novo estaban fascinados polos monumentos dos seus predecesores, que entón tiñan máis de mil anos de antigüidade.
後編輯
對於後編輯任務,你可以使用以下提示模板:
請修正以下 {源語言}-{目標語言} 機器翻譯中的任何錯誤,如果翻譯正確則保持不變。
源文: {源句子}
機器翻譯: {機器翻譯結果}
修正後:
查看示例
source = 'Catalan'
target = 'English'
source_sentence = 'Rafael Nadal i Maria Magdalena van inspirar a una generació sencera.'
machine_translation = 'Rafael Christmas and Maria the Muffin inspired an entire generation each in their own way.'
text = f"Please fix any mistakes in the following {source}-{target} machine translation or keep it unedited if it's correct.\nSource: {source_sentence} \nMT: {machine_translation} \nCorrected:"
# Rafael Nadal and Maria Magdalena inspired an entire generation.
段落級翻譯
對於段落級翻譯任務,你可以使用以下提示模板:
請將此文本從 {源語言} 翻譯成 {目標語言}。
{源語言}: {段落}
{目標語言}:
查看示例
source = 'English'
target = 'Asturian'
text = """Please translate this text from {} into {}.\n{}: President Donald Trump, who campaigned on promises to crack down on illegal immigration, has raised alarms in the U.S. dairy industry with his threat to impose 25% tariffs on Mexico and Canada by February 2025. This move is part of a broader strategy to declare a national emergency at the southern border to halt illegal migration completely. However, the implications for the agriculture sector, particularly dairy, are significant. Approximately half of the U.S. dairy industry's workforce consists of immigrant labor, many of whom are undocumented. The National Milk Producers Federation estimates that removing immigrant workers could decimate the dairy herd by 2.1 million cows and slash milk production by nearly 50 billion pounds, leading to a dramatic 90.4% increase in milk prices. The complex perspectives of Americans on undocumented workers were highlighted in a Pew Research Center study. While 64% of U.S. adults support legal pathways for undocumented immigrants, 35% oppose it—a gap that has been narrowing recently. Factors influencing public opinion include the belief that immigrants should have jobs and pass security checks, contrasted by concerns about lawbreakers being rewarded, fairness for legal migrants, and resource allocation.
{}:""".format(source, target, source, target)
命名實體識別
對於命名實體識別任務,你可以使用以下提示模板:
分析以下分詞後的文本,並標記包含命名實體的詞元。
使用以下帶有這些命名實體標籤的註釋指南:
- ORG(指命名的團體或組織)
- PER(指個人或命名的人群)
- LOC(指物理地點或自然地標)
- MISC(指不符合標準類別的實體)。
在給定實體的第一個詞元前加上 B-,如果有後續詞元則加上 I-。
如果一個詞元不是命名實體,則將其標記為 O。
輸入: {句子中的單詞列表}
標記後:
查看示例
text = """Analyse the following tokenized text and mark the tokens containing named entities.
Use the following annotation guidelines with these tags for named entities:
- ORG (Refers to named groups or organizations)
- PER (Refers to individual people or named groups of people)
- LOC (Refers to physical places or natural landmarks)
- MISC (Refers to entities that don't fit into standard categories).
Prepend B- to the first token of a given entity and I- to the remaining ones if they exist.
If a token is not a named entity, label it as O.
Input: ['La', 'defensa', 'del', 'antiguo', 'responsable', 'de', 'la', 'RFEF', 'confirma', 'que', 'interpondrá', 'un', 'recurso.']
Marked: """
# [('La', 'O'), ('defensa', 'O'), ('del', 'O'), ('antiguo', 'O'), ('responsable', 'O'), ('de', 'O'), ('la', 'O'), ('RFEF', 'B-ORG'), ('confirma', 'O'), ('que', 'O'), ('interpondrá', 'O'), ('un', 'O'), ('recurso.', 'O')]
語法檢查
要修正語法中的任何錯誤,你可以使用以下提示模板:
請修正以下 {源語言} 句子中的任何錯誤,如果句子正確則保持不變。
句子: {句子}
修正後:
查看示例
source = 'Catalan'
sentence = 'Entonses, el meu jefe m’ha dit que he de treballar els fins de setmana.'
text = f"Please fix any mistakes in the following {source} sentence or keep it unedited if it's correct.\nSentence: {sentence} \nCorrected:"
# Llavors, el meu cap m'ha dit que he de treballar els caps de setmana.
📚 詳細文檔
模型詳情
描述
SalamandraTA-2b-base是在平行數據上對 Salamandra-2b 進行持續預訓練得到的,訓練過程中共處理了4240億個詞元。
架構
屬性 | 詳情 |
---|---|
總參數數量 | 2,253,490,176 |
嵌入參數數量 | 524,288,000 |
層數 | 24 |
隱藏層大小 | 2,048 |
注意力頭數量 | 16 |
上下文長度 | 8,192 |
詞彙表大小 | 256,000 |
精度 | bfloat16 |
嵌入類型 | RoPE |
激活函數 | SwiGLU |
層歸一化 | RMS Norm |
閃存注意力 | ✅ |
分組查詢注意力 | ❌ |
查詢組數量 | 不適用 |
數據
預訓練數據
預訓練語料庫由以加泰羅尼亞語、西班牙語和英語為中心的4240億個詞元的平行數據組成,包括所有歐洲官方語言以及加泰羅尼亞語、巴斯克語、加利西亞語、阿斯圖里亞斯語、阿拉貢語和阿蘭語。它包含6,574,251,526個平行句子對。
這個高度多語言的語料庫主要由來自 OPUS 的數據組成,此外還包括來自 NTEU項目、Aina項目 和其他來源的數據(見:數據來源 和 參考文獻)。在幾乎找不到加泰羅尼亞語 <-> xx 平行數據的情況下,使用 Aina項目的西班牙語 - 加泰羅尼亞語模型 從收集到的西班牙語 <-> xx 語料庫的西班牙語部分生成合成加泰羅尼亞語數據。最終的語言分佈如下:
點擊下面的展開按鈕查看訓練數據中包含的完整語料庫列表。
數據來源
數據集 | 加泰羅尼亞語 - xx 語言 | 西班牙語 - xx 語言 | 英語 - xx 語言 |
---|---|---|---|
AINA | en | ||
ARANESE-SYNTH-CORPUS-BSC | arn | ||
BOUA-SYNTH-BSC | val | ||
BOUMH | val | ||
BOUA-PILAR | val | ||
CCMatrix | eu | ga | |
DGT | bg,cs,da,de,el,et,fi,fr,ga,hr,hu,lt,lv,mt,nl,pl,pt,ro,sk,sl,sv | da,et,ga,hr,hu,lt,lv,mt,sh,sl | |
DOGV-SYNTH-BSC | val | ||
DOGV-PILAR | val | ||
ELRC-EMEA | bg,cs,da,hu,lt,lv,mt,pl,ro,sk,sl | et,hr,lv,ro,sk,sl | |
EMEA | bg,cs,da,el,fi,hu,lt,mt,nl,pl,ro,sk,sl,sv | et,mt | |
EUBookshop | lt,pl,pt | cs,da,de,el,fi,fr,ga,it,lv,mt,nl,pl,pt,ro,sk,sl,sv | cy,ga |
Europarl | bg,cs,da,el,en,fi,fr,hu,lt,lv,nl,pl,pt,ro,sk,sl,sv | ||
Europat | en,hr | no | |
GAITU語料庫 | eu | ||
KDE4 | bg,cs,da,de,el,et,eu,fi,fr,ga,gl,hr,it,lt,lv,nl,pl,pt,ro,sk,sl,sv | bg,ga,hr | cy,ga,nn,oc |
GlobalVoices | bg,de,fr,it,nl,pl,pt | bg,de,fr,pt | |
GNOME | eu,fr,ga,gl,pt | ga | cy,ga,nn |
JRC-Arquis | cs,da,et,fr,lt,lv,mt,nl,pl,ro,sv | et | |
LES-CORTS-VALENCIANES-SYNTH-BSC | val | ||
MaCoCu | en | hr,mt,uk | |
MultiCCAligned | bg,cs,de,el,et,fi,fr,hr,hu,it,lt,lv,nl,pl,ro,sk,sv | bg,fi,fr,hr,it,lv,nl,pt | bg,cy,da,et,fi,hr,hu,lt,lv,no,sl,sr,uk |
MultiHPLT | en, et,fi,ga,hr,mt | fi,ga,gl,hr,mt,nn,sr | |
MultiParaCrawl | bg,da | de,en,fr,ga,hr,hu,it,mt,pt | bg,cs,da,de,el,et,fi,fr,ga,hr,hu,lt,lv,mt,nn,pl,ro,sk,sl,uk |
MultiUN | fr | ||
新聞評論 | fr | ||
NLLB | bg,da,el,en,et,fi,fr,gl,hu,it,lt,lv,pt,ro,sk,sl | bg,cs,da,de,el,et,fi,fr,hu,it,lt,lv,nl,pl,pt,ro,sk,sl,sv | bg,cs,cy,da,de,el,et,fi,fr,ga,hr,hu,it,lt,lv,mt,nl,no,oc,pl,pt,ro,ru,sk,sl,sr,sv,uk |
NÓS真實語料庫 | gl | ||
NÓS合成語料庫 | gl | ||
NTEU | bg,cs,da,de,el,en,et,fi,fr,ga,hr,hu,it,lt,lv,mt,nl,pl,pt,ro,sk,sl,sv | da,et,ga,hr,lt,lv,mt,ro,sk,sl,sv | |
OpenSubtitles | bg,cs,da,de,el,et,eu,fi,gl,hr,hu,lt,lv,nl,pl,pt,ro,sk,sl,sv | da,de,fi,fr,hr,hu,it,lv,nl | bg,cs,de,el,et,hr,fi,fr,hr,hu,no,sl,sr |
OPUS-100 | en | gl | |
StanfordNLP-NMT | cs | ||
Tatoeba | de,pt | pt | |
TildeModel | bg | et,hr,lt,lv,mt | |
UNPC | en,fr | ru | |
PILAR-VALENCIAN-AUTH | val | ||
PILAR-VALENCIAN-SYNTH | val | ||
WikiMatrix | bg,cs,da,de,el,et,eu,fi,fr,gl,hr,hu,it,lt,nl,pl,pt,ro,sk,sl,sv | bg,en,fr,hr,it,pt | oc,sh |
Wikimedia | cy,nn | ||
XLENT | eu,ga,gl | ga | cy,et,ga,gl,hr,oc,sh |
名稱中帶有 "-BSC" 的數據集(例如,BOUA-SYNTH-BSC、DOGV-SYNTH-BSC)是通過使用我們自己的序列到序列模型對現有的單語語料庫進行機器翻譯得到的合成數據集。這些數據集是為模型訓練內部生成的,未發佈。
要查閱帶有相應許可證的數據摘要文檔,請發送電子郵件至 ipr@bsc.es。
參考文獻
- Aulamo, M., Sulubacak, U., Virpioja, S., & Tiedemann, J. (2020). OpusTools and Parallel Corpus Diagnostics. In N. Calzolari, F. Béchet, P. Blache, K. Choukri, C. Cieri, T. Declerck, S. Goggi, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3782–3789). European Language Resources Association. https://aclanthology.org/2020.lrec-1.467
- Chaudhary, V., Tang, Y., Guzmán, F., Schwenk, H., & Koehn, P. (2019). Low-Resource Corpus Filtering Using Multilingual Sentence Embeddings. In O. Bojar, R. Chatterjee, C. Federmann, M. Fishel, Y. Graham, B. Haddow, M. Huck, A. J. Yepes, P. Koehn, A. Martins, C. Monz, M. Negri, A. Névéol, M. Neves, M. Post, M. Turchi, & K. Verspoor (Eds.), Proceedings of the Fourth Conference on Machine Translation (Volume 3: Shared Task Papers, Day 2) (pp. 261–266). Association for Computational Linguistics. https://doi.org/10.18653/v1/W19-5435
- DGT-Translation Memory—European Commission. (n.d.). Retrieved November 4, 2024, from https://joint-research-centre.ec.europa.eu/language-technology-resources/dgt-translation-memory_en
- Eisele, A., & Chen, Y. (2010). MultiUN: A Multilingual Corpus from United Nation Documents. In N. Calzolari
硬件和軟件
訓練框架
SalamandraTA-2b-base是使用NVIDIA的 NeMo框架 進行持續預訓練的,該框架利用PyTorch Lightning在高度分佈式環境中進行高效的模型訓練。
SalamandraTA-2b-instruct是使用 FastChat 生成的。
計算基礎設施
所有模型都在 MareNostrum 5 上進行訓練,這是一臺由巴塞羅那超級計算中心託管和運營的預百億億次級歐洲高性能計算超級計算機。
加速分區由1120個節點組成,具有以下規格:
- 4個Nvidia Hopper GPU,配備64GB HBM2內存
- 2個2.3GHz的英特爾至強8460Y+處理器,每個處理器有32個核心(共64個核心)
- 4個NDR200(每個節點帶寬800Gb/s)
- 512GB主內存(DDR5)
- 460GB NVMe存儲
📄 許可證
本項目採用Apache-2.0許可證。








精選推薦AI模型



