Italia-9B-Instruct-v0.1開源大語言模型 - 精準理解意語文化，英語翻譯也出色

首頁

Italia 9B Instruct V0.1

由iGeniusAI開發

Italia 9B 是 iGenius 開發的開源大語言模型，專為意大利語設計，理解意大利語的語言和文化細微差別，在英語和翻譯任務中也表現出色。

大型語言模型

Transformers

開源協議:MIT #意大利語優化 #企業級LLM #文化細微理解

下載量 8,624

發布時間 : 7/4/2024

模型概述

Italia 9B 是一個基於 90 億參數的 Transformer 架構的基礎大語言模型，專為公共和私營部門的企業設計，能夠提供安全、高效和準確的人工智能解決方案。

模型特點

專為意大利語設計

Italia 9B 專門針對意大利語進行訓練，能夠理解意大利語的所有語言和文化細微差別。

高性能訓練

在 Leonardo 超級計算機上進行大規模訓練和微調，該計算機是世界上最先進、性能最高的計算基礎設施之一。

多數據來源訓練

使用數萬億個意大利語標記從頭開始訓練，數據來源包括公共資源、合成數據和商業合作伙伴提供的特定領域內容。

先進的後訓練過程

經過監督微調（SFT）和直接偏好優化（DPO）等後訓練過程，增強了指令遵循能力並確保了強大的安全措施。

模型能力

意大利語文本生成

英語文本生成

翻譯任務

指令遵循

自然語言理解

邏輯推理

使用案例

企業應用

客戶服務

用於企業客戶服務，提供意大利語和英語的自動化響應。

高效、準確的客戶交互

內容生成

生成意大利語和英語的商業內容，如報告、郵件等。

高質量的內容輸出

翻譯任務

意英翻譯

將意大利語文本翻譯為英語，或反之。

高質量的翻譯輸出

🚀 Italia 9B - Instruct v0.1

Italia 9B - Instruct v0.1 是 iGenius 開發的開源大語言模型，專為公共和私營部門的企業設計。它基於 90 億參數的 Transformer 架構，能精準理解意大利語的語言和文化細微差別，在英語和翻譯任務中也表現出色。

Italia 9B

🚀 快速開始

使用 transformers 庫

from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM

model_id = "iGeniusAI/Italia-9B-Instruct-v0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)

t_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto",
    return_full_text=False, 
    top_p = 0.95, 
    top_k = 50
)

SYSTEM_PROMPT = """Il tuo nome è Modello Italia. Tu sei un'intelligenza artificiale, un modello di linguaggio naturale addestrato da iGenius su Leonardo, uno dei supercomputer più potenti al mondo."""
TEMPERATURE = 0.3
MAX_NEW_TOKENS = 250

messages = [
    {"role": "system", "content": SYSTEM_PROMPT},
    {"role": "user", "content": "Ciao come stai?"},
]

conv_template = tokenizer.apply_chat_template(
        messages,
        tokenize=False
    )

outputs = t_pipeline(
    conv_template,
    max_new_tokens=MAX_NEW_TOKENS,
    do_sample=True,
    temperature=TEMPERATURE,
    num_return_sequences=1,
)
print(outputs[0]["generated_text"])

聊天格式

Italy-9B Instruct 是一個經過微調的模型，用於遵循用戶提供的指令。為了獲得最佳效果，需要使用以下聊天格式：

<|system|>
Your system prompt.</s>
<|user|>
user request.</s>
<|assistant|>

例如：

<|system|>
Il tuo nome è Modello Italia. Tu sei un'intelligenza artificiale, un modello di linguaggio naturale addestrato da iGenius su Leonardo, uno dei supercomputer più potenti al mondo.</s>
<|user|>
Scrivi una funzione python che genera numeri random.</s>
<|assistant|>

其中，模型會在 <|assistant|> 之後生成文本。</s> 是 EOS 標記。

✨ 主要特性

專為意大利語設計：Italia 9B 專門針對意大利語進行訓練，能夠理解意大利語的所有語言和文化細微差別，並且在英語和翻譯任務中也表現出色。
高性能訓練：藉助與 Cineca 的合作，在 Leonardo 超級計算機上進行大規模訓練和微調，該計算機是世界上最先進、性能最高的計算基礎設施之一。
多數據來源訓練：使用數萬億個意大利語標記從頭開始訓練，數據來源包括公共資源、合成數據和商業合作伙伴提供的特定領域內容。
先進的後訓練過程：經過監督微調（SFT）和直接偏好優化（DPO）等後訓練過程，增強了指令遵循能力並確保了強大的安全措施。

📦 安裝指南

文檔未提及具體安裝步驟，可參考上述代碼示例中使用 transformers 庫加載模型的方法。

💻 使用示例

基礎用法

from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM

model_id = "iGeniusAI/Italia-9B-Instruct-v0.1"

model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_id)

t_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto",
    return_full_text=False, 
    top_p = 0.95, 
    top_k = 50
)

SYSTEM_PROMPT = """Il tuo nome è Modello Italia. Tu sei un'intelligenza artificiale, un modello di linguaggio naturale addestrato da iGenius su Leonardo, uno dei supercomputer più potenti al mondo."""
TEMPERATURE = 0.3
MAX_NEW_TOKENS = 250

messages = [
    {"role": "system", "content": SYSTEM_PROMPT},
    {"role": "user", "content": "Ciao come stai?"},
]

conv_template = tokenizer.apply_chat_template(
        messages,
        tokenize=False
    )

outputs = t_pipeline(
    conv_template,
    max_new_tokens=MAX_NEW_TOKENS,
    do_sample=True,
    temperature=TEMPERATURE,
    num_return_sequences=1,
)
print(outputs[0]["generated_text"])

高級用法

文檔未提及高級用法示例，可根據實際需求調整代碼中的參數，如 max_new_tokens、temperature 等。

📚 詳細文檔

模型介紹

Italia 是 iGenius 開發的開源大語言模型家族，專為公共和私營部門的企業設計。該系列的第一個模型是 Italia 9B，它是一個基於 90 億參數的 Transformer 架構的基礎大語言模型，與 Cineca 合作開發，並在 MIT 許可證下發布。

硬件和軟件

得益於與 Cineca 的合作，能夠在 Leonardo 超級計算機上使用數千個 GPU 對 Italia 9B 進行大規模訓練和微調，該計算機是世界上最先進、性能最高的計算基礎設施之一。

訓練

Italia 9B 使用數萬億個意大利語標記從頭開始訓練，使用了多種數據來源：公共資源、合成數據和商業合作伙伴提供的特定領域內容。超過 90% 的預訓練數據是意大利語文本，其餘部分是英語。這使得 Italia 能夠完全精通英語，並在翻譯任務中表現出色。此外，模型還經過了後訓練過程，包括監督微調（SFT）和直接偏好優化（DPO），以增強指令遵循能力並確保強大的安全措施。

基準測試

目前所有用於評估語言模型性能的基準測試都是專門為英語生態系統設計的。正在與意大利的領先機構合作開發專門用於評估意大利本土模型的基準測試系統。不過，Italia 9B 在評估常識、語言理解和邏輯推理的基準測試中，在類似規模的模型中表現出了接近最先進的性能。

預期用途

Italia 9B 是一個用於商業和研究目的的大語言模型，專注於意大利語。它適用於各種自然語言處理任務，尤其在企業環境中表現出色，能夠提供安全、高效和準確的人工智能解決方案。

使用範圍外情況

Italia 不應用於以下相關應用：

違法活動：任何可能違反當地、國家或國際法律法規的使用。
侵犯隱私：任何可能在未經個人同意的情況下侵犯個人隱私或個人數據的使用。
惡意活動：旨在傷害、欺騙或剝削個人或群體的應用，包括但不限於網絡釣魚、欺詐或網絡攻擊。
傳播虛假信息：傳播虛假或誤導性信息，特別是在健康、安全和公共政策等敏感領域。
歧視性做法：基於種族、性別、年齡、國籍或其他受保護特徵對個人進行歧視或不公平對待的使用。
編碼任務：與生成或解釋源代碼相關的任務。

侷限性

Italia 是一項新技術，使用時存在風險。目前的測試無法涵蓋所有場景，因此模型可能會產生不準確、有偏見或其他令人反感的響應。建議開發人員在部署任何基於 Italia 的應用程序之前進行安全測試。

🔧 技術細節

訓練數據

Italia 9B 使用數萬億個意大利語標記從頭開始訓練，數據來源包括公共資源、合成數據和商業合作伙伴提供的特定領域內容。預訓練數據的截止日期為 2023 年 12 月，確保模型在訓練時具備最新的語言和上下文知識。

後訓練過程

模型經過了監督微調（SFT）和直接偏好優化（DPO）等後訓練過程，增強了指令遵循能力並確保了強大的安全措施。

基準測試

正在與意大利的領先機構合作開發專門用於評估意大利本土模型的基準測試系統。目前，Italia 9B 在評估常識、語言理解和邏輯推理的基準測試中，在類似規模的模型中表現出了接近最先進的性能。

📄 許可證

該模型採用 MIT 許可證發佈，許可證鏈接：https://huggingface.co/iGeniusAI/Italia-9B-Instruct-v0.1/blob/main/LICENSE。使用時需要注意以下幾點：

歸屬要求：MIT 許可證要求在任何分發的文件中包含完整的許可證文本和版權聲明。在使用該模型的任何項目中都必須包含版權聲明和 MIT 許可證。
責任限制：MIT 許可證包含免責條款，限制了作者或貢獻者對因使用該軟件而造成的任何損害的責任。這意味著該軟件的使用不提供任何保證或責任。
修改共享：MIT 許可證不要求共享對軟件所做的修改。用戶可以自由修改模型進行微調，而無需將這些修改與社區共享。
兼容性：MIT 許可證具有高度的寬鬆性，與許多其他開源許可證兼容。不過，在將 MIT 許可證與其他軟件或庫一起使用時，需要確保其兼容性。

貢獻者

iGenius 團隊。特別感謝 Cineca 及其團隊在開發模型過程中提供的寶貴支持和使用 Leonardo 超級計算機。

模型信息表格

屬性	詳情
模型類型	開源大語言模型
訓練數據	公共資源、合成數據、商業合作伙伴提供的特定領域內容，超過 90% 為意大利語文本，其餘為英語
訓練硬件	Leonardo 超級計算機
後訓練過程	監督微調（SFT）、直接偏好優化（DPO）
許可證	MIT 許可證
模型發佈日期	2024 年 7 月 4 日