模型概述
模型特點
模型能力
使用案例
🚀 FastwebMIIA - 意大利人工智能模型
FastwebMIIA是由Fastweb開發的意大利人工智能模型,具備70億參數,基於自迴歸Transformer架構構建。該模型專為意大利語和英語設計,支持長文檔處理,在多種任務中表現出色,適用於非商業研究、教育及內部使用,也可通過定製商業許可用於商業用途。
🚀 快速開始
環境要求
該模型使用transformers==4.45.2
進行訓練和測試。
代碼示例
import transformers
import torch
model_id = "Fastweb/FastwebMIIA-7B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="cuda",
)
messages = [
{"role": "system", "content": "Sei FastwebMIIA, il chatbot italiano sviluppato da Fastweb."},
{"role": "user", "content": "Ciao!"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
repetition_penalty=1.1,
top_p=0.9,
temperature=0.1
)
print(outputs[0]["generated_text"][-1])
# output: {'role': 'assistant', 'content': 'Ciao! Come posso aiutarti oggi?'}
✨ 主要特性
- 多語言支持:支持意大利語和英語,適用於不同語言環境。
- 長上下文處理:支持16k的上下文窗口,能夠處理長文檔、多輪對話和複雜查詢。
- 高效編碼:採用RoPE(旋轉位置嵌入)在注意力機制中高效編碼位置信息。
- 定製分詞器:由Fastweb訓練的分詞器,針對意大利語、英語和主要編程語言進行了優化,總詞彙量達50,000個標記。
📦 安裝指南
暫未提供具體安裝步驟,可參考上述代碼示例在合適的環境中使用。
💻 使用示例
基礎用法
import transformers
import torch
model_id = "Fastweb/FastwebMIIA-7B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="cuda",
)
messages = [
{"role": "system", "content": "Sei FastwebMIIA, il chatbot italiano sviluppato da Fastweb."},
{"role": "user", "content": "Ciao!"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
repetition_penalty=1.1,
top_p=0.9,
temperature=0.1
)
print(outputs[0]["generated_text"][-1])
# output: {'role': 'assistant', 'content': 'Ciao! Come posso aiutarti oggi?'}
高級用法
暫未提供高級用法示例。
📚 詳細文檔
模型概述
FastwebMIIA是一個基於自迴歸Transformer架構的大語言模型,具有70億參數。它專為意大利語和英語設計,在意大利文化背景下表現出色。模型在精心策劃的主要為意大利語的語料庫上進行訓練,完全符合歐盟人工智能法案和國家法規。
模型訪問
- 本地部署(低代碼工具):可通過低代碼平臺在企業環境中進行商業部署,適合有嚴格數據治理或合規需求的組織。如需商業演示或瞭解企業部署詳情,請聯繫
Attivazione.FastwebMIIA@fastweb.it
。 - Hugging Face:模型權重和配置文件在Hugging Face上公開提供,僅用於個人非專業研究活動(科學或學術,理論或應用,僅用於信息目的)和公司內部非商業用途。用戶可在非商業許可下使用Hugging Face的工具和託管基礎設施下載、微調或部署模型。
硬件和軟件
FastwebMIIA在專有的NVIDIA H100 GPU集群上進行訓練,該集群針對大規模分佈式訓練進行了優化。訓練工作流由MLDE(機器學習開發環境)和LLMFoundry管理,處理數據處理、實驗跟蹤和可擴展模型訓練。此設置使得能夠在包含數萬億標記的語料庫上對70億參數的模型進行預訓練和微調。但不保證與被許可人使用的特定環境、操作系統、硬件或軟件兼容。
訓練詳情
架構細節
超參數 | 值 |
---|---|
層數 | 32 |
注意力頭數量 | 32 |
頭大小 | 128 |
鍵值頭數量 | 8 |
隱藏維度大小 | 4096 |
中間(MLP)大小 | 14,336 |
MLP激活函數 | SiLU |
MLP類型 | 標準 |
注意力丟棄率 | 0.0 |
MLP/注意力偏置 | 無 |
歸一化類型 | RMSNorm |
RMSNorm epsilon | 1e-5 |
詞彙量大小 | 50,270 |
序列長度(上下文窗口) | 16,384 |
旋轉位置嵌入類型 | LLaMA v3風格 |
旋轉基數(rope theta) | 500,000 |
旋轉縮放因子 | 8.0 |
高低頻rope因子 | 4.0 / 1.0 |
權重初始化範圍 | ±0.02 |
綁定詞嵌入 | 無 |
數據類型 | bfloat16 |
總參數數量 | 73.9億 |
分詞器
分詞器詞彙量為50260,通過字節對編碼(BPE)算法訓練,使用Transformers庫提供的實現。包括50,000個通過BPE獲得的標記、256個代表所有字節值的標記和4個特殊標記(BOS、EOS、PAD、UNK)。分詞器訓練集是最高質量數據的子集,經過徹底清理和人工檢查,涵蓋意大利語、英語和編程語言。
分詞器生育率
分詞器生育率是評估分詞器性能的指標,通過計算生成的標記數量與原始文本中單詞數量的比率來量化分詞器表示文本的效率。以下是在2022年3月意大利維基百科數據集的子集(1%)上計算的生育率值:
模型 | 標記數量 | 生育率 |
---|---|---|
Almawave/Velvet-14B | 126976 | 1.537129 |
Fastweb/FastwebMIIA-7B | 50270 | 1.569404 |
iGeniusAI/Italia-9B-Instruct-v0.1 | 50003 | 1.589896 |
sapienzanlp/Minerva-7B-instruct-v1.0 | 51203 | 1.620168 |
google/gemma-2-9b-it | 256000 | 1.708481 |
utter-project/EuroLLM-9B-Instruct | 128000 | 1.723624 |
mistralai/Ministral-8B-Instruct-2410 | 131072 | 1.771119 |
meta-llama/Llama-3.1-8B-Instruct | 128256 | 1.970075 |
microsoft/Phi-3-small-8k-instruct | 100352 | 1.974537 |
Qwen/Qwen2.5-7B-Instruct | 151665 | 2.020880 |
ibm-granite/granite-3.1-8b-instruct | 49155 | 2.386821 |
訓練數據
FastwebMIIA在約1.5 * 2 * 10^12個文本標記上進行預訓練,結合了公開可用和專有來源。語料庫主要由意大利語和英語內容組成,還有少量其他歐洲和非歐洲語言的內容。語言組成優先考慮意大利語,以支持該語言的強大性能。數據涵蓋廣泛的領域,包括文學、科學、編程、歷史、法律和常識,以及對話和編輯寫作的示例。僅使用基於文本的數據,不包括多模態輸入(如圖像、音頻或視頻)。微調涉及開放指令微調數據集和Phi系列模型生成的合成示例的混合。使用FastwebMIIA時,不存儲提示數據,不記錄用戶輸入到模型的數據,確保不收集任何個人身份信息(PII),也不將用戶數據用於訓練目的。
侷限性和偏差
FastwebMIIA是為協助各種對話和生成任務而開發的大語言模型。儘管在訓練過程中已盡力負責地進行數據過濾和整理,但仍需注意一些重要侷限性。模型可能生成事實不準確、誤導性或不完整的響應,不具備對世界的真正理解,可能產生看似合理但錯誤的輸出。在某些情況下,可能反映訓練數據中存在的社會、文化或歷史偏差,包括可能產生敏感、刻板或令人反感的響應。因此,不能將FastwebMIIA視為權威信息來源或專業判斷的替代品。此外,模型的行為可能因提示的措辭而異,不能可靠地預測或考慮所有上下文或價值觀。其輸出應進行批判性評估,特別是在公平性、安全性或準確性至關重要的領域。
預期用途
FastwebMIIA是一個純文本語言模型,適用於聊天輔助、內容生成、摘要和信息提取等任務。旨在用於研究、開發和集成到具有適當保障措施的人工智能應用中。
超出範圍或禁止使用
FastwebMIIA僅用於合法用途,不得用於非法或欺詐活動,違反其可接受使用政策,生成有害或欺騙性內容,或在沒有人工監督的高風險領域運行。具體而言,不得用於違反法律法規、進行未經授權的數據收集、從事非法活動(如虛假信息、操縱、歧視或侵犯隱私)、未經同意對個人進行畫像、利用年齡或社會經濟地位的漏洞、基於社會行為不公正地對個人進行分類、進行預測性警務或不加區別地抓取面部圖像以擴展識別數據庫等。此列表僅為示例,並非詳盡無遺。被許可人對模型的使用方式及其使用結果負全部責任,包括與被許可人特定環境、工具或內容的任何配置或交互。
報告問題
為確保FastwebMIIA模型的負責任使用,歡迎報告模型的不當使用、意外行為或對模型輸出的擔憂。如果遇到任何問題或對模型的使用有反饋,請聯繫assistenza.FastwebMIIA@fastweb.it
。您的輸入有助於持續改進,並幫助我們維護安全和道德標準。
評估
模型使用Hugging Face的lm-eval框架進行評估,這是一個標準化和可重複的語言模型基準測試套件。該工具允許在任務和語言之間進行一致的模型性能比較,為多語言和特定領域的評估提供可靠依據。本次評估重點關注專門為意大利語設計或改編的基準測試,涵蓋測試推理、理解和常識的任務:
- HellaSwag IT:意大利語中用於完成推理和文本完成的多項選擇任務。
- ARC IT(AI2推理挑戰):翻譯成意大利語的科學問題多項選擇基準測試。
- ARC Challenge MT IT:ARC挑戰的多語言改編版本,專注於意大利語。
- MMLU IT:翻譯成意大利語的大規模多任務語言理解數據集,測試廣泛的學術和文化知識。
- Global MMLU IT:MMLU的擴展版本,涵蓋意大利語中的其他主題和領域。
- XCOPA IT:用於因果推理的多語言基準測試,評估意大利語中的“為什麼”問題。
這個全面的基準測試套件為模型在意大利語中的性能提供了有力評估,評估其在各種主題和場景下的理解、推理和準確回答能力。
常識基準測試得分
任務 | 指標 | 5次射擊得分 | 0次射擊得分 |
---|---|---|---|
arc_challenge_mt_it | acc_norm | 0.5 | 0.4317 |
arc_it | acc_norm | 0.5158 | 0.4559 |
global_mmlu_it | acc | 0.615 | 0.5525 |
hellaswag_it | acc_norm | 0.6453 | 0.6453 |
m_mmlu_it | acc | 0.5707 | 0.5293 |
xcopa_it | acc | 0.784 | 0.774 |
模型更新
模型的新版本將在此頁面發佈,用戶需要查看最新版本。提供者不對使用過時版本的模型負責。被許可人有責任確保使用最新版本,以避免與過時模型相關的潛在問題或限制。
🔧 技術細節
FastwebMIIA基於自迴歸(因果,僅解碼器)Transformer架構,結合旋轉位置嵌入,使用下一個標記預測目標進行訓練。模型使用定製的分詞器,針對意大利語、英語和主要編程語言進行了優化,總詞彙量為50,000個標記。採用RoPE(旋轉位置嵌入)在注意力機制中高效編碼位置信息,支持16k的上下文窗口。
📄 許可證
FastwebMIIA可在非商業許可下使用,明確允許用於非商業研究、教育和內部使用;也可通過定製商業許可用於任何商業用途。使用模型前,需接受FastwebMIIA的非商業許可、可接受使用政策(AUP)和其他相關文檔。
⚠️ 重要提示
本倉庫公開可訪問,但需接受相關條件才能訪問其文件和內容。通過下載、訪問和使用模型,即表示完全接受FastwebMIIA的非商業許可、可接受使用政策(AUP)和其他相關文檔。如不同意許可和相關文檔中的條款和條件,不得下載或使用模型,並應刪除可能已有的任何副本。
💡 使用建議
模型輸出應進行批判性評估,特別是在公平性、安全性或準確性至關重要的領域。遇到任何問題或有反饋,請聯繫
assistenza.FastwebMIIA@fastweb.it
。



