Afrollama V1
模型概述
模型特點
模型能力
使用案例
🚀 AfroLlama3
AfroLlama3是一個專注於處理和生成斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語文本的語言模型。它基於Meta-Llama-3-8B構建,經過特定的訓練和優化,在這些語言的任務上表現出色,能為相關用戶和研究者提供強大的自然語言處理能力。
🚀 快速開始
你可以使用這個筆記本進行推理。我們建議在L4或A100 GPU上進行推理。
✨ 主要特性
- 多語言優化:在斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語任務上有顯著提升的性能。
- 通用語言能力:保留了原始Llama 3模型的通用語言處理能力。
- 針對性優化:針對理解和生成斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語文本進行了優化。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
📚 詳細文檔
模型詳情
AfroLlama3是一個擁有80億參數的語言模型,它建立在meta-llama/Meta-Llama-3-8B的基礎上。該模型經過特別增強,能夠出色地處理和生成斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語文本,旨在提升使用這些語言的用戶和研究者的自然語言理解和生成能力。
模型描述
關鍵特性
- 在斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語任務上有更好的性能表現。
- 保留了原始Llama 3模型的通用語言能力。
- 針對理解和生成斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語文本進行了優化。
訓練過程
AfroLlama的訓練過程主要分為三個階段:
- 基於LoRA的各語言持續預訓練:使用公開可用的各語言語料庫進行持續預訓練,主要關注因果語言建模,即訓練模型根據前文預測下一個標記。在此過程中,我們採用了LoRA技術,凍結了基礎Meta/Llama3模型的參數,並引入了額外的輕量級組件(適配器)。這些適配器專門用於捕捉每種語言的特點、術語和細微差別,且在不同語言中保持相同的LoRA超參數。
- 合併:使用基於Ties(修剪、選擇和符號)的合併方法,將特定語言的預訓練檢查點合併為一個獨立的模型。Ties方法包括三個步驟:
- 重置微調中變化不顯著的參數(修剪):識別在持續預訓練過程中變化不大的參數,並將其重置為原始值,以減少過擬合併提高泛化能力。
- 解決符號衝突(干擾):處理不同訓練示例或目標導致參數符號更新衝突的情況,避免干擾或降低模型性能。
- 僅合併與最終商定符號一致的參數:僅合併或更新那些符號與共識方向(多數符號)一致的參數,有助於減少噪聲並提高模型的整體一致性。
- 基於LoRA的指令微調:
- 在精心策劃的斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語指令及響應數據集上對合並後的模型進行微調。
- 包含特定任務數據,以提高在常見語言任務上的性能。
- 強調在斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語中保持連貫性和上下文理解。
- 納入安全數據集,提高模型生成安全和符合道德規範響應的能力。
- 包含有害內容示例和適當的非有害替代方案。
- 專注於減少偏差,提高模型在斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語語境中對文化敏感性的理解。
指令微調數據集規模:約[331,400個指令 - 響應對]
模型信息
屬性 | 詳情 |
---|---|
開發者 | Jacaranda Health |
模型類型 | Llama |
支持語言 (NLP) | 斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語 |
許可證 | CC BY - NC - SA 4.0 DEED |
模型開發者 | Stanslaus Mwongela, Jay Patel, Sathy Rajasekharan, Lyvia Lusiji, Francesco Piccino, Mfoniso Ukwak, Ellen Sebastian |
應用場景
AfroLlama針對下游任務進行了優化,尤其適用於需要斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語指令數據集的任務。組織可以根據特定領域進一步微調該模型,潛在應用領域包括:
- 特定領域的問答:為特定領域的問題提供準確的答案。
- 智能助手聊天功能:在醫療保健、農業、法律、教育、旅遊和酒店、公共服務、金融、通信、客戶服務、商業等領域提供智能對話服務。
樣本評估提示
提示 | AfroLlama響應 | Meta - Llama - 3 - 8B - Instruct響應 |
---|---|---|
斯瓦希里語:Andika hadithi ya bwana sungura (翻譯:寫一個關於兔子先生的故事) |
從前,有一隻聰明的兔子,名叫兔子先生。他是森林裡最聰明的生物,以其明智的建議和智慧而聞名。兔子在森林裡生活了很多年,對周圍的世界瞭解很多。每天,他都會花時間探索森林,結識不同的生物,並學習新的信息。兔子先生和他遇到的每個人都很友好。如果有人需要建議或指導,他們會去找兔子先生。他也很慷慨和樂於助人,會提供明智而有見地的建議。兔子先生也是森林的偉大守護者。他保護樹木和植物免受傷害,確保沒有人在他不知情的情況下經過他的領地。兔子先生深受許多人的喜愛,他的遺產將通過代代相傳的故事延續下去。 |
寫一個關於兔子先生的故事! |
約魯巴語:Kọ itan nipa Ọgbọn Ehoroa (翻譯:講述兔子先生的故事) |
從前,有一隻充滿冒險精神的野兔。他總是想了解他小村莊以外的世界和他能看到的奇蹟。有一天,他決定開始一次偉大的旅程。他去了遙遠的地方,看到了許多奇蹟,如山、河流和森林。他甚至遇到了像龍和神奇動物這樣的神秘生物。經過漫長的旅程,他回到了他的小村莊,快樂而感激地生活著,為他所看到的一切。 |
我認為你是讓我講一個關於Ogbọn Ehoroa的故事。這是一個簡短的故事:Ogbọn Ehoroa是一位聰明善良的女士,她住在一個被鬱鬱蔥蔥的綠色森林和連綿起伏的山丘環繞的小村莊裡。她以其出色的烹飪技巧而聞名,尤其是她美味的棕櫚酒湯。有一天,一場嚴重的乾旱襲擊了這片土地,村民們難以找到食物和水。莊稼枯萎了,河流乾涸了。村民們很擔心,不知道該怎麼辦。Ogbọn Ehoroa召集了村裡的長老們開會,並提出了一個解決方案。她建議他們一起建造一個新的灌溉系統,把附近小溪的水引到乾涸的田地。村民們一開始很懷疑,但Ogbọn Ehoroa的堅持和決心最終說服了他們。他們不知疲倦地工作了幾天,挖掘溝渠和建造運河。令每個人驚訝的是,這個計劃成功了!莊稼又開始生長了,村民們有了足夠的食物。作為感激之情的象徵,村民們決定慶祝Ogbọn Ehoroa的勇敢和智慧。他們準備了一場盛大的宴會,還有她著名的棕櫚酒湯。從那天起,Ogbọn Ehoroa被譽為英雄,成為希望和堅韌的象徵。你覺得呢?你想讓我繼續這個故事還是開始一個新的故事? |
豪薩語:Rubuta labarin Mista Zomo (翻譯:寫一個關於兔子先生的故事) |
從前,有一隻名叫兔子先生的兔子,他住在一所大房子裡。他非常快樂,喜歡玩耍,但他經常感到孤獨,因為沒有人可以和他一起分享遊戲。有一天,他決定出去找朋友。他去了不同的地方,直到遇到了一隻名叫黛西的兔子。兔子先生和黛西立刻成了朋友,他們一起度過了剩下的一天。從那天起,兔子先生再也沒有感到孤獨——他總是有一個朋友可以分享他的快樂。 |
我明白你在問豪薩語短語“Rubuta labarin Mista Zomo”。“Rubuta”的意思是“寫”,“labari”的意思是“故事”或“新聞”,“Mista Zomo”可能是一個專有名詞,可能是一個頭銜或名字。所以,這個短語的一個可能的翻譯是“寫兔子先生的故事”或“寫兔子先生的新聞”。你能提供更多關於你想用這個短語實現什麼目標的背景信息或信息嗎?我很樂意進一步幫助你! |
科薩語:Bhala ibali ngoMnumzana Mqhagi (翻譯:講述Mqhagi先生的故事) |
很久以前,有一個名叫Scrooge先生的人,他對任何事情都完全不感興趣。他對錢有極大的興趣,並決心保住他所有的財富。他總是在尋找省錢的方法,即使這意味著削減小開支或把他的錢存在一個永遠不會動用的銀行裡。有一天,Scrooge先生髮現他有數百美元的貴重物品和其他珍貴的東西。他滿心歡喜,決定用這筆錢進行有益的投資。他建立了一個成功的企業,變得富有起來。Scrooge先生成了一個富有的人,對他的新生活感到滿足。但隨著時間的推移,Scrooge先生意識到他的財富從未真正讓他滿足。他想要擁有更多的錢,但沒有人能幫助他找到更多。最終,他通過擁有更多的錢找到了滿足感,但他發現這並沒有那麼重要。Scrooge先生學到了財富並不能帶來真正的幸福。他所獲得的一切只是有用的東西,並沒有什麼更重要的。 |
看起來你在說祖魯語!“Bhala ibali ngoMnumzana Mqhagi”大致翻譯為“講個故事,長老Mqhagi”。在傳統的祖魯文化中,“Mnumzana”是一位受人尊敬的長者或智者,他通過自己的經歷獲得了知識和智慧。短語“Bhala ibali”的意思是“講個故事”,它通常用於要求某人與他人分享他們的經歷、智慧或教誨。所以,在這種情況下,你是在要求長老Mqhagi分享一個故事或傳授他的智慧! |
祖魯語:Bhala indaba yoMnumzane Unogwaja (翻譯:寫一個關於兔子先生的故事) |
從前,有一隻名叫兔子先生的兔子。他是一個渺小而謙遜的生物,但有著強烈的冒險精神和好奇心。有一天,他決定開始他的第一次旅程。他穿過一片廣闊的綠色森林,一路上和其他動物交朋友。他渡過一條洶湧的河流,穿過一片黑暗而可怕的森林,並凝視著夜空中的星星。最後,兔子先生來到了一個小村莊。他對他遇到的友好善良的人們感到驚訝。他享受著他們做的美味食物和甜點。兔子先生在那裡住了很長時間,最終成為了村裡其他動物的朋友。他從他們那裡學到了很多,最後帶著對生活的新感激和對他人的善意回到了家。 |
這是一個傳統的祖魯語短語!“Bhala indaba yoMnumzane Unogwaja”大致翻譯為:“講述Unogwaja先生的事情”。在祖魯文化中,“indaba”的意思是“事情”或“新聞”,“yoMnumzane”是一種尊敬地稱呼某人的方式,使用頭銜“Mnumzane”,意思是“先生”或“領主”。所以,這個短語本質上是說“告訴我關於Unogwaja先生的新聞”。Unogwaja是一位傳奇的祖魯戰士和酋長,他在盎格魯 - 祖魯戰爭中發揮了重要作用。這個短語可能是用來指與他的生活或行為相關的特定故事或新聞。你想了解更多關於Unogwaja或祖魯文化的信息嗎? |
英語:Write a story about Mr.Hare |
從前,有一隻調皮的兔子,名叫野兔先生,他住在森林裡的一個小洞穴裡。他非常愛冒險,喜歡探索,但他總是小心翼翼,以免被抓住。有一天,在探索時,他偶然發現了一座從未有人見過的巨大城堡。他決定走近看看,很快就發現自己置身於一個宏偉的大廳裡。他探索了整個城堡,直到偶然發現了一個藏有魔法寶石的秘密房間。他迅速拿起寶石就跑了,再也沒有回頭。從那時起,野兔先生過著冒險的生活,用他新發現的魔法幫助他探索世界。 |
從前,在兩棵巨大的橡樹之間的一片陽光明媚的草地上,住著一隻聰明而機智的兔子,名叫野兔先生。他是一個溫柔的靈魂,眼睛裡閃爍著光芒,腳步輕快。野兔先生每天都躺在溫暖的草地上,嚼著多汁的三葉草,看著世界流逝。他最喜歡的就是坐下來觀察草地上其他生物的滑稽動作。有一天,當他懶洋洋地嚼著一片特別多汁的三葉草時,他看到一群吵鬧的田鼠四處亂竄,互相追逐,高興地吱吱叫著。野兔先生暗自笑了笑,想起自己曾經也像那些小老鼠一樣無憂無慮、精力充沛。當他坐在那裡陷入沉思時,一隻小鹿走進了草地,她大大的棕色眼睛打量著這個熱鬧社區的景象和聲音。她看到了野兔先生,小跑著過來打招呼。“你好啊,小傢伙!”野兔先生叫道,他的長耳朵興奮地豎了起來。“是什麼風把你吹到我們這片地方來了?”小鹿解釋說她是新來這片草地的,正在找朋友一起玩。野兔先生的臉上露出了溫暖的笑容。“啊,嗯,你找對地方了!我知道有一群搗蛋鬼會很樂意和你一起玩的。”野兔先生甩了甩他毛茸茸的尾巴,帶著小鹿在草地上開始了一場瘋狂的冒險。他們追逐蝴蝶,在高高的草叢後面玩捉迷藏,甚至偶然發現了一片隱藏的甜美成熟的漿果。當太陽開始落山,金色的光芒灑在草地上時,野兔先生在小鹿旁邊坐了下來,感到滿足和充滿喜悅。 |
非預期使用場景
開發的大語言模型(LLM)能力僅用於研究、社會公益和內部使用目的。對於商業使用和分發,建議組織/個人聯繫Jacaranda Health。為確保AfroLlama的道德和負責任使用,我們制定了一套指南,將活動和實踐分為三個主要類別:禁止行為、高風險活動和欺騙性做法。用戶通過理解和遵守這些指令,可以為更安全、更值得信賴的環境做出貢獻。
- 禁止行為:
- 非法活動:避免宣傳暴力、兒童剝削、人口販賣和其他犯罪行為。
- 騷擾和歧視:不得進行欺凌、威脅或歧視行為。
- 未經授權的職業活動:不得從事無執照的專業活動。
- 數據濫用:在處理個人數據時需獲得適當的同意。
- 侵犯權利:尊重第三方權利。
- 惡意軟件創建:避免創建有害軟件。
- 高風險活動:
- 危險行業:不得在軍事、核或間諜領域使用。
- 武器和毒品:避免參與非法武器或毒品活動。
- 關鍵系統:不得在關鍵基礎設施或運輸技術中使用。
- 宣傳傷害:避免宣傳自殘或暴力的內容。
- 欺騙性做法:
- 虛假信息:避免創建/宣傳欺詐或誤導性信息。
- 誹謗和垃圾郵件:避免發佈誹謗性內容和未經請求的消息。
- 冒充:未經授權不得冒充他人。
- 虛假陳述:不得對AfroLlama的輸出進行虛假聲明。
- 虛假在線互動:不得宣傳虛假的在線互動。
偏差、風險和侷限性
AfroLlama是一項充滿潛力的前沿技術,但也存在一些固有的風險。到目前為止,廣泛的測試主要集中在斯瓦希里語、科薩語、祖魯語、約魯巴語、豪薩語和英語上,仍有大量未知的場景有待探索。因此,與其他大語言模型一樣,AfroLlama的輸出可預測性仍然難以捉摸,在用戶提示下,它偶爾可能會生成不準確、有偏差或其他令人反感的響應。
考慮到這一點,在將AfroLlama部署到任何應用程序之前,開發者必須根據其特定用例的獨特需求,進行認真的安全測試和細緻的微調。
聯繫我們
如有任何問題、反饋或商業諮詢,請發送郵件至ai@jacarandahealth.org。



