🚀 SeaLMMM-7B - 面向东南亚的大型多语言多模态模型
SeaLMMM-7B 是一款专为东南亚地区打造的多语言多模态模型,能够出色处理文本和视觉任务,为该地区提供强大的语言和视觉处理能力。
SeaLLM 将具备“视觉”能力!
官网
🤗 技术备忘录
🤗 演示
GitHub
技术报告
我们推出并 展示 了 SeaLMMM 的首个版本——这是一个统一的多语言多模态模型,在东南亚多种语言的纯文本和视觉任务中均表现出色。
SeaLMMM-7B 的能力
- SeaLMMM-7B 是在 纯文本任务 中表现最强的 70 亿参数视觉语言模型之一,其性能与 SeaLLM-7B-v2 相近,是一个以文本处理为主、视觉处理为辅的模型。
- SeaLMMM-7B 能够处理大多数东南亚语言,比仅支持英语的 LLava、双语(英语 + 中文)的 Qwen-VL 或 Yi-VL 具有更强的多语言处理能力。
- 与 LLava 或其他专门的视觉语言模型不同,这些模型通常要求在对话开始时就提供一张图像,而 SeaLMMM-7B 可以在对话开始时无缝处理纯文本对话,并在对话过程中处理视觉指令,同时支持话题和语言的切换。
- SeaLMMM-7B 可以进行多图像生成或上下文视觉学习,在这种情况下,应应用 Better llava next 来启用此功能。
发布版本与演示
使用条款和许可:
通过使用我们发布的权重、代码和演示,您同意并遵守我们 SeaLLMs 使用条款 中规定的条款和条件。
免责声明:
我们必须指出,尽管我们以开放的方式发布了模型权重、代码和演示,与其他预训练语言模型类似,并且我们已尽力进行红队测试、安全微调与强化,但我们的模型仍存在潜在风险,包括但不限于不准确、误导性或潜在有害的生成内容。
开发者和相关利益方在部署前应自行进行红队测试并提供相关安全措施,且必须遵守当地的管理规定和法规。
在任何情况下,作者均不对因使用发布的权重、代码或演示而产生的任何索赔、损害或其他责任负责。
此标志由 DALL-E 3 生成。
概述
SeaLMMM-7B-v0.1 是 SeaLLM-7B-v2 的多模态扩展版本。
它采用了 Llava-1.6(Llava-NEXT)架构。
该模型通过将 SeaLLM 的多语言纯文本数据集与 Llava-1.5 的英语视觉数据、内部合成生成的多语言多模态视觉数据以及开源数据(如 ThaiIDCardSynt)进行联合训练得到。
英文视觉问答任务
多模态模型 |
VQA2 |
GQA |
Vizwiz |
SQA-IMG |
TextQA |
Qwen-VL-Chat |
78.20 |
57.50 |
38.90 |
68.20 |
61.50 |
Llava-1.5-7b |
78.50 |
62.00 |
50.00 |
66.80 |
58.20 |
Llava-1.5-13b |
80.00 |
63.30 |
53.60 |
71.60 |
61.30 |
SeaLMMM-7B-v0.1 |
80.14 |
61.58 |
58.00 |
71.79 |
63.47 |
多语言纯文本世界知识
我们按照推荐的默认设置在 3 个基准测试中对模型进行评估:针对英语的 5 样本 MMLU 测试,以及针对英语、中文、越南语、印尼语、泰语的 3 样本 M3Exam(M3e)测试。
在纯文本基准测试中,SeaLMMM-7B-v0.1 总体上与它的基础语言模型 SeaLLM-7B-v2 表现相当。这表明我们的多模态训练机制并未显著降低模型在纯文本任务上的性能。
模型 |
语言 |
英语 MMLU |
英语 M3e |
中文 M3e |
越南语 M3e |
印尼语 M3e |
泰语 M3e |
GPT-3.5 |
多语言 |
68.90 |
75.46 |
60.20 |
58.64 |
49.27 |
37.41 |
Vistral-7B-chat |
单语言 |
56.86 |
67.00 |
44.56 |
54.33 |
36.49 |
25.27 |
Qwen1.5-7B-chat |
多语言 |
61.00 |
52.07 |
81.96 |
43.38 |
24.29 |
20.25 |
SailorLM |
多语言 |
52.72 |
59.76 |
67.74 |
50.14 |
39.53 |
37.73 |
SeaLLM-7B-v2 |
多语言 |
61.89 |
70.91 |
55.43 |
51.15 |
42.25 |
35.52 |
SeaLLM-7B-v2.5 |
多语言 |
64.05 |
76.87 |
62.54 |
63.11 |
48.64 |
46.86 |
SeaLMMM-7B-v0.1 |
多语言 |
60.31 |
70.43 |
52.78 |
50.47 |
42.37 |
33.53 |
多语言多模态展示
SeaLMMM-7B-v0.1 在英语和中文之外的其他语言,尤其是东南亚语言(如越南语和印尼语)的视觉理解和问题解决能力方面表现出色。

图像:用越南语查找“x”。左图:Llava-1.6-34B。右图:SeaLMMM-7B-v0.1。
局限性
- 尽管 SeaLMMM-7B-v0.1 支持多语言,但它的多模态能力在英语中表现最佳,我们正在努力提升其在其他语言中的性能。
- 在光学字符识别(OCR)方面,它目前只能识别英语。
- 由于现有的纯文本监督微调(SFT),SeaLMMM-7B-v0.1 在多轮对话中有时仍会认为自己无法处理图像,未来版本将修复此问题。
- 多模态多轮对话能力仍存在一定限制。
使用方法
指令格式
与其他模型不同,图像标记为 <|image|>
prompt = """<|im_start|>system
You are a helpful assistant.</s>
<|im_start|>user
<|image|>
What is in the image?</s>
<|im_start|>assistant
There is 2 cats in the image.</s>"""
print(tokenizer.convert_ids_to_tokens(tokenizer.encode(prompt)))
对语言学家的感谢
我们要特别感谢我们专业的母语语言学家 Tantong Champaiboon、Nguyen Ngoc Yen Nhi 和 Tara Devina Putri,他们帮助我们构建、评估和事实核查了采样的预训练和监督微调数据集,并从不同方面对我们的模型进行了评估,尤其是在安全性方面。
引用
如果您觉得我们的项目有用,希望您能给我们的仓库点个星,并按以下方式引用我们的工作:通讯作者:l.bing@alibaba-inc.com
作者列表和顺序可能会发生变化!
@article{damonlpsg2023seallm,
author = {Xuan-Phi Nguyen*, Wenxuan Zhang*, Xin Li*, Mahani Aljunied*, Weiwen Xu, Hou Pong Chan,
Zhiqiang Hu, Chenhui Shen^, Yew Ken Chia^, Xingxuan Li, Jianyu Wang,
Qingyu Tan, Liying Cheng, Guanzheng Chen, Yue Deng, Sen Yang,
Chaoqun Liu, Hang Zhang, Lidong Bing},
title = {SeaLLMs - Large Language Models for Southeast Asia},
year = 2023,
Eprint = {arXiv:2312.00738},
}