🚀 SeaLMMM-7B - 東南アジア向けの大規模多言語多モーダルモデル
SeaLMMMは「見る」ことができるようになります!このモデルは、東南アジアで話される複数の言語で、テキストのみのタスクとビジュアルタスクの両方で優れた性能を発揮する、統合された多言語多モーダルモデルです。
ウェブサイト
🤗 技術メモ
🤗 デモ
GitHub
技術レポート
✨ 主な機能
SeaLMMM-7Bの能力
- SeaLMMM-7Bは、テキストのみのタスクで最強の7Bビジョン言語モデルの1つで、SeaLLM-7B-v2と同様の性能を発揮します。これは、テキストを優先し、ビジュアルを次にするモデルです。
- SeaLMMM-7Bは、東南アジアのほとんどの言語を扱うことができ、英語のみのLLavaや、中英語(英語+中国語)のQwen-VL、Yi-VLよりも多言語対応です。
- LLavaや特殊なVLMが最初に1枚の画像のみを要求するのとは異なり、SeaLMMM-7Bは最初にテキストのみの会話をスムーズに処理し、会話の途中でビジュアル指示を処理することができ、トピックと言語の切り替えをサポートします。
- SeaLMMM-7Bは、複数の画像の生成やコンテキスト内のビジュアル学習を行うことができます。この場合、Better llava nextを適用してこの機能を有効にする必要があります。
リリースとデモ
⚠️ 重要提示
公開されている重み、コード、デモを使用することにより、あなたはSeaLLMsの利用規約に同意し、それに従うことになります。
⚠️ 注意事項
重み、コード、デモは他の事前学習言語モデルと同様にオープンに公開されていますが、私たちが最善を尽くしてレッドチーミング、安全性の微調整、およびエンフォースメントを行ったにもかかわらず、モデルには不正確、誤解を招く、または潜在的に有害な生成を含む潜在的なリスクが伴います。開発者や関係者は、展開前に独自のレッドチーミングを行い、関連するセキュリティ対策を講じる必要があり、地域の規制や法令を遵守しなければなりません。公開された重み、コード、またはデモの使用に起因するいかなる請求、損害、またはその他の責任について、著者は一切の責任を負いません。
ロゴはDALL-E 3によって生成されました。
📚 ドキュメント
概要
SeaLMMM-7B-v0.1は、SeaLLM-7B-v2の多モーダル拡張版です。Llava-1.6(Llava-NEXT)アーキテクチャを採用しています。SeaLLMの多言語テキストのみのデータセットと、Llava-1.5の英語のみのビジョンデータ、および社内で合成生成された多言語多モーダルビジョンデータや、ThaiIDCardSyntなどのオープンソースデータを共同で学習させることで訓練されています。
英語のビジョンQAタスク
多モーダルモデル |
VQA2 |
GQA |
Vizwiz |
SQA-IMG |
TextQA |
Qwen-VL-Chat |
78.20 |
57.50 |
38.90 |
68.20 |
61.50 |
Llava-1.5-7b |
78.50 |
62.00 |
50.00 |
66.80 |
58.20 |
Llava-1.5-13b |
80.00 |
63.30 |
53.60 |
71.60 |
61.30 |
SeaLMMM-7B-v0.1 |
80.14 |
61.58 |
58.00 |
71.79 |
63.47 |
多言語のテキストのみの世界知識
3つのベンチマークで、推奨されるデフォルト設定に従ってモデルを評価しました。英語の場合は5ショットのMMLU、英語、中国語、ベトナム語、インドネシア語、タイ語の場合は3ショットのM3Exam(M3e)です。
テキストのみのベンチマークでは、SeaLMMM-7B-v0.1は、ベースのLLMモデルであるSeaLLM-7B-v2とほぼ同等の性能を発揮します。これは、多モーダル学習の方法がテキストのみの性能を大幅に低下させないことを示しています。
モデル |
言語 |
英語 MMLU |
英語 M3e |
中国語 M3e |
ベトナム語 M3e |
インドネシア語 M3e |
タイ語 M3e |
GPT-3.5 |
多言語 |
68.90 |
75.46 |
60.20 |
58.64 |
49.27 |
37.41 |
Vistral-7B-chat |
単言語 |
56.86 |
67.00 |
44.56 |
54.33 |
36.49 |
25.27 |
Qwen1.5-7B-chat |
多言語 |
61.00 |
52.07 |
81.96 |
43.38 |
24.29 |
20.25 |
SailorLM |
多言語 |
52.72 |
59.76 |
67.74 |
50.14 |
39.53 |
37.73 |
SeaLLM-7B-v2 |
多言語 |
61.89 |
70.91 |
55.43 |
51.15 |
42.25 |
35.52 |
SeaLLM-7B-v2.5 |
多言語 |
64.05 |
76.87 |
62.54 |
63.11 |
48.64 |
46.86 |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
--- |
SeaLMMM-7B-v0.1 |
多言語 |
60.31 |
70.43 |
52.78 |
50.47 |
42.37 |
33.53 |
多言語多モーダルの展示
SeaLMMM-7B-v0.1は、英語や中国語以外の言語、特に東南アジアの言語で、より優れたビジョン理解と解決能力を持っています。

画像: ベトナム語で「x」を探す。左: Llava-1.6-34B。右: SeaLMMM-7B-v0.1。
制限事項
- 多言語対応であるにもかかわらず、SeaLMMM-7B-v0.1の多モーダル機能は英語で最もうまく機能しますが、他の言語での性能向上に取り組んでいます。
- OCRの場合、英語のみを読み取ることができます。
- SeaLMMM-7B-v0.1は、既存のテキストのみのSFTのため、マルチターン設定で画像を処理できないと誤認することがありますが、将来のバージョンでこの問題を修正します。
- 多モーダルのマルチターン機能はまだ制限されています。
使用方法
指示書の形式
他のモデルとは異なり、画像トークンは<|image|>
です
prompt = """<|im_start|>system
You are a helpful assistant.</s>
<|im_start|>user
<|image|>
What is in the image?</s>
<|im_start|>assistant
There is 2 cats in the image.</s>"""
print(tokenizer.convert_ids_to_tokens(tokenizer.encode(prompt)))
謝辞
専門的でネイティブの言語学者であるTantong Champaiboon、Nguyen Ngoc Yen Nhi、Tara Devina Putriに特別な感謝を表します。彼らは、サンプリングされた事前学習とSFTデータセットの構築、評価、および事実確認を支援し、特に安全性の面で様々な側面からモデルを評価してくれました。
引用
もし私たちのプロジェクトが役に立った場合、是非リポジトリをスターしていただき、以下のように私たちの研究を引用していただけると幸いです。責任著者: l.bing@alibaba-inc.com
著者リストと順序は変更される可能性があります!
@article{damonlpsg2023seallm,
author = {Xuan-Phi Nguyen*, Wenxuan Zhang*, Xin Li*, Mahani Aljunied*, Weiwen Xu, Hou Pong Chan,
Zhiqiang Hu, Chenhui Shen^, Yew Ken Chia^, Xingxuan Li, Jianyu Wang,
Qingyu Tan, Liying Cheng, Guanzheng Chen, Yue Deng, Sen Yang,
Chaoqun Liu, Hang Zhang, Lidong Bing},
title = {SeaLLMs - Large Language Models for Southeast Asia},
year = 2023,
Eprint = {arXiv:2312.00738},
}
📄 ライセンス
ライセンス: seallms
対応言語: 英語、中国語、ベトナム語、インドネシア語、タイ語、マレー語、クメール語、ラオス語、ミャンマー語、タガログ語
タグ: 多言語、東南アジア