バイトドゥンUI-TARS-72B-SFT-GGUFオープンソースモデル - 画像テキストからテキストへの変換機能を簡単に実現

ホーム

Bytedance Research.ui TARS 72B SFT GGUF

DevQuasarによって開発

バイトダンス研究チームが発表した72Bパラメータ規模のマルチモーダル基礎モデルで、画像テキストからテキストへの変換タスクに特化

画像生成テキスト #マルチモーダル理解 #大規模パラメータ #画像テキスト生成

ダウンロード数 81

リリース時間 : 3/6/2025

モデル概要

このモデルは監視微調整を経た大規模マルチモーダルモデルで、画像とテキスト間の変換タスクを処理でき、強力なクロスモーダル理解能力を備えています

モデル特徴

大規模パラメータ

72Bパラメータ規模が強力なモデル容量と表現力を提供

マルチモーダル能力

視覚情報とテキスト情報を同時に処理し、クロスモーダル理解を実現

監視微調整

専門的な監視微調整(SFT)を経て、特定タスクのパフォーマンスを最適化

モデル能力

画像理解

テキスト生成

クロスモーダル変換

視覚的質問応答

使用事例

コンテンツ生成

画像キャプション生成

入力画像に基づいて詳細な文章説明を生成

正確で豊富な画像説明を生成可能

支援ツール

視覚支援

視覚障害ユーザーに画像内容の説明を提供

アクセシビリティ能力を向上

属性	详情
モデルタイプ	画像テキスト生成モデル
ベースモデル	bytedance-research/UI-TARS-72B-SFT

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Bytedance Research.ui TARS 72B SFT GGUF

モデル概要

モデル特徴

モデル能力

使用事例

🚀 画像テキスト生成モデル

🚀 クイックスタート

モデル情報

関連リンク

支援