首次提出了一种通用的视觉多模态大语言模型(MLLM)——VITRON,能够在像素级对图像和视频进行理解、生成、分割和编辑。 引入了一种更高效的LLM到解码器的指令传递机制,结合了离散文本和连续信号嵌入。 提出了针对多模态大语言模型的像素级视觉语言时空 ...