Visual ChatGPT:它吸收了所有的AI绘图技能

ChatGPT可视化版本连接ChatGPT和一系列可视化基础模型，以支持聊天时发送和接收图像。例如，问它:你能为我生成一个猫切片吗?正如我们所看到的，立刻就有了所有的文字和图片。

此外，它还可以根据新的文本命令调整图片:将猫换成狗。

同时我能看懂图片，有一定的理解能力。例如，发送一张图片给它，然后问摩托车是什么颜色?答案是黑色。

如上所述，它是由MSRA的资深研究员提出的ChatGPT的可视化版本。通过组合ChatGPT的多个可视化模型和使用提示管理器(提示经理)，他们成功地使ChatGPT处理各种可视化任务。

这个作品一发布就火了，GitHub上的星星数已经超过了1.5万。简单总结一下GPT和Dall-E~合并的感受

认字画图……有人说:

这难道不是终极的表情包制造者吗?

实际上，可视化ChatGPT使ChatGPT能够处理多模态信息。但是从零开始训练一个多模态模型需要大量的工作。研究人员认为一些可视模型可以在ChatGPT的基础上进行组合。

要实现这一目标，关键需要一个中间站。因此，他们提出了提示管理器的概念。

首先，清楚地告诉ChatGPT每个可视化模型的角色，并指定输入和输出格式。

其次，将不同的视觉信息进行转换，如将PNG图像、深度图像、掩码矩阵等转换为语言格式，方便ChatGPT理解。

第三，处理可视化模型的历史生成结果，以及不同模型的调用优先级，避免冲突等，使ChatGPT能够以迭代的方式接收可视化模型生成的内容，直到输出用户满意为止。

这样，Visual ChatGPT的工作流看起来像这样:

如果用户输入图片，模型将首先将内容发送给提示管理器，然后将其转换为语言供ChatGPT进行判断。当它发现问题不需要调用可视化模型时，它将直接给出输出(第一个答案)。

对于第二个问题，ChatGPT需要使用可视化模型来分析问题的内容，因此可视化模型将开始执行，然后迭代，直到ChatGPT判断它不再需要调用可视化模型，然后输出结果。

根据这篇论文，Visual ChatGPT包含22个不同的可视化模型。包括稳定扩散，BLIP, pix2pix等。为了验证Visual ChatGPT的能力，他们还进行了大量的零镜头实验(zero-shot experiments)。

结果如开头所示，Visual ChatGPT具有很强的图像理解能力。图片可以根据人们的需要不断生成和修改。

当然，研究人员也提到，这项工作仍有一些局限性。例如，生成结果的质量主要取决于可视化模型的性能。而大量的提示项目的使用会在一定程度上影响生成结果的速度。

同时也可以同时调用多个模型，这也会影响实时性能。最后，在输入图像的隐私性和安全性方面，需要进一步升级保护。

这项研究的结果来自微软亚洲研究院的团队。通讯作者:段楠。

他是MSRA首席研究员，自然语言计算集团研究经理，中国科学技术大学兼职博士生导师，天津大学兼职教授，CCF优秀成员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等方面的研究。他于2006年加入MSRA，至今已服务超过16年。

第一作者吴晨飞，也是一名高级研究员。根据LinkedIn的信息，他于2012年加入微软，已经工作了11年。他目前是一名软件工程师。

别忘了跟着我们走Facebook群组而且页面让您始终了解最新的进展，新闻，更新，评论，并赠送智能手机，平板电脑，小工具，以及更多来自未来的技术世界。万博体育app最新版下载