manbext网页登陆首页IGeeKphone中国手机,平板电脑,VR,遥控无人机新闻,评论

Visual ChatGPT:它吸收了所有的AI绘图技能

0

ChatGPT可视化版本连接ChatGPT和一系列可视化基础模型,以支持聊天时发送和接收图像。例如,问它:你能为我生成一个猫切片吗?正如我们所看到的,立刻就有了所有的文字和图片。

此外,它还可以根据新的文本命令调整图片:将猫换成狗。

同时我能看懂图片,有一定的理解能力。例如,发送一张图片给它,然后问摩托车是什么颜色?答案是黑色。

如上所述,它是由MSRA的资深研究员提出的ChatGPT的可视化版本。通过组合ChatGPT的多个可视化模型和使用提示管理器(提示经理),他们成功地使ChatGPT处理各种可视化任务。

这个作品一发布就火了,GitHub上的星星数已经超过了1.5万。简单总结一下GPT和Dall-E~合并的感受

认字画图……有人说:

这难道不是终极的表情包制造者吗?

窍门是提示管用?

实际上,可视化ChatGPT使ChatGPT能够处理多模态信息。但是从零开始训练一个多模态模型需要大量的工作。研究人员认为一些可视模型可以在ChatGPT的基础上进行组合。

要实现这一目标,关键需要一个中间站。因此,他们提出了提示管理器的概念。

它有三个主要功能:

首先,清楚地告诉ChatGPT每个可视化模型的角色,并指定输入和输出格式。

其次,将不同的视觉信息进行转换,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三,处理可视化模型的历史生成结果,以及不同模型的调用优先级,避免冲突等,使ChatGPT能够以迭代的方式接收可视化模型生成的内容,直到输出用户满意为止。

这样,Visual ChatGPT的工作流看起来像这样:

如果用户输入图片,模型将首先将内容发送给提示管理器,然后将其转换为语言供ChatGPT进行判断。当它发现问题不需要调用可视化模型时,它将直接给出输出(第一个答案)。

对于第二个问题,ChatGPT需要使用可视化模型来分析问题的内容,因此可视化模型将开始执行,然后迭代,直到ChatGPT判断它不再需要调用可视化模型,然后输出结果。

根据这篇论文,Visual ChatGPT包含22个不同的可视化模型。包括稳定扩散,BLIP, pix2pix等。为了验证Visual ChatGPT的能力,他们还进行了大量的零镜头实验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具有很强的图像理解能力。图片可以根据人们的需要不断生成和修改。

当然,研究人员也提到,这项工作仍有一些局限性。例如,生成结果的质量主要取决于可视化模型的性能。而大量的提示项目的使用会在一定程度上影响生成结果的速度。

同时也可以同时调用多个模型,这也会影响实时性能。最后,在输入图像的隐私性和安全性方面,需要进一步升级保护。

MSRA老兵外出

这项研究的结果来自微软亚洲研究院的团队。通讯作者:段楠。

他是MSRA首席研究员,自然语言计算集团研究经理,中国科学技术大学兼职博士生导师,天津大学兼职教授,CCF优秀成员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等方面的研究。他于2006年加入MSRA,至今已服务超过16年。

第一作者吴晨飞,也是一名高级研究员。根据LinkedIn的信息,他于2012年加入微软,已经工作了11年。他目前是一名软件工程师。

读也:一加Ace 2V推出,尺寸为9000,起价330美元

别忘了跟着我们走Facebook群组而且页面让您始终了解最新的进展,新闻,更新,评论,并赠送智能手机,平板电脑,小工具,以及更多来自未来的技术世界。万博体育app最新版下载

份额。

回复

Baidu
map