首页 > 理财知识 > 文章正文

火爆全网的GPT-4能画画了!几家欢喜几家愁?

币灵灵财经 2024-11-12 01:18 983

GPT-4刚推出时就火爆了全网,但一直只能生成文本信息,不过很快就可以用来画画了。

9月21日,OpenAI在官网上公布了最新版的AI工具DALL·E 3,与市面上各种AI绘画工具相似,你只需要输入文字信息,它就会根据自己的理解画出相应的图像。

火爆全网的GPT-4能画画了!几家欢喜几家愁?

其实,DALL·E原本就是OpenAI在GPT-4之外的主打产品,都是基于Transformer架构开发出来的,只是用途和功能有所不同,就像特长不同的两兄弟,一个擅长绘画,一个擅长写字。

这次推出的DALL·E 3在前代产品的基础上做了升级,有了更强大的绘图能力,画面细节、清晰度、合理性都有提升,明显比DALL·E 2的画技精湛了不少。

但最重要的是,OpenAI直接把DALL·E整合到GPT里面了,10月份产品正式上线之后,GPT plus用户和企业用户就可以一边和GPT聊天一边画画了。

那么,OpenAI这样做有什么意义呢?表面上看,这只是一次产品更新,但却会带来两种截然不同的影响,可以说是有人欢喜有人愁。

愁的是谁呢?自然是很多的AIGC应用,比如Midjourney、Adobe Firefly等AI绘画应用,以及Runway这样的AI生成视频应用。

如果从OpenAI展示的效果图来看,还不如Midjourney生成的图片惊艳,而且主要以漫画风为主,没有展示写实类的图片,而Midjourney生成的写实图片已经可以媲美照片的效果了,

但是,这并不代表OpenAI会一直落后,它其实有着巨大的发展潜力,很有可能实现赶超。

一方面,他们的用户基数足够庞大,8月份访问量达到14.3亿次,独立访客量1.8亿,而Midjourney社区用户只有1400万。

对生成式AI来说,用户反馈是迭代更新的重要因素,用户基数越大,交互越频繁,所能收集的反馈数据越多,模型迭代和优化的速度也就越快,这对众多AI绘画工具来说都是巨大威胁。

另一方面,AI绘画的关键环节是人类输入的提示词,而GPT-4有一个巨大的优势,就是理解人类命令的能力更强,反馈出的图像也就更加精准,但有些AI工具却容易忽略部分文字表述,或者曲解用户意图。

比如,OpenAI在DALL·E 3公告中发了一张图,内容是一个藏着宇宙的心形玻璃容器,还附带了完整的提示词,我们用同样的提示词让Midjourney也画了一下,结果Midjourney就忽视了藏着的宇宙。虽然Midjourney经过调整之后也可能画出相应的内容,但这仍然展现出了DALL·E 3的理解能力。

火爆全网的GPT-4能画画了!几家欢喜几家愁?

另外,从宣传片上看,DALL·E 3还展现出了不错的一致性,画面中的一只小刺猬在不同的场景中,仍然能够保留核心角色特征。

而一致性的下一步就是形成连续的画面,最终形成视频,这就代表,OpenAI可以顺其自然地推出AI生成视频工具,技术上并没有跨越不了的门槛,剩下的可能只是时间问题。

这就意味着,Runway等AI生成视频应用,也会面临与Midjourney一样的挑战。

其实,几个月前我就提出,如果只在大模型平台的能力范围内做微创新,那么很容易被平台整合甚至吞噬,以往是AI写作、AI编程,现在就会轮到AI绘画、AI视频,GPT整合DALL·E 3的绘画功能,就是一个佐证。

那么,除了有人愁之外,有谁会因此受益呢?

可以预见,最大的受益群体可能是内容创意工作者,因为,大模型从文字走向图像视频兼备的多模态之后,很可能带来内容创意的大爆发。

其实,原本就有人使用DALL·E 2制作过影视作品。比如,底特律的一家广告制作公司Waymark就用AI工具制作了12分钟的微电影《The Frost》,他们用GPT-4写剧本,DALL·E 2生成画面,再导入到名为D-ID的“图生视频”工具中,做成了完整的视频。

除了公司之外,一些个人创作者也用上了AI创作工具,比如,B站博主“数字生命卡兹克”就用Midjourney和Runway Gen-2制作了《流浪地球3》的预告片,还获得了原作导演郭帆的称赞。

不过,人们对这些AI生成作品的态度却是褒贬不一,有人认为画面质量太差,人物行为怪异,甚至有点恐怖,但也有人认为,怪异的画面反而是激发灵感的素材,能够借此创造更多以往难以想象出来的场景。

实际上,AI工具给内容创作者来带来的好处,不只是提升工作效率,还增加了一个新的创作维度。

就像电影从默片时代走向有声电影时代一样,增加了声音维度,而AI为人们增加了人脑之外的创意维度,AI生成的更有想象力的乃至怪异的画面,恰恰是拓展了认知边界。

也就是说,人与AI的合作,是一个相互启发、协同创作的过程,所以,很可能会带来内容创意的大爆发。

更进一步说,当AI创意大繁荣之时,真正有价值的也就不是AIGC,而是AIGS了。这是因为,AI很容易学会各种既定风格,快速生产出符合相应风格的内容创意产品,而人类在内容创意上的最大价值将是创造新风格,之后在AI的辅助下提供持续的服务,这才是未来内容创意的大机遇。