DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”
萧箫 发自 凹非寺量子位 | 公众号 QbitAI出场即炸场的DALL·E 3,又有新动向了!这次直接宣布对ChatGPT Plus和企业版用户开放,还连带公开了更多“官方推荐案例”。不仅如此,Ope.
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI出场即炸场的DALL·E 3,又有新动向了!
这次直接宣布对ChatGPT Plus和企业版用户开放,还连带公开了更多“官方推荐案例”。
不仅如此,OpenAI还一纸论文透露了DALL·E 3的关键技术细节。
相比其他AI,DALL·E 3表现最优秀的地方,应该就要属对提示词的完美遵循了。
无论是整体的环境描写,还是精确到物体数量、着装、颜色这种细节叙述,DALL·E 3都能很好地理解,并生成对应的画作,丝毫不漏重点。
论文一公开,可以说是解决了“如何让DALL·E 3遵循指令”这一让诸多人困惑的问题,有网友感叹:
OpenAI终于又Open了?
一起来看看这篇DALL·E 3论文的关键细节,以及它的更多用例。
用数据集让DALL·E 3“唯命是从”
先来看看DALL·E 3论文最大的亮点:提示词遵循(prompt following)。
此前,不少绘画AI会刻意忽略提示词中的某些关键词、或是混淆提示词的含义(多义词如column,列还是柱子),简单来说就是文本提示词和画面细节没对齐。
OpenAI的研究人员在经过一番分析后认为,这是数据集的锅。
现有的图像文本对数据集,文字对图像的描述可以说是“惜字如金”。
尤其是从互联网上扒下来的数据集,大多数对图像的描述只有一句话,更别提细节了。包括环境、物体在内,容易忽略的文本描述主要有4类:
- 场景中物体描述,如厨房里的水槽、人行道上的停车标志等;
- 物体位置和数量描述
- 物体颜色和大小描述
- 图像中的文本描述(如呈现在商店招牌上的字母/汉字)
除此之外,还有不少互联网上扒下来图像的文本描述,直接就是错误或不相关的,例如梗图或Alt文本(图像加载失败时网页上呈现的文字描述)。
为此,有必要将这些图像对应的文本数据重新整理一遍,更准确地描述图像中的场景和物品进行描述。
光靠人力是不太可能的,毕竟要生成的“废话文学”太多了。
和RLHF一样,OpenAI同样将这个过程“自动化”了一波,让AI来完成这件事。
他们训练了一个“图像字幕器”(image captioner),专门用来给数据集中的图像重新生成文本描述。
这是“图像字幕器”给数据集中的部分图片生成文本描述的效果:
这下子描述就详细多了。
那么,用AI来合成文本,实际训练出来的模型是否真能提升生成效果?
研究人员用开源模型(如CLIP)测试了一波,得出的结论是可以。
不过也不能完全使用合成的文本描述,毕竟AI生成的内容可能有些“神秘共性”,直接全盘接受容易导致图像过拟合。
因此,OpenAI还在CLIP上尝试了一波合成文本描述-图像数据集的效果。
他们发现,数据集中混杂95%的合成文本-图像数据时,CLIP的效果是最好的。
最终,他们决定95%的图像用合成文本描述,剩下的5%图像依旧使用人工描述,用这个比例的文本-图像数据集重新训练了DALL·E 3,取得了不错的效果。
最后,OpenAI也采用人工评估的方法,对DALL·E 3和其他模型进行了测试。
评估方法大致像这样,询问人类哪个图像能更好地遵循提示词、或生成更好看的图像。
结果显示,DALL·E 3相比Midjourney 5.2、SDXL和DALL·E 2,在提示词遵循、风格匹配等任务测试上均取得了不错的效果。
已向企业版和Plus用户开放
除了这篇论文以外,OpenAI这次还公布了DALL·E 3的另一动向——向ChatGPT Plus和企业版开放。
在宣布这一消息的同时,OpenAI也给出了企业和机构使用DALL·E 3的建议,例如做科学项目:
搞网站设计:
或是帮企业设计LOGO:
当然,无论是ChatGPT Plus还是企业版,仍然也属于收费项目。
目前唯一可以免费玩到DALL·E 3的地方,应该还是微软的New Bing。
对于OpenAI带来的DALL·E 3新消息,不少网友感觉振奋。
有网友表示,DALL·E 3的出现真正给设计圈带来了改变,例如设计饮料包装等:
还有网友已经在催API的到来了:
但也有网友对这次更新不甚满意,尤其是对DALL·E 3论文涉及的技术信息表示了嘲讽:
直接用谷歌的T5文本编码器和卷积解码器,这就是公司发展太快的结果吗?
这里是网友提到的DALL·E 3论文细节:
要是对DALL·E 3的更多技术细节感兴趣,也可以到论文中找找答案~
论文地址:
https://cdn.openai.com/papers/dall-e-3.pdf参考链接:
[1]https://twitter.com/OpenAI/status/1715050642560151963[2]https://openai.com/blog/dall-e-3-is-now-available-in-chatgpt-plus-and-enterprise— 完 —
量子位 QbitAI · 头条号签约
声明:本文内容来自用户上传并发布或网络新闻客户端自媒体,本站点仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请联系删除。
相关文章
推荐文章
最新文章
- 化工资讯丨松江新房「中交松香源著」88-124平,洋房和叠加别墅,欢迎品鉴!
- 化工资讯丨哈焊华通:公司主要产品包括各类碳钢焊丝、低合金钢焊丝、不锈钢
- 其他丨建筑学家直言:买房牢记“买三不买二”,基本不会选错楼层
- 其他丨被限购超十年,上海外地单身人士终于可以在金山这几个区域买房了
- 塑料及制品丨同益中:公司调整优化了年产4,060吨超高分子量聚乙烯纤维产业化
- 其他丨半两财经 | 碧桂园前10个月累计交付约46万套房屋
- 社会丨NBA | 东部强强对话 76人更胜一筹
- 社会丨下课会传染?曝日本主教练接近走人,武汉三镇:没有换帅打算
- 催化剂及助剂丨水处理消泡剂产品配方成分含量分析如何做呢(水处理消泡剂主要成
- 催化剂及助剂丨铝合金除油清洗高效表面活性剂--Texent610A(铝合金除油常用的助