微信扫码
添加专属顾问
我要投稿
GPT-4o图像生成能力惊艳,可应对复杂场景与细节处理。 核心内容: 1. GPT-4o模型图像生成的逼真效果与应用场景 2. 多轮对话中图像的逐步完善与内容一致性 3. 指令遵循能力与上下文关联,生成复杂场景图像
ChatGPT 凌晨发了新东西,通过 4o 模型,创建靠谱的图像:光影、文字、细节栩栩如生
通过对话,可以进一步修改:遮挡、倒影等等都处理的非常到位
图片质量相当高,可直接用于科普插画,比如:分光三棱镜
继续对话,一致性相当好,比如让他画成书册:
只能说:斗宗强者,竟恐怖如斯,OpenAI 的箱子里,还是有东西的。
让我们细致看一看:本次更新,突破了以往的哪些边界。
一图胜千言,来感受一下。比如让他根据对话内容,来画一个菜单(文字是单独给的)
或者让他去画一个婚礼邀请(同样,文字单独给到)
这套图像生成,是 GPT-4o 的原生功能,可通过对话,逐步进行图像完善,并保持内容一致。比如这个:
也比如我把橘猫放在了魔兽世界里
甚至来说,我还可以要求他生成 png 透明版
在生成图像的时候,4o 的指令遵循能力很强,可以处理包含 10-20 个不同物体的场景,并对物体与特征及关系的紧密绑定允许更好的控制。
比如:只有一滴红酒的空玻璃杯
prompt: show me a wine glass with only the tiniest drop of red wine in it.
比如:看不见的大象
Prompt: We need evidence there is a currently present invisible elephant. Consider what an elephant is and does in the environment, then show us that, perhaps mid-process - but the elephant itself is not shown at all
我还让他给画了个撸猫指南
Prompt: 4-step photo guide on how to pet a cat
如果很清楚知道自己要什么,可以直接上传图片给 ChatGPT,让参考风格、精准输出。比如给一些风格插画,然后要求 GPT 来生成一个三角形轮子的自行车
吐槽:为啥是英国专利
而我,作为炉石玩家,我让 ChatGPT 来生成一份奥特曼的专属卡片
Hhhhh 太真实了,GPT 觉得奥特曼上不了传说,种族属于「战吼」(特别能逼逼)
然后,还可以让他做个实体版... 稀有度变成了普通,技能变成了嘲讽,hhhhh认真的吗?
4o 的绘图,能够从大模型中直接获取到知识,生成与现实世界知识相符的图像,如:可以直接使用的鸡尾酒配方
Prompt: Make me a professionally shot photorealistic diagram of the top selling cocktails in my bar with recipes labeled on each drink. put the recipes on handwritten cards in front of each drink. The cards are brown, and the text is black. Background is white.Title is "4 most popular cocktails"
制作一款披萨
Prompt: A graphic of an Italian chef giving instructions on how to make authentic pepperoni pizza
动量定理和冲量定理
Prompt: 画一个有关冲量定理和动量定理的 infographic
Prompt:画一个肯德基的简体中文菜单,其中有一个套餐叫做“V 我 50”
4o 的这个模型,能轻松绘制各种风格的图像。比如我让他用莫奈的风格,来画一只猫
Prompt:一只猫,莫奈风格
幻想风格的海豚地铁
Prompt: A realistic underwater scene with dolphins swimming through the windows of an abandoned subway car, with bubbles and detailed water flow accurately simulated.
奥特曼在采棉花,颇有纪录片的范儿
Prompt: 山姆奥特曼正在采棉花
当然,这个模型也存在一些问题:
以及...出于安全考虑,很多内容不允许被生成,比如:米老鼠大战皮卡丘的钞票
OpenAI 这次的更新的确非常棒,真没得黑。
这项功能已经通过 ChatGPT & Sora 向 Plus、Pro、Team 和免费用户推出,替换 DaLLE 作为默认图像生成器。,Enterprise 和 Edu 用户也将很快更新,API 也将在数周内进行更新。
所以,不要小瞧 OpenAI,箱子里有货的
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-27
Dolphin-API:字节Dolphin多模态文档解析模型API化全攻略
2025-05-26
本地AI对话神奇,ChatWise到底有什么用?
2025-05-25
从BGE到 CLIP,从文本到多模态,Embedding 模型选型终极指南
2025-05-25
AI Agent到底哪家强?横评五款主流Agent
2025-05-24
AI Agent协议A2A交互细节详解
2025-05-23
技术思考:小尺寸+两阶段式多模态文档解析模型Dolphin思路评析及PP-OCRv5更新
2025-05-22
Alivia VLM:企业级视觉智能体在门店场景落地实战
2025-05-21
Gemini接管搜索、全家桶秒变通用Agent ,以及Google Glass is so back!|直击Google I/O
2024-09-12
2024-06-14
2024-06-17
2024-08-06
2024-08-30
2024-05-30
2024-11-28
2024-10-07
2024-10-16
2024-04-21