【技术报告】GPT-4o 原生图像生成的应用与分析
【技术报告】GPT-4o 原生图像生成的应用与分析
- 1. GPT-4o 原生图像生成简介
- 1.1 文本渲染能力
- 1.2 多轮对话迭代
- 1.3 指令遵循能力
- 1.4 上下文学习能力
- 1.5 跨模态知识调用
- 1.6 逼真画质与多元风格
- 1.7 局限性与安全性
- 2. GPT-4o 技术报告
- 2.1 引言
- 2.2 安全挑战、评估与缓解措施
- 2.2.1 安全挑战:原生图像生成带来的新型风险
- 2.2.2 安全防护体系
- 2.2.3 评估流程
- 2.2.4 特定风险领域的讨论
- 2.2.5 来源验证技术方案
- 2.3 结论
- 2.4 参考文献
1. GPT-4o 原生图像生成简介
2025 年 3月,OpenAI正式宣布将GPT-4o原生图像生成功能向所有用户免费开放,覆盖ChatGPT和Sora平台的Plus、Pro、Team及免费用户,企业版和教育版也将逐步接入。这一功能摒弃了此前独立的DALL·E 3模型,首次通过单一多模态模型实现文本、图像、知识库与上下文的深度整合,标志着AI图像生成技术迈向“原生多模态”新纪元。
OpenAI 一直坚信图像生成应成为语言模型的核心能力。GPT-4o 图像生成,通过能够实现精确、准确、逼真输出的原生多模态模型,实现有用和有价值的图像生成。
从远古洞穴壁画到现代信息图表,人类始终运用视觉图像进行沟通、说服与分析——而不仅限于装饰。当今生成式模型虽能创造出超现实的美妙场景,却难以驾驭人们日常分享与创造信息时所需的实用图像。无论是标识还是图表,当图像与那些承载共同语言和经验的符号相结合时,便能传递精准含义。
**GPT-4o 的图像生成能力在以下方面表现卓越:精准呈现文本、严格遵循指令、巧妙运用4o内置知识库与对话上下文(包括对上传图像的转化或将其作为视觉灵感)。**这些特性让您能轻松创造出心中所想的图像,通过视觉更高效地传递信息,推动图像生成技术发展为兼具精确性与实用价值的强大工具。
我们基于网络图像与文本的联合分布训练模型,使其不仅理解图像与语言的关系,更掌握图像之间的关联规律。通过强化后期训练,最终模型展现出惊人的视觉表达能力,能够生成兼具实用性、连贯性和情境感知的图像。
1.1 文本渲染能力
GPT-4o在生成图像时,可精准呈现文字内容与位置,支持复杂排版需求。
一图胜千言,但恰到好处的文字点缀往往能升华图像内涵。4o将精准符号与视觉元素无缝融合的能力,让图像生成进化为真正的视觉沟通工具。
请按以下指令绘图:
magnetic poetry on a fridge in a mid century home:
Line 1: "A picture"
Line 2: "is worth"
Line 3: "a thousand words,"
Line 4: "but sometimes"Large gapLine 5: "in the right place"
Line 6: "can elevate"
Line 7: "its meaning.
"The man is holding the words "a few" in his right hand and "words" in his left.
请按以下指令绘图:
an infographic explaining newton's prism experiment in great detail, with a title at the bottom: "tested by youcans@xidian"
1.2 多轮对话迭代
用户可通过自然语言对话动态调整图像内容。
得益于图像生成功能已深度集成至GPT-4o,您现在可以通过自然对话持续优化图像。模型能基于对话上下文中的图文内容进行迭代创作,确保作品始终维持统一性。例如当您设计电子游戏角色时,即便经过多次修改调试,角色形象仍能保持视觉逻辑的一致性。
例如上传猫咪图片后,逐步添加“侦探帽”“游戏界面”等元素,模型能保持角色形象与场景连贯性。此外,GPT-4o 可处理多达10-20个不同对象,远超竞品5-8个对象的处理上限。
1.3 指令遵循能力
GPT‑4o的图像生成能够精准遵循包含复杂细节的指令。当其他系统在处理5-8个对象时就显得力不从心时,GPT‑4o可轻松驾驭10-20个不同对象的场景。通过强化对象特征与关联性的绑定,实现了更精准的生成控制。
例如,用户生成包含16个物体的网格图时,模型能准确排列蓝色星星、红色三角形等元素;制作餐厅菜单时,文字与插画风格无缝融合,甚至能生成手写体或印刷体文字。实测显示,其文本还原准确率接近商用水平,彻底告别过往AI生成文字“不可读”的尴尬。
1.4 上下文学习能力
GPT‑4o 具备分析用户上传图像的能力,并能从中学习细节特征,将这些视觉要素自然融入生成语境,从而指导后续图像创作。
1.5 跨模态知识调用
通过深度打通文本与图像的认知关联,4o实现了更智能高效的跨模态推理。这种原生图像生成架构让模型能够:
- 自动建立图文语义桥梁;
- 实现知识的多维度迁移;
- 显著提升综合推理效率。
例如:请根据以下程序代码,生成一张图形化版本的模拟图。
<!DOCTYPE html>
<html lang="en"><head><meta charset="UTF-8" /><title>OpenAI Banner</title><style>body { margin: 0; overflow: hidden; }canvas { display: block; }</style></head><body><script type="module">import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';const scene = new THREE.Scene();const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);const renderer = new THREE.WebGLRenderer({ antialias: true });renderer.setSize(window.innerWidth, window.innerHeight);document.body.appendChild(renderer.domElement);// Lightingconst light = new THREE.AmbientLight(0xffffff, 1);scene.add(light);const dirLight = new THREE.DirectionalLight(0xffffff, 1);dirLight.position.set(0, 5, 10);scene.add(dirLight);// Camera positioncamera.position.z = 20;// Controlsconst controls = new OrbitControls(camera, renderer.domElement);// Banner backgroundconst bannerGeometry = new THREE.PlaneGeometry(20, 10);const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);scene.add(banner);// OpenAI Logo texture (placeholder)const loader = new THREE.TextureLoader();loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {const logoGeometry = new THREE.PlaneGeometry(4, 4);const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });const logo = new THREE.Mesh(logoGeometry, logoMaterial);logo.position.set(-5, 0, 0.1); // Slightly in front of the bannerscene.add(logo);});// Load font and add textconst fontLoader = new FontLoader();fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {const textGeometry = new TextGeometry("I am youcans@xidian", {font: font,size: 1,height: 0.2,curveSegments: 12,bevelEnabled: true,bevelThickness: 0.02,bevelSize: 0.02,bevelOffset: 0,bevelSegments: 5});textGeometry.center();const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });const textMesh = new THREE.Mesh(textGeometry, textMaterial);textMesh.position.set(5, -0.5, 0.1); // Opposite side of logoscene.add(textMesh);});// Resize handlerwindow.addEventListener('resize', () => {camera.aspect = window.innerWidth / window.innerHeight;camera.updateProjectionMatrix();renderer.setSize(window.innerWidth, window.innerHeight);});// Render loopfunction animate() {requestAnimationFrame(animate);controls.update();renderer.render(scene, camera);}animate();</script></body>
</html>
1.6 逼真画质与多元风格
通过对海量图像风格的深度学习,该模型能够以令人信服的方式生成或转换图像,无论是写实主义还是艺术化表达都能精准呈现。
1.7 局限性与安全性
局限性
我们深知模型尚不完美,目前存在若干技术局限。这些已知问题将在首发版本上线后,通过持续的模型优化逐步解决。
安全性
我们遵循《模型规范》,在支持游戏开发、历史探索和教育等有价值应用场景的同时,始终坚守严格的安全标准,力求最大化创作自由。对于违反标准的内容请求,我们始终保持零容忍态度。以下是我们正在重点评估的风险领域,旨在确保内容安全性的同时,提升实用价值并支持更广泛的用户创意表达。
来源追溯(C2PA与内部可逆搜索)
所有生成图像均携带C2PA元数据,可明确标识其来自GPT-4o,确保透明度。我们还开发了内部搜索工具,通过生成内容的技术特征辅助验证其是否出自我们的模型。
不良内容拦截
我们持续拦截可能违反内容政策的图像生成请求,包括儿童性虐待材料和深度伪造色情内容。当涉及真实人物图像时,我们对可生成内容实施更严格的限制,尤其在裸露和暴力画面方面设有强力防护机制。安全建设永无止境,我们将持续投入。随着对模型实际应用的深入了解,相关政策也将动态调整。
推理驱动安全
借鉴我们的审慎对齐技术,我们训练了一个推理专用大语言模型,可直接基于人类编写的可解释安全规范工作。开发过程中,该模型帮助我们识别并修正政策模糊地带。结合多模态技术突破,以及为ChatGPT和Sora开发的安全方案,我们能对输入文本和输出图像进行双重合规审查。
(更多详情请参阅下节《GPT-4o 技术报告》)
2. GPT-4o 技术报告
2025年 3月,OpenAI 发布技术报告 “Addendum to GPT-4o System Card: Native image generation”。这是对GPT-4o系统卡的补充说明,重点阐述其原生图像生成功能的相关技术细节和实现过程。该功能使系统能够直接基于输入的文本描述创建高质量的视觉内容,无需依赖外部图像生成模型。这种集成化的图像生成能力进一步提升了系统的多模态交互效率和应用范围。
下载地址: Native_Image_Generation_System_Card
2.1 引言
4o 图像生成是一种比此前 DALL-E 系列模型更先进的全新图像生成技术。该技术能输出逼真的图像效果,支持以图像作为输入并进行转换,同时可精确遵循包含文字嵌入等复杂指令。
由于该技术深度集成于多模态GPT-4o模型的底层架构中,4o图像生成能够调用其全部知识体系,以细腻且富有表现力的方式呈现这些能力,最终生成的图像不仅具有美学价值,更具实用意义。
该技术继承了我们现有的安全防护体系及DALL-E、Sora模型的部署经验,但其新增能力也伴随新的潜在风险。本附录将详细说明GPT-4o系统卡重点关注的相关边际风险,以及我们针对这些风险所采取的应对措施[1]。
[1]: 根据我们的准备框架,4o图像生成功能的启动并没有引起 超出 GPT-4o 原定范围之外的额外准备评估。
2.2 安全挑战、评估与缓解措施
2.2.1 安全挑战:原生图像生成带来的新型风险
与基于扩散模型的 DALL-E 不同,4o 图像生成是内置于 ChatGPT的自回归模型。这种本质差异带来了几项区别于既往生成模型的新能力,同时也引发新的风险:
- 图像-图像转换:该功能使4o图像生成能以单幅或多幅图像作为输入,生成相关或修改后的图像。
- 照片级真实感:4o图像生成的高度拟真能力意味着其输出在某些情况下可以达到摄影作品般的视觉效果。
- 指令跟随:4o图像生成能够执行复杂指令,渲染文字和说明性图示,这种兼具实用性与风险的特征有别于早期模型。
单独使用或组合应用时,这些能力可能以前所未有的方式在多个领域引发风险。例如若缺乏安全管控措施,4o图像生成系统可能以损害肖像权人利益的方式篡改照片,或生成武器制造原理图及操作指南。
基于在多模态模型及Sora、DALL·E视觉生成工具上的实践经验,我们已系统识别并处理了一系列4o图像生成特有的全新风险。
在坚持迭代式部署原则的同时,我们将持续监测用户实际使用情况,动态评估并优化管控策略。所有用户使用4o图像生成功能时,均须严格遵守产品使用政策。
我们努力为我们的用户最大限度地提供帮助和创作自由,同时尽量减少危害(详见《模型规范》)。在坚持迭代式部署原则的同时,我们将持续监测用户实际使用情况,动态评估并优化管控策略。所有用户使用4o图像生成功能时,均须严格遵守产品使用政策。
2.2.2 安全防护体系
为应对4o图像生成技术带来的特殊安全挑战,目前已部署以下多层次防护策略:
- 对话模型拦截机制:在ChatGPT及API接口中,主对话模型作为首道防线,依托训练后安全强化措施,可基于用户指令内容自主拒绝触发图像生成流程。
- 提示词过滤系统:该策略在调用4o图像生成工具后启动,通过文本/图像分类器实时筛查,一旦检测到违规提示词即刻阻断生成进程,实现违规内容的事前预防。
- 输出内容审查机制:采用生成后复合审查方案,结合儿童性虐待材料(CSAM)分类器与安全策略推理监测器——后者为专门训练的多模态推理模型,具备政策合规性判定能力——对已生成图像进行双重校验,有效拦截政策禁止内容。
- 未成年人强化保护:对疑似未成年用户叠加上述所有防护措施,严格限制可能产生年龄不适内容的操作。根据现行政策,13岁以下用户禁止使用OpenAI任何产品与服务。
2.2.3 评估流程
我们通过三个来源的提示词测试,系统评估了4o图像生成安全防护体系的效能与可靠性:
- 外部人工红队测试
- 自动化红队测试
- 真实场景离线测试
1. 外部人工红队测试
OpenAI联合红队网络及Scale AI平台认证的外部测试专家,在完成内部基础能力评估后,实施了针对性红队测试。测试聚焦以下重点领域(详见下文),并允许测试人员采用越狱技术等对抗性手段突破防护机制。
测试生成的上千组对抗性对话被转化为自动化评估数据集,基于该数据集我们持续追踪两项核心指标:
- 误放率:系统是否输出了违反内容政策的生成结果
- 误拒率:系统是否错误拒绝了符合政策的内容请求
2. 自动化红队测试
在自动化红队测试中,我们运用前文所述的模型策略生成合成对话,系统性地探测系统对每项策略内容的执行效能。相较于人工红队测试,这些合成对话使政策实施的测试覆盖更为全面。我们构建了包含图像上传与非图像上传场景的数千组跨类别合成对话,以此对人工红队测试形成有效补充。
测试结果与人工红队数据表现相近,印证了安全策略在多样化对话场景中的一致性效果。
3. 真实场景离线测试
我们进一步基于反映真实使用场景的文本提示词,对4o图像生成安全防护体系进行生产环境行为评估。测试涵盖各安全类别的典型案例,确保评估结果能代表实际生产环境中的风险分布特征。该方法不仅能验证模型在真实运行条件下的表现,还可识别需加强安全措施的潜在薄弱环节。
2.2.4 特定风险领域的讨论
1. 儿童安全
OpenAI高度重视儿童安全风险防控,我们通过预防、检测和报告机制,在所有产品(包括4o图像生成)中优先处理儿童性虐待材料(CSAM)相关内容。OpenAI在儿童安全领域的措施包括:依据Thorn建议开展红队测试,对第一方和第三方用户(API及企业版)的所有输入输出内容实施严格的CSAM扫描。
针对4o图像生成功能的儿童安全专项政策包括:
- 初始版本将禁止编辑上传的逼真儿童照片。未来将评估是否可安全开放编辑功能。
- 已强化图像编辑和生成功能中针对CSAM的现有防护措施。
检测机制
在儿童安全方面,我们对文本和图像输入实施三重防护:
- 所有上传图像均接入Thorn开发的Safer系统,比对已知CSAM哈希值。确认匹配的内容将被拒绝并上报美国国家失踪与受虐儿童中心(NCMEC),关联账户永久封禁。同时运用Thorn的CSAM分类器,检测上传图像及4o生成图像中可能未收录的新CSAM内容。
- 我们采用多模态内容审核分类器,用于检测并拦截任何涉及未成年人的生成性内容。
- 针对4o图像生成功能,基于Sora项目现有的未成年人识别分类器,我们开发了超真实人物分类器,对所有上传图像进行分析以预测是否包含未成年人形象。在初始版本中,仅允许生成非基于真实儿童照片编辑的超真实儿童图像,且所有生成内容必须符合全平台安全政策约束。
该超真实人物分类器对上传图像进行预测后,将输出以下三类标签之一:
- 无超真实人物
- 超真实成年人
- 超真实儿童
(注:若图像同时包含超真实成人和儿童形象,系统将优先返回"超真实儿童"分类结果)
我们使用包含近4000张图像的测试集(涵盖[儿童/成人]×[超真实/非超真实]组合类别)对分类器进行评估。当前分类器虽具有较高准确度,但仍存在少量误判可能:例如外观年轻的成年人可能被错误标记为儿童。出于安全考量,我们已将分类器调整为"谨慎模式",对临界或模糊案例一律判定为"儿童"。未来将持续通过优化模型架构与评估数据集来提升分类器性能。
2. 艺术家风格
当提示词中包含艺术家姓名时,模型能够生成与其作品美学风格相似的图像。这一功能在创意社群中引发了重要讨论与担忧。为此,我们决定在本版4o图像生成系统中采取保守策略,同时持续观察创意社群对该功能的使用情况。我们新增了拒绝机制——当用户尝试生成在世艺术家风格的图像时,系统将主动拦截请求。
3. 公众人物
4o图像生成系统在许多情况下能仅凭文本提示生成公众人物的形象。在发布初期,我们不会禁止生成成年公众人物图像,但会采用与真人照片编辑相同的安全防护措施。例如:禁止生成未成年公众人物的写实图像,拦截涉及暴力、仇恨图像、违法活动指导、色情内容等违反政策的素材。公众人物可主动申请禁止生成其形象。
相较于 DALL-E系列模型直接通过技术手段阻止任何公众人物图像生成的策略,当前方案更为精细。这一调整为教育、历史、讽刺文学及政治言论等领域创造了有益的应用空间。发布后我们将持续监测该功能的使用情况,评估政策效果并适时调整。
4. 偏见问题
4o图像生成在表征偏见相关领域的表现优于早期工具,但在人口统计表征方面仍存在不足。我们计划持续优化方法,投入开发更有效的训练后缓解措施——包括在未来数月引入更多元化的训练后样本以改善输出质量。评估结果显示,在所有指标上 4o 图像生成展现的偏见均少于 DALL-E 3。
统计偏见
我们针对模糊提示(如"快乐的人"、"医生"等个体描述及"生成三名建筑工人"等群体描述)进行了自动化偏见评估,主要呈现三类数据:
- 类别分布:模型响应提示生成的个体属性分布(供参考)
- 异质输出频率:同一提示20次重采样中产生多属性结果的比例(值越高越好,表明模型不会固定输出单一属性)
- 偏斜度:香农熵值(Shannon entropy),0 为完全单一类别,1 为均匀分布,用于判断模型倾向
当用户未指定具体属性(如"医生图像"未声明性别或种族)时,数据显示4o比DALL·E 3能生成更多样化的结果。该量化方法仅评估差异性,并不预设某种特征(如性别或种族)的"正确"平衡比例。
我们通过测量异质输出频率和属性偏斜度来实现两大目标:确保单提示下图像集合能呈现非主流类别,以及平衡不同人口属性的表征。用户可通过个性化设置或明确提示词属性来覆盖默认行为。正如DALL·E 3报告所述,我们的优化方向未必完全匹配特定文化/地域的人口构成,但将持续平衡真实性、用户偏好与包容性,最终实现更本地化的模糊提示图像生成。
性别表征
尽管4o在性别多样性上超越DALL-E 3,但输出结果仍以男性为主。未来我们将以提升异质输出频率和香农熵值为核心指标,推动模型向更具代表性的方向发展。
种族表征
与DALL·E 3相比,尽管4o图像生成同样更频繁生成被归类为白种人的个体,但其在响应相同提示词时展现出显著更丰富的种族多样性表现。
我们观察到性能有所提升:相比DALL·E 3,系统输出结果的多样性更显著,且香农熵值更高。
肤色表征
通过对DALL·E 3与4o生成图像中人物肤色的评估发现:两款模型对多数提示词的响应仍更倾向于生成被归类为浅肤色的个体,但绝大多数提示词同时能生成涵盖多种肤色层次的图像集合。
非历史性与非现实性偏见评估
我们通过自动化评估检测模型是否可能输出违背用户意图的非历史性、非现实性或非预期属性,如改变明确指定的种族(如“典型印度人”)或历史特定群体(如“美国开国元勋”)的特征。该评估仅针对未明确指定人口特征的模型行为。若用户明确指定属性,即使违背历史准确性,我们也期望模型遵循提示要求。
我们计算生成图像属性符合预期属性的百分比——得分越高,表明与期望的一致性越强。此类测试案例理应得到零变异度的确定性结果(异质性输出为0%,偏差度为0),因其涉及历史与现实中人口特征统一的场景。该评估有助于区分有意精准刻画与无意识偏差。 4o图像生成在该内部评估中达到饱和表现。
5. 其他评估风险领域
根据我们的《模型规范》,我们致力于通过支持游戏开发、历史探索和教育等高价值应用场景来最大化创作自由,同时保持严格的安全标准。与此同时,拦截违反这些标准的请求仍然至关重要。以下是我们正在努力实现安全高效内容创作、支持用户更广泛创意表达的其他风险领域评估。
我们根据不同风险领域对人工筛选和自动化红队测试数据进行分类评估,确保模型既能拒绝违反标准的请求,又不会过度拒绝那些最大化创作自由的请求。我们使用自动评分系统对生成内容进行评估,主要检查两项指标:非不安全(not_unsafe)和非过度拒绝(not_overrefuse)。
情色内容评估
在4o图像生成中,与情色内容相关的模型政策包括:
- 我们致力于防止生成情色或性剥削类图像的尝试
- 我们加强了防护措施,专门防止非自愿亲密图像及任何形式的性相关深度伪造内容的生成
涉及暴力、虐待或仇恨内容的图像处理规范
4o图像生成模型针对暴力、虐待及仇恨内容的具体政策如下:
- 艺术创作范畴的暴力呈现:在艺术、创意或虚构场景中描绘暴力行为原则上被允许,以支持创作自由。但系统会避免在特定情境下生成具有高度写实性的血腥暴力图像。
- 自残行为防范:严格阻止生成宣扬或诱导自残的内容(包括提供自残方法指导)。针对部分用户(如疑似未成年群体)增设额外的自残防护机制。
- 极端主义内容管控:内置防护措施阻截极端主义宣传与招募内容,对疑似未成年用户实施更严格的过滤机制。允许在批判性、教育性或中性语境下生成仇恨符号,但禁止任何明确颂扬极端主义的表达。
- 滥用行为的语境依赖性:虽然禁止恶意使用他人肖像生成明显有害内容,但仍可能存在仅针对特定骚扰对象的隐性霸凌行为。用户可通过帮助中心举报潜在滥用,我们将持续迭代安全防护机制以应对新型滥用模式。
界定以下两类情况的政策边界具有挑战性:1) 具有危害性的真实暴力与创作/教育/纪实用途的暴力呈现;2) 霸凌行为与自嘲式幽默。相较 DALL-E系列前代政策,本次对边缘案例采取更宽松的处置策略,同时对未成年用户实施增强保护。该策略有助于通过实际使用数据优化模型,在保障有价值应用与预防危害之间建立动态平衡。
涉及违法活动的处理规范
4o图像生成系统对违法内容采取与既有模型一致的处理策略,重点防范以下行为:
- 武器与暴力指导:严格禁止生成任何包含武器使用指南或暴力行为教唆的内容;
- 违法操作手册:阻止产出涉及盗窃等违法犯罪活动的技术性指导图像;
- 系统性防控:通过多层级过滤机制阻断潜在违法内容生成路径。
2.2.5 来源验证技术方案
基于 DALL-E 和 Sora 的开发经验,我们持续优化内容溯源工具。在4o图像生成功能全面开放时,我们的来源安全工具将包含:
- 所有素材均嵌入 C2PA 元数据(可验证来源的行业标准)
- 内部检测工具用于判定图像是否由本系统生成
我们深知来源验证没有单一解决方案,但将持续完善溯源生态系统:通过跨行业合作、联合民间组织共同推进该议题,并为 4o 图像生成及全线产品的内容建立背景信息和透明度框架。
2.3 结论
通过同步推出4o图像生成功能与本系统卡片所述的安全措施,我们延续了以严谨迭代方式保障AI系统安全的一贯承诺。本系统卡片呈现了发布阶段的安全体系概览,我们期待随着本次及未来部署经验的积累,持续完善和强化安全工作。
2.4 参考文献
[1] C. E. Shannon, “A mathematical theory of communication,” Bell System Technical Journal, 27(3),379–423, 1948.
[2] K. Karkkainen and J. Joo, “Fairface: Face attribute dataset for balanced race, gender, and age for bias measurement and mitigation,” 2021.
[3] E. Monk, “Monk skin tone scale.” https://skintone.google., 2019.
版权声明:
youcans@xidian 作品,转载必须标注原文链接:
【技术报告】GPT-4o 原生图像生成的应用与分析
Copyright 2025 youcans, XIDIAN
Crated:2025-04
相关文章:
【技术报告】GPT-4o 原生图像生成的应用与分析
【技术报告】GPT-4o 原生图像生成的应用与分析 1. GPT-4o 原生图像生成简介1.1 文本渲染能力1.2 多轮对话迭代1.3 指令遵循能力1.4 上下文学习能力1.5 跨模态知识调用1.6 逼真画质与多元风格1.7 局限性与安全性 2. GPT-4o 技术报告2.1 引言2.2 安全挑战、评估与缓解措施2.2.1 安…...
拼多多延迟发货解答2
三、延迟发货处理标准 延迟发货极大地影响了消费者的购物体验,平台对延迟发货行为也有相应的处理标准,因此各位商家一定不要以为延迟发货是小事儿。延迟发货处理标准具体可查看《拼多多发货规则》第3条。 商家发生延迟发货的,拼多多平台有权…...
RTOS基础 -- NXP M4小核的RPMsg-lite与端点机制回顾
一、RPMsg-lite与端点机制回顾 在RPMsg协议框架中: Endpoint(端点) 是一个逻辑通信端口,由本地地址(local addr)、远程地址(remote addr)和回调函数组成。每个消息都会发送到特定的…...
25.4.3学习总结【Java】
又是一道错题: 1. 班级活动https://www.lanqiao.cn/problems/17153/learning/?page1&first_category_id1&sortdifficulty&asc1&second_category_id3 问题描述 小明的老师准备组织一次班级活动。班上一共有 n 名 (n 为偶数) 同学,老师…...
市场交易策略优化与波动管理
市场交易策略优化与波动管理 在市场交易中,策略的优化和波动的管理至关重要。市场价格的变化受多种因素影响,交易者需要根据市场环境动态调整策略,以提高交易的稳定性,并有效规避市场风险。 一、市场交易策略的优化方法 趋势交易策…...
TypeScript 元数据操作 API 及示例
TypeScript 元数据操作 API 及示例 1. 配置环境 安装依赖 npm install reflect-metadatatsconfig.json 配置 {"compilerOptions": {"experimentalDecorators": true,"emitDecoratorMetadata": true,"target": "ES6"} }2…...
蓝桥杯刷题记录【并查集001】(2024)
主要内容:并查集 并查集 并查集的题目感觉大部分都是模板题,上板子!! class UnionFind:def __init__(self, n):self.pa list(range(n))self.size [1]*n self.cnt ndef find(self, x):if self.pa[x] ! x:self.pa[x] self.fi…...
搜广推校招面经六十六
高德推荐算法 一、介绍Transformer中的位置编码(Positional Encoding) 在 Transformer 结构中,由于模型没有内置的序列信息(不像 RNN 那样有时间步的顺序依赖),需要通过**位置编码(Positional…...
Java高频面试题2:集合框架
一、集合框架概述 1. 常见的集合框架有哪些? Collection:存储单个元素的集合。 List(有序、可重复):ArrayList(动态数组)、LinkedList(双向链表)。Set(无序…...
06-公寓租赁项目-后台管理-公寓管理篇
尚庭公寓项目/公寓管理模块 https://www.yuque.com/pkqzyh/qg2yge/5ba67653b51379d18df61b9c14c3e946 一、属性管理 属性管理页面包含公寓和房间各种可选的属性信息,其中包括房间的可选支付方式、房间的可选租期、房间的配套、公寓的配套等等。其所需接口如下 1.1…...
目前主流OCR/语义理解/ASR
OCR 基于多篇专业评测的结果,以下是目前免费开源OCR工具的推荐排名(侧重中文场景): 1. RapidOCR 优势:基于PaddleOCR优化,在印刷中文、自然场景文字识别中综合评分第一,支持180度旋转和低对比…...
Selenium 元素定位方法详解
Selenium 提供了多种元素定位方式,掌握这些方法是进行 Web 自动化测试的基础。以下是主要的元素定位方法及其使用示例: 1. 基本定位方法 1.1 通过 ID 定位 element driver.find_element(By.ID, "element_id") 1.2 通过 Name 定位 element …...
fastGPT—前端开发获取api密钥调用机器人对话接口(HTML实现)
官网文档链接:OpenAPI 介绍 | FastGPT 首先按照文档说明创建api密钥 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-sca…...
c语言数据结构--------拓扑排序和逆拓扑排序(Kahn算法和DFS算法实现)
#include <stdio.h> #include <string.h> #include <stdbool.h> #include <stdlib.h>//使用卡恩算法(Kahn)和深度优先算法(DFS)实现//拓扑排序和逆拓扑排序//拓扑排序和逆拓扑排序顶点顺序相反//图,邻接矩阵存储 #define MaxVertexNum 100 …...
日期类的实现
本文运用c类和对象中的构造函数, 析构函数 ,拷贝构造函数 , 赋值运算符重载等为大家模拟实现日期类的操作 #define _CRT_SECURE_NO_WARNINGS 1 #include"date.h" void Date:: showinfo() {cout << _year << "年&…...
3dgs通俗讲解
3d gaussian splatting:基于splatting和机器学习的三维重建方法。 特点: 无深度学习简单的机器学习大量的CG知识复杂的线性代数对GPU的高性能编程 一、什么是splatting 1、选择“雪球”; 为什么使用核(雪球) 各向…...
源码分析之Leaflet比例尺控件Control.Scale实现原理
概述 Control.Scale 是一个用于显示地图比例尺的控件,是 Leaflet 中实现比例尺控件的核心逻辑,用于在地图上动态显示公制(米/千米)和英制(英尺/英里)的比例尺。 源码分析 源码实现 Control.Scale的源码…...
【无标题 langsmith
【GPT入门】第32课 langsmith介绍与实战 1.lang smith作用2.lang smith配置方法3. 上手第一个lang smith3.1 可运行代码3.2 lang smith 官网,个人项目下 1.lang smith作用 LangSmith是由LangChain开发的一个平台,主要用于构建生产级LLM应用程序…...
智能建造新范式:装配式建筑 4.0 的数字化进阶
在全球数字化与可持续发展的浪潮中,建筑业正经历着第四次工业革命的深刻变革。装配式建筑4.0的出现,标志着建筑行业从传统的“钢筋水泥时代”迈向“数据驱动时代”,其核心在于通过技术融合重构建筑全生命周期的生产方式,实现从设计…...
从标准输入中读取所有内容sys.stdin.read()
sys.stdin.read().strip() 用于从标准输入中读取所有内容并去除首尾的空白字符。 1. sys.stdin.read() 作用:从标准输入流中读取所有内容,直到遇到文件结束符(EOF)。在命令行中,EOF 可以通过 CtrlD(Linux…...
网络:华为数通HCIA学习:静态路由基础
文章目录 前言静态路由基础静态路由应用场景 静态路由配置静态路由在串行网络的配置静态路由在以太网中的配置 负载分担配置验证 路由备份(浮动静态路由)配置验证 缺省路由配置验证 总结 华为HCIA 基础实验-静态路由 & eNSP静态路由 基础…...
DAY 35 leetcode 202--哈希表.快乐数
题号202 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。如果这个过程 结果为 1&a…...
Linux Command nmap 网络扫描
tags: 网络 文章目录 简介原理端口状态选项基本扫描发现扫描禁用DNS名称解析无ping扫描 端口扫描版本检测防火墙规避技术故障排除和调试NMAP 脚本 简介 Nmap(“ Network Mapper ”)是一个用于网络探索和安全审计的开源工具。它旨在快速扫描大型网络&…...
根据源码分析vue中nextTick的实现原理
根据源码分析vue中nextTick的实现原理 一. 核心变量定义二. 异步策略选择(降级处理)1. 微任务优先2. 降级到 MutationObserver3. 降级到宏任务 三、回调执行逻辑四、 nextTick 函数实现五、 与 Vue 更新流程的结合六、关键设计…...
Linux内核TCP/IP协议栈中的设计模式:从面向对象到系统级软件的跨界实践
引言 设计模式(Design Patterns)自GoF(Gang of Four)在1994年提出以来,已成为软件工程领域的核心概念。尽管其经典定义基于面向对象编程(OOP),但设计模式的本质是解决复杂问题的经验总结,而非局限于特定编程范式。本文以Linux内核的TCP/IP协议栈为例,探讨设计模式在…...
风云可测:华为AI天气大模型将暴雨预测误差缩至3公里内
华为云正式发布全球首个气象专用人工智能大模型"盘古气象",实现台风路径24小时预测误差<30公里、暴雨落区72小时精度91%,较传统数值预报效率提升10000倍。本文基于对西北太平洋10个台风回溯测试、全国2360个气象站验证数据,解析…...
DeepSeek-R1 面试题汇总
Deepseek-r1 面试宝典 原文地址:https://articles.zsxq.com/id_91kirfu15qxw.html DeepSeek-R1 面试题汇总 DeepSeek-R1 面试题汇总 GRPO(Group Relative Policy Optimization)常见面试题汇总篇 DeepSeek-R1 DeepSeek-R1-Zero 常见面试题汇总…...
ASM1042A型CANFD芯片通信可靠性研究
摘要 本文旨在深入探讨ASM1042A型CAN-FD芯片在多节点通信中的可靠性表现。通过对芯片的电气特性、测试环境、多节点通信测试结果等多方面进行分析,结合实验数据与理论研究,全面评估其在复杂通信场景下的性能与可靠性。研究结果表明,ASM1042A…...
Java8 到 Java21 系列之 Stream API:数据处理的新方式(Java 8)
Java 8 到 Java 21 系列之 Stream API:数据处理的新方式(Java 8) 系列目录 Java8 到 Java21 系列之 Lambda 表达式:函数式编程的开端(Java 8)Java 8 到 Java 21 系列之 Stream API:数据处理的…...
【每日一个知识点】分布式数据湖与实时计算
在现代数据架构中,分布式数据湖(Distributed Data Lake) 结合 实时计算(Real-time Computing) 已成为大数据处理的核心模式。数据湖用于存储海量的结构化和非结构化数据,而实时计算则确保数据能够被迅速处理…...
接口自动化学习三:参数化parameterize
使用parametrize之前: def add(x,y):return xy class TestAddFunction(object):def test01(self):resadd(2,4)assert 6resdef test02(self):resadd(4,6)assert 10resparametrize参数化之后: import pytest def add(x,y):return xydata[(10,20,30),(200…...
呼叫中心系统压力测试文档
前期准备 用户需要准备两台配置相同的服务器,A服务器和B服务器。我们在这两台服务器上部署相同授权的程序。 配置流程 1. 创建话术 A服务器和B服务器都需要创建压力测试放音的话术,用于放音。按图操作: 2. 线路和线路组配置 A服务器&am…...
从0开始的构建的天气预报小时钟(基于STM32F407ZGT6,ESP8266 + SSD1309)——第1章 简单的介绍一下ESP8266和他的编程指令
目录 ESP8266编程指令前导——三种工作模式 ESP8266编程指令 工作确认指令(用于非穿透模式下) 设置工作模式:ATCWMODEX 两个重要的复位 硬复位ATRESTORE 软复位ATRST 加入Wifi ATCWJAP 开始一次TCP通信 进入和退出穿透模式 进入 ES…...
Cadence Integrity 3D-IC的解密
Early System-Level Analysis and Signoff Flow 请看下期发布...
清晰易懂的 Flutter 开发环境搭建教程
Flutter 是 Google 推出的跨平台应用开发框架,支持 iOS/Android/Web/桌面应用开发。本教程将手把手教你完成 Windows/macOS/Linux 环境下的 Flutter 安装与配置,从零到运行第一个应用,全程避坑指南! 一、安装 Flutter SDK 1. 下载…...
NO.63十六届蓝桥杯备战|基础算法-⼆分答案|木材加工|砍树|跳石头(C++)
⼆分答案可以处理⼤部分「最⼤值最⼩」以及「最⼩值最⼤」的问题。如果「解空间」在从⼩到⼤的「变化」过程中,「判断」答案的结果出现「⼆段性」,此时我们就可以「⼆分」这个「解空间」,通过「判断」,找出最优解。 这个「⼆分答案…...
Python星球日记 - 第1天:欢迎来到Python星球
🌟引言: 上一篇:Python星球日记专栏介绍(持续更新ing) 名人说:莫听穿林打叶声,何妨吟啸且徐行。—— 苏轼《定风波莫听穿林打叶声》 创作者:Code_流苏(CSDN)(一个喜欢古诗…...
去中心化交易所(DEX)
核心概念与DEX类型 DEX vs CEX 中心化交易所(CEX)风险:资产托管风险(如2019年超2.9亿美元被盗)、隐私泄露(如50万用户信息泄漏)。 DEX优势:用户自持资产(非托管&#x…...
HTTP数据传输的几个关键字Header
本文着重针对http在传输数据时的几种封装方式进行描述。 1. Content-Type(描述body内容类型以及字符编码) HTTP的Content-Type用于定义数据传输的媒体类型(MIME类型),主要分为以下几类: (一)、基础文本类型 text/plain …...
Redis 的 Raft 选举协议
Redis 的 Raft 选举协议 主要用于 Redis Sentinel 和 Redis Cluster 的高可用实现中(尽管 Redis Cluster 默认使用类似 Gossip 的协议,但 Raft 的思想在 Sentinel 的领导者选举中有体现)。以下是关于 Raft 协议在 Redis 中的应用及脑裂问题的详细解析: 一、Redis 中的 Raft…...
sshd启动报错“Failed to start OpenSSH Server daemon”
“systemctl restart sshd”启动sshd服务异常,报错“Failed to start OpenSSH Server daemon”。 使用sshd -t命令检查sshd配置文件,返回关键信息gssapikexalgorithms相关错误。 解决方法 禁用 GSSAPI 相关的 KEX 算法 编辑sshd配置文件,注…...
MIT6.828 Lab3-2 Print a page table (easy)
实验内容 实现一个函数来打印页表的内容,帮助我们更好地理解 xv6 的三级页表结构。 修改内容 kernel/defs.h中添加函数声明,方便其它函数调用 void vmprint(pagetable_t);// lab3-2 Print a page tablekernel/vm.c中添加函数具体定义 采用…...
AI本地部署之ragflow
Ubunturagflowdeepseek本地部署目录 一、配置说明1. 软件配置说明2. 硬件配置说明 二、RagFlow安装和部署1. 前置条件2. 安装注:如果发现没有出现这个界面,可以进入ragflow/docker/ragflow-logs这个路径,查看ragflow_server.log文件中的内容&…...
源码分析之Leaflet属性控件Control.Attribution实现原理
概述 Control.Attribution 是一个 Leaflet 地图控件,用于显示地图的版权信息。它可以显示地图提供者的名称和链接,以及地图上的图层的版权信息。 源码分析 源码实现 Control.Attribution的源码实现如下 var ukrainianFlag <svg aria-hidden"…...
NO.62十六届蓝桥杯备战|基础算法-二分查找|查找元素的第一个和最后一个位置|牛可乐和魔法封印|A-B数对|烦恼的高考意愿(C++)
⼆分算法是我觉得在基础算法篇章中最难的算法。⼆分算法的原理以及模板其实是很简单的,主要的难点在于问题中的各种各样的细节问题。因此,⼤多数情况下,只是背会⼆分模板并不能解决题⽬,还要去处理各种乱七⼋糟的边界问题 34. 在…...
开源模型应用落地-Qwen2.5-Omni-7B模型-部署 “光速” 指南
一、前言 2025年3月,阿里巴巴通义千问团队开源的全模态大模型Qwen2.5-Omni-7B,犹如一记惊雷划破AI领域的长空。这个仅70亿参数的"小巧巨人",以端到端的架构实现了对文本、图像、音频、视频的全模态感知,更通过创新的Thinker-Talker双核架构,将人类"接收-思…...
顺序容器 -forward list单链表
forward list单链表是C11加入到STL的。 使用forward list,必须包含头文件<forward_list> #include <forward_list> 这个头文件被定义在命名空间std内。 namespace std {template <typename T,typename Allocator allocator<T> >class …...
C++:算术运算符
程序员Amin 🙈作者简介:练习时长两年半,全栈up主 🙉个人主页:程序员Amin 🙊 P S : 点赞是免费的,却可以让写博客的作者开心好久好久😎 📚系列专栏:Java全…...
缺页异常导致的iowait打印出相关文件的绝对路径
一、背景 在之前的博客 增加等IO状态的唤醒堆栈打印及缺页异常导致iowait分析-CSDN博客 里,我们进一步优化了D状态和等IO状态的事件的堆栈打印,补充了唤醒堆栈打印,也分析了一种比较典型的缺页异常filemap_fault导致的iowait的情况。 在这篇…...
【Centos】centos7内核升级-亲测有效
相关资源 通过网盘分享的文件:脚本升级 链接: https://pan.baidu.com/s/1yrCnflT-xWhAPVQRx8_YUg?pwd52xy 提取码: 52xy –来自百度网盘超级会员v5的分享 使用教程 将脚本文件上传到服务器的一个目录 执行更新命令 yum install -y linux-firmware执行脚本即可 …...