1 前言

AIGC 技术正从实验室走向产业落地，尤其是在零售场景展现出巨大潜力。京东零售作为行业先行者，在 AIGC 视觉素材大规模供给方面积累了丰富实战经验。本文基于京东零售视觉和AIGC应用部的产品经理石孝钢在 Qcon 大会的分享，系统阐述电商 AIGC 落地的核心逻辑、技术架构、商业价值与未来趋势，为行业提供可参考的工业化落地路径。【温馨提示：本文约1.3万字，阅读预计30分钟】

当前 AIGC 技术浪潮席卷全球，在内容生成领域实现突破性进展。图像、视频、文案等多模态生成能力日新月异，模型效果不断刷新行业认知。但在产业级落地过程中，尤其是电商这种海量商品、高频迭代、严苛合规的场景中，AIGC 从 “能生成” 到 “能商用” 存在巨大鸿沟。大量企业简单认为接入模型 API 即可解决内容供给问题，却忽视了生成规模、成功率、可用率、成本控制、商业转化等核心问题。

京东零售面对百亿级动销商品、周粒度高频促销、海量 SKU 素材需求，通过自主研发京点点 Oxygen Vision（ai.jd.com），实现日生成千万级素材、服务百万商家、业务指标显著提升的实战成果。本文将围绕以下模块展开：首先剖析电商AIGC落地的核心认知误区与现实挑战；其次详解“艺术、技术、算术”三大核心维度的实践逻辑，拆解京点点 Oxygen Vision 平台的底层架构与运行机制；随后系统性介绍京点点 Oxygen Vision 的双引擎产品矩阵；最后分享行业洞察与未来发展展望，阐述商品素材AI生成规模化落地的核心密码。

2 电商AIGC落地的问题与挑战

2.1 “能生成”不等于“能落地”

当前，行业内对AIGC的关注多集中在“模型能力”上——哪个模型生成效果更逼真、哪个模型响应速度更快、哪个模型支持的生成类型更丰富。这种关注本身无可厚非，但如果将模型的生成能力等同于落地的生产能力，就会陷入严重的误区。

石孝钢在演讲中坦言：“很多人看到最新的模型效果，第一反应都是‘太强了！是不是直接接个API，素材生成问题就可以彻底解决了？’，这是我们团队被问的最多的问题。”但在模型能力之外，石孝钢团队更关心的，也是每天都在追问自己的问题却是：生成量多大？成功率多少？可用率多高？总成本扛得住吗？它对真实的商家、对京东的生意，有帮助吗？这些问题，才是电商AIGC落地的核心关键。

2.2 平台级的AIGC应用落地挑战

提到平台级的AIGC应用在落地时的挑战，石孝钢以京东的实际案例进行举例。作为承载百亿级动销商品的零售平台，京东平台上的每个商品都会同时存在十余种不同规格、调性的素材，还要应对周粒度的高频促销更新，素材需求呈现海量且动态迭代的特点。

结合实际调研，京东平台的商家店铺平均有上千个SKU在售，京东自营采销动辄就要负责上万个SKU，素材生产的工作量极为庞大，若采用传统外包模式，单张图的10-20元的生产成本，叠加运营SKU的数量、多版本需求和每周一次的更新频率，在日趋激烈的行业竞争下，成本投入难以承受，最终导致仅10%-20%的素材被有效运营，大量素材处于“放养”状态。这背后折射出平台级AIGC落地最核心的挑战——如何高效、低成本地满足海量、高频、多样化的素材供给需求，破解传统生产模式与平台业务体量不匹配的困境，同时兼顾素材质量与商业价值，这也是平台级AIGC从Demo走向规模化落地必须突破的关键难题。

因此，我们得出了第一个现实的观察：电商 AIGC 的应用落地，绝对不只是一个“生成问题”。

京东零售AIGC产品团队在实践中发现，电商 AIGC 的落地，本质需要解决四大核心问题：生成问题、体验问题、控制问题、生意问题。四大问题层层递进，构成了电商 AIGC 规模化落地的核心挑战。

第一是生成问题，这是整套体系搭建的基础。底层大模型能力每一次迭代跃迁 —— 从文本生成到图文创作，再由静态图像升级为动态视频，持续打破电商内容供给的产能天花板，解锁全新的内容生产模式。强大的生成能力是落地的前提，但仅代表能力上限，绝非全部。技术研发不能只追求视觉效果的炫酷，更要兼顾真实业务场景的多元需求。

第二是体验问题。电商属于强体验消费场景，平台频道有运营规则、品牌有视觉规范、各品类对应精准人群与行业竞争逻辑，电商场景专属的美学标准与通用设计美学存在显著差异，需要定制化的内容表达体系。

第三是控制问题，也是电商场景的核心刚需。核心目标是保障商品信息一致性、内容合规性，确保商品卖点、促销信息真实客观，在安全可控的前提下完成内容创作。例如：商品 LOGO、配色、版型等核心要素必须精准还原，杜绝货不对版；营销促销信息严禁夸大虚构，坚守宣传底线；同时严格遵循平台合规规则，规避低俗、违规、风险类内容产出。

第四是生意问题，这是电商 AIGC 落地的最终落脚点。即便内容画面质感出众、内容可用率极高，若无法帮助商家提效降本、拉动业务增量、实现正向 ROI，AIGC 就只能停留在实验层面，无法规模化商用。电商 AIGC 的核心价值，是助力商家降本增效、帮助平台提升转化效率，最终实现平台与商家的双向商业共赢。因此，所有技术迭代与产品设计，都必须围绕商业经营目标展开，精细化核算成本、量化业务收益。

2.3 “技术、艺术、算术”哲学破解落地难题

为破解三个核心问题，更好地为平台商家提供高效、低成本的素材供给服务，京东零售技术团队专门构建了一套代号为京点点 Oxygen Vision 的统一落地系统，为京东AIGC百亿素材供给实践提供了核心支撑。这套系统的核心哲学，可凝练为“艺术、技术、算术”六个字，其中艺术决定做什么，聚焦对齐电商审美需求、找准发力方向；技术解决怎么做，主打交付稳定、可控的确定性结果；算术解答值得吗，立足ROI视角精算每一分Token的经济学价值。

3 艺术：美学到生产力的量化

3.1 电商AIGC不是“艺术家”，而是“超级导购”

在AIGC落地实践中，第一个需要突破的认知，就是“美学标准”的重构。通用AIGC和电商AIGC的训练目标，存在本质的差异：通用大模型在努力让自己成为“艺术家”，追求生成图像的美观度、艺术性，比如画出好看的人像、绚丽的风景；但电商AIGC不需要做艺术家，它的第一天职是“设计服务商业”，是一个“超级导购”，其核心目标是通过素材设计，吸引用户点击、促进用户转化，而不是追求单纯的“好看”。

传统的图像美学评估（IAA）工作，其打分训练更多是与艺术方向对齐，采用单一或多维分数来评价图像的美观度。但京东零售技术团队的实践测试发现，这种评估方式并不适用于电商场景。比如，一款冲锋衣的纯白底图、带卖点文字的图片，在传统美学评估中往往会因为“不够美观”“文字过多”而得到低分，但这些图片在电商场景中，却能更精准地传递商品信息、吸引目标用户，从而获得更高的点击率和转化率。

这就意味着，电商AIGC的美学标准，必须跳出“感性、难以量化”的艺术评价，转向“务实、可量化”的商业评价。我们不能用“这图好不好看”来验收素材，而应该用“这图能不能带来点击、能不能促进转化、能不能降低成本”来衡量素材的价值。

3.2 电商场景的美学多样性：不同场域，不同需求

电商场景的复杂性，决定了素材美学需求的多样性。在京东购物平台上，不同的素材展示位置、不同的用户意图，对素材的要求有着显著的区别。如果用统一的美学标准来生成素材，必然无法满足所有场景的需求。

具体来说，不同场域的素材需求的差异主要体现在以下几个方面：

一是首页、活动页。这类场景的核心目标是突出统一的平台调性、营造活动氛围，因此素材通常采用商品白底图，设计简洁、统一，避免过多的文字和装饰，确保页面整体的整洁度和一致性。比如，在百补国补频道，所有商品素材均采用白底图，既突出了商品本身，又保证了页面的整体美观。

二是推荐场域。这类场景下，用户属于“随便看看、逛一逛”的状态，因此素材需要通过场景感激发用户的兴趣。比如，服装类商品的素材，会展示用户穿着服装在户外、居家等场景的效果；家电类商品的素材，会展示商品在家庭环境中的使用场景，让用户能够直观地想象到商品的使用效果，从而激发购买欲望。

三是搜索场域。这类场景下，用户的购物意图明确且强烈，素材的核心目标是吸引用户点击。因此，素材会八仙过海、各尽所能，有的展示商品外观，有的展示使用场景，有的突出核心卖点，甚至会加入促销信息，比如“限时优惠”、“买一送一”等，最大限度地吸引用户点击进入商品详情页。

四是商详场域。这类场景是用户决策的关键环节，素材的使命是激发用户转化。因此，素材除了展示商品的核心卖点外，通常会加入高强度的促销信息、赠品信息等，比如“限时补贴”、“赠精美礼品”、“7天无理由退换”等，打消用户的购买顾虑，促进用户下单。

3.3 数据驱动的美学探索，构建任务规划引擎

基于对电商美学的深刻认知，京东零售技术团队做的第一个动作就是放弃追求美学评价，转为探索电商务实的设计维度。他们把电商素材设计维度分成了5个主维度，包括：商品、场景、情绪、信息和促销。

商品维度：核心聚焦产品的面积占比强度，在此基础上延伸出多个细节子维度，包括拍摄视角、商品呈现方式、是否采用多商品组合展示、是否带有产品包装等，核心目标是确保商品的核心特征能够清晰、突出地呈现，让用户快速捕捉商品本身的关键信息。
场景维度：重点关注与用户使用需求的关联程度，覆盖从纯白底（适配平台首页、活动页等场景）到真实使用场景的全范围，同时包含道具搭配、打光效果、画面色调、背景虚化程度等子维度，可根据不同展示场域的需求，灵活调整场景呈现形式，适配多样化展示需求。
情绪维度：涵盖从客观呈现商品规格参数的纯理性，到传递情感共鸣的纯感性氛围，在此维度下延伸出目标人群、购物动机（如是否用于送礼、日常自用等）等子维度，核心是贴合用户心理需求，让素材能够传递出契合用户期望的情绪价值，提升用户共鸣感。
信息维度：核心关注画面中文案与营销图案的面积占比，在此基础上延伸出文案风格等子维度，重点确保信息传递的精准性和高效性，既避免文案过多杂乱影响观感，也保证核心营销信息能够清晰传递给用户。
促销维度：聚焦信息中价促类型的占比，延伸出促销类型、视觉强度等子维度，核心目标是突出促销亮点，通过合理的视觉设计和内容配比，让用户快速捕捉促销信息，助力提升商品转化效率。

通过这五大维度的系统分解，我们能够快速定位不同场域偏好的素材构图框架，并在此基础上开展针对性的优化探索，让素材设计更贴合电商场景的商业需求。与此同时，我们也做出了关键取舍：将常规生成质量评测中，商品一致性、人物崩坏、黄暴恐政等非设计方案层面的参数进行解耦，将其放到后续可控生成阶段进行专门的控制和质检，有效避免了不同维度的混淆，让美学探索能够聚焦于设计方案本身，提升素材设计的效率与精准度。

这套数据驱动的美学探索路径，落地的关键逻辑就是“以业务目标为导向，通过实验迭代优化”，大致涵盖以下四个步骤：

第一步，冷启动：为了避免随机探索对业务造成负向影响，我们没有从0开始探索，而是先提取不同场域、不同品类的“好图”设计特征，作为探索的冷启动起点。比如，在搜索场域，提取服装类商品点击率高的素材的共同特征——比如场景化展示、突出版型、加入简单卖点文字；在商详场域，提取家电类商品转化率高的素材的共同特征——比如突出核心参数、展示使用场景、加入促销信息。这些特征，成为我们生成素材的基础依据。

第二步，多样化探索：在冷启动特征的基础上，通过模仿、变异等多样化策略，生成大量的实验素材。模仿，即基于好图特征，生成风格、结构相似的素材；变异，即在好图特征的基础上，进行轻微的调整和创新，比如调整文字位置、更换场景背景、优化商品角度等，避免素材同质化。

第三步，实验投放：将生成的实验素材，通过线上AB实验的方式进行投放，实时回收素材的效果数据——比如点击率、加购率、转化率、留存率等。这些数据，成为我们判断素材价值的核心依据。

第四步，迭代优化：根据AB实验的效果数据，分析哪些素材设计策略有效、哪些无效，总结规律，迭代优化素材生成策略。通过持续的“观察-思考-行动”循环，不断提升素材的质量和效果，追求目标回报率的最大化。这里的回报率，是可分场域、分品类定向设置的，比如搜索场域重点关注点击率，商详场域重点关注转化率。

3.4 任务规划引擎的“快慢思考”系统

这套数据驱动的美学探索系统，最终落地为京点点 Oxygen Vision 平台的任务规划引擎，它具备“快慢思考”两个系统，能够根据不同的任务类型，灵活调整执行策略，兼顾效率和效果。

系统一，快思考/肌肉记忆：针对意图极其明确的简单任务，或者在前期多轮实验中已经取得明确有效生成策略结论的任务，直接命中规则，瞬间下发执行指令。比如，“生成商品白底图”“仅仅改个价格标签”这类任务，不需要复杂的探索和推理，直接调用成熟的生成策略，实现毫秒级响应，0算力浪费，最大限度地提升效率。

系统二，慢思考/深度推理：针对模糊指令，比如“优化商品点击率”“优化排名”“生成千人千面素材”等探索性任务，系统二被唤醒。它会按照未收敛任务的“观察-思考-行动”模式，结合品类、场域知识，进行深度的意图理解与提示词强化（PE），生成策略性的探索方案。比如，用户提出“优化某款手机的点击率”，系统二会先分析该手机的核心卖点、目标人群、所在场域，然后结合同类手机点击率高的素材特征，生成多种不同的素材设计方案，进行实验投放，最终筛选出最优方案。

此外，还有一种特殊情况：当一个任务从执行侧返回“多次尝试最好的模型仍未通过质检”时，规划引擎会降低设计蓝图的复杂程度，比如简化素材的设计元素、降低生成难度，确保任务能够顺利交付，避免因设计过于复杂而导致任务失败，影响业务进度。

4 技术：跨越Demo到生产的鸿沟

4.1 能生成≠能交付，工业化落地要守好“确定性”红线

如果说“艺术”解决的是“做什么”的问题，那么“技术”解决的就是“怎么做”的问题。在电商AIGC的技术落地中，首要的就是明确“能生成”和“能交付”是两个完全不同难度等级的任务。

在Demo阶段，我们的目标是“抽卡成功”——只要能生成1次惊艳的Good Case，就是值得肯定的成果。但在工业化生产阶段，我们的目标是“零事故交付”——在海量的素材生成中，必须确保每一张出街素材都符合要求，不能出现任何Bad Case。因为在实际曝光场景中，一张不合格的素材，可能会引发客诉、索赔，甚至影响平台的口碑和信任度。

因此，工业化落地的技术核心，是“确定性”和“合规性”，这是不可逾越的红线。具体来说，就是要确保生成的素材：商品信息精准无误，没有变形、错位、遗漏；合规合法，没有违规内容、虚假宣传；质量稳定，可用率达到行业领先水平；同时，还要兼顾效率和成本，能够实现规模化生成。

4.2 放弃“万能模型”幻想，拥抱“分层模型矩阵+智能调度”

在技术路线的选择上，初期，京东零售技术团队试图用一个端到端的大模型，叠加上MOE（混合专家）架构，来搞定所有的生成任务——需要参考图生成，就接入ReferenceNet；需要固定商品高频特征细节，就接入ControlNet；需要去背景，就用这个模型直接端到端输出白底图。

从运维的角度来看，这种模式似乎很完美：一个统一的模型，全集群无差别重复部署，彻底消除了不同任务之间的负载不均，任务的通用性拉满。但在实际落地中，我们发现了一个残酷的真相：在日常任务中，有超过3成的任务，其实只是要求把一张商品图精准地变成“白底图”！

如果为了追求所谓的“架构统一”，用12B DiT模型去完成这个简单的任务，与用0.1B的抠图模型相比，就算使用MOE控制激活参数量，也会存在高达400倍的成本差。这意味着，大量的算力被浪费在简单任务上，导致整体成本居高不下，无法实现规模化落地。

基于这个教训，石孝钢分享了三个核心观点，也成为了京点点 Oxygen Vision 落地的核心指导原则：

第一，端到端，绝不等于商业上的最优解。端到端模型虽然技术上看似先进，但在商业场景中，往往会造成算力浪费、成本高企，不符合电商AIGC“规模化、低成本”的核心需求。

第二，MOE（混合专家）架构，也不是掩盖算力浪费的万能药。MOE架构虽然能够在一定程度上优化模型的效率，但无法从根本上解决“用高端模型做简单任务”的算力浪费问题。

第三，在极端的工业级并发下，精细化的工程编排，远远大于盲目追求单一的万能模型。电商AIGC的规模化落地，关键不在于模型有多先进，而在于如何将不同能力、不同成本的模型进行合理编排，实现“任务与模型的精准匹配”，最大化提升效率、降低成本。

4.3 核心架构：分层模型矩阵+智能调度网络，实现高效可控生产

在实际应用落地的过程中，京点点 Oxygen Vision 尝试构建“分层模型矩阵+智能调度”的全新技术架构，来确保高效可控的生产能力。这套架构的核心是将原本耦合的核心执行过程，拆解为标准化环节，构建多能力、多成本的模型矩阵，再通过智能调度网络，实现任务与模型的精准匹配，兼顾效率、质量和成本。这套架构的运转，主要分为两步：构建分层模型矩阵、搭建智能调度网络。

第一步：构建分层模型矩阵，打好算力底座

京东零售AIGC产品团队将AIGC素材生成的核心执行过程，切分为四个标准化环节：前处理、生成、后处理、质检。通过规范这四个环节之间的出入参协议，构建一个支持“热插拔”的系统——每个环节都可以独立升级、替换，不影响其他环节的正常运行，提升系统的灵活性和可扩展性。

在每一个环节中，我们都部署了N个能力、成本各异的模型，形成分层模型矩阵。这些模型涵盖了不同的参数规模、不同的技术路线，既有几十亿参数的满血版大模型，用于处理复杂的生成任务（例如：场景化素材生成、千人千面素材生成）；也有专门做过INT4、FP8极限压缩的量化版本，用于处理中等难度的任务（例如：常规主图生成、卖点图生成）；还有最传统的CPU算法小模型，用于处理简单的基础任务（例如：白底图生成、图片抠图）。

更重要的是，系统中的每一个模型节点，都不再是一个冷冰冰的API，而是一个带有“实时动态简历”的实体。它需要时刻向中央调度系统汇报自己的四个关键信息：

1. 能力定义：明确自己擅长什么、做不了什么，比如有的模型擅长服装类素材生成，有的模型擅长家电类素材生成，有的模型擅长抠图，有的模型擅长视频生成。

2. 实时负载：汇报自己当前的排队情况，比如当前有多少任务在等待处理、剩余算力多少，确保调度系统能够实时掌握每个节点的运行状态。

3. I/O成本：汇报调用自己一次的单位Token成本，比如调用12B大模型一次的成本是多少，调用0.1B抠图模型一次的成本是多少，为调度系统的成本优化提供依据。

4. SLA时延：汇报自己最快几秒钟能把结果输出，比如抠图模型的时延是100毫秒，大模型的时延是1秒，确保调度系统能够根据任务的时延要求，选择合适的模型节点。

通过这种分层模型矩阵的构建，我们为AIGC的规模化生产，打下了坚实的算力底座，既保证了复杂任务的生成质量，又兼顾了简单任务的效率和成本。

第二步：搭建智能调度网络，实现最优路径选择

如果说分层模型矩阵是“算力底座”，那么智能调度网络就是这套架构的“灵魂”。它是一个极轻量级的多模态强化学习调度网络，核心作用是：根据任务需求、图像难度、系统负载，在四个执行阶段交织成的DAG（有向无环图）行动空间中，选择一条“质检通过率最高、算力成本最低”的组合路径。

智能调度网络的运转逻辑，主要分为三个步骤：

第一步，难度识别。在视觉提取上，我们采用了轻量级的Swin Transformer架构，以极低的算力开销，瞬间扫描出输入图像的“物理难度”——比如图像的清晰度、商品的复杂程度、是否有复杂背景等。比如，一张清晰的纯色背景商品图，难度较低；一张模糊的、多背景的商品图，难度较高。

第二步，需求解析。调度网络会解析上层传来的“文本指令”，明确任务的核心需求——比如是生成白底图、还是生成场景化素材，是追求极致效果、还是追求低成本，是要求低时延、还是可以接受一定的时延。

第三步，路径选择。调度网络将“图像难度”“文本指令”“当前系统负载率”三者结合，在强化学习的预训练下，通过多头分类器输出一条最优的组合路径。比如，对于“生成商品白底图”这个简单任务，调度网络会选择“CPU抠图小模型”，确保低成本、低时延；对于“生成场景化服装素材”这个复杂任务，调度网络会选择“满血版大模型”，确保生成质量。

4.4 架构优势：系统自发“涌现”高级运维能力

当我们将系统重构为“分层模型矩阵+智能调度网络”的动态DAG路由架构后，出现了一个令人惊喜的现象——系统开始自发“涌现”出高级的微观运维能力，这些能力不需要人工干预，完全由系统自主实现，大幅降低了运维成本，提升了系统的稳定性和可靠性。

这些自发涌现的能力，主要体现在以下五个方面：

现象一：Too Bad!（质量击穿）。系统发现某个廉价节点几乎没有流量，原因是调度网络发现，只要任务走到这个节点，就会因为产出废片被后置的质量防线疯狂扣分。这相当于系统发出的红色警报，提示算法团队：这个模型根本省不了钱，必须马上重新微调，否则会影响整体的素材可用率。

现象二：Good Enough!（性能溢出）。反过来，某高端模型处于空闲状态，而大量任务走廉价节点依然保持了高通过率。这说明廉价模型已经“足够好”，能够满足当前任务的需求。此时，工程团队就可以放心地将珍贵的高端GPU资源降配回收，用于处理更复杂的任务；同时，算法团队可以考虑在同样的算力消耗预算下，尝试优化优质模型，挑战更高的质检标准。

现象三：Catch All!（柔性容灾）。当某个节点突然不可用时——比如模型崩溃、服务器故障，调度网络会在分钟级的路径失败内，发现流向该节点的任务通过率暴跌，然后瞬间将流量平滑泄洪到同层级的备用或降级节点，为工程修复争取宝贵的时间，避免业务损失。这种柔性容灾能力，确保了系统的高可用性，即使单个节点出现问题，也不会影响整体的素材供给。

现象四：Skip!（架构折叠）。当新一代端到端大模型引入后，调度网络发现，直接用新模型生成素材，比“抠图+合成”的传统路径效率更高、成本更低。于是，系统会自动切断冗长的前置节点，完成拓扑结构的折叠进化，无需人工干预，就能实现系统效率的提升。

现象五：Too Hard!（知难而退）。当上游传来的需求，多次经过每层最好的节点仍无法通过质检时，系统会向美学大脑（任务规划引擎）反馈，提示当前规划的设计蓝图过于复杂，建议上层简化设计后重新下发任务。这种“知难而退”的能力，避免了算力的浪费，确保了任务的交付率。

4.5 组织协同：建立产品、算法、工程的默契契约

技术架构的落地，离不开组织协同的支撑。通过工程实现的算力资源有效利用率监控，我们理顺了产品、算法、工程三个团队之间的默契契约，形成了“各司其职、协同发力”的工作模式，确保系统能够持续迭代优化。

具体来说，三个团队的职责分工如下：

产品团队：负责跟踪各类任务的通过率与实际业务效果数据，比如素材的点击率、转化率、成本等，同时持续迭代质检评测集，明确素材的质量标准，为算法优化和调度策略调整提供依据。

算法团队：负责优化每个节点的模型效果、速度、推理成本，针对质量差的模型进行微调，在保证质量的前提下，探索模型的降本提速空间，同时根据产品团队提供的评测集，持续提升模型的可用性。

工程团队：负责调度链路的建设与落地实现，确保系统的高可用性和资源优化，比如节点的部署、负载均衡、故障修复等，同时根据调度网络的反馈，优化系统的拓扑结构，提升系统的运行效率。

这种清晰的职责分工和协同机制，确保了京点点 Oxygen Vision 平台能够持续迭代优化，不断提升素材生成的质量、效率和成本控制能力，为规模化落地提供了坚实的组织保障。

5 算术：ROI视角下的Token经济

5.1 不谈算力成本的AIGC，都是耍流氓

如果说“艺术”解决“做什么”，“技术”解决“怎么做”，那么“算术”解决的就是“值得吗”的问题。

在电商AIGC的规模化落地中，我们面临着一个“不可能三角”：效果、成本、吞吐。而在实际业务中，三种倾向的任务同时存在：

一是追求极致效果的精细化运营任务，比如高流量商品的素材优化、新品首发的素材生成，需要天花板级效果的素材，用于AB实验验证业务假设，这类任务可以接受较高的算力成本。

二是实时工具箱类任务，比如商家实时生成素材、用户自主生成搭配图，需要低时延、高并发的吞吐能力，才能在高峰时段保障用户体验，这类任务需要控制成本，同时确保一定的效果。

三是大量的业务治理类任务，比如素材去水印、擦除牛皮藓、批量生成基础白底图，这类任务不需要太高的效果，核心需求是用最低的成本大量产出，确保效率。

因此，所有的技术决策、调度策略，本质上都是效果（Q）、时延（T）、成本（C）的博弈。而这场博弈的终极目标，回到生意层面，就是为了提升业务增益，实现正向ROI。

5.2 以业务增益为导向，精算每一笔算力账单

京东零售的AIGC产品团队的“算术”逻辑，核心是“以终为始”——所有的成本投入，都要围绕业务增益展开，精算每一笔算力账单，确保每一分算力投入都能带来相应的商业回报。简单来说就是业务回报减掉生产成本的最大化，奖励函数分3个部分，红色部分代表生成素材的算力资源消耗，蓝色部分代表设计方案预期产生相对品类的业务增益指标。

此外，团队还引入了“业务乘数”的概念，将算力预算与业务价值挂钩。业务乘数是增益放大器，因为AIGC素材是以曝光作为转化漏斗的起点的，所以我们实际使用时，采用的是“曝光获取能力”来衡量业务价值。

比如，高流量商品或者高价值展示点位的任务，受到业务乘数的放大，具有更高的商业价值，因此有更充足的算力预算，可以使用更高级的模型做生成交付，并在高峰时段享有更充足的算力保障；而低流量、低价值的任务，则会分配更经济的算力资源，控制成本。

同时，系统还具备“闲时优化”的能力：当系统识别到高等级模型存在空闲，且有机会提升业务指标时，会慷慨地开放更好的生成能力给腰尾部任务，比如为低流量商品生成更高质量的素材，提升其点击率和转化率，实现算力资源的最大化利用。这种“差异化算力分配”的逻辑，既保证了高价值任务的效果，又控制了整体的算力成本，实现了“效果与成本”的平衡，确保了AIGC落地的商业可行性。

6 京点点 Oxygen Vision 产品矩阵：从实验室到业务一线

基于“艺术、技术、算术”三大核心逻辑，京东零售AIGC产品团队构建了京点点 Oxygen Vision 产品矩阵，将AIGC能力从实验室真正落地到业务一线，形成了“智能体探索上限、嵌入式微服务规模化落地”的双轮驱动模式，既保证了技术的先进性，又确保了业务的实用性。

京点点 Oxygen Vision 包含2层产品体系：

上层是“探索引擎”。这是一个独立可交互的“设计智能体”，为京东商家和采销提供高效高质量的设计服务，并在这里收集极端业务 Case，沉淀品牌知识，不断优化我们的美学系统大脑。

下层是“增长引擎”。这是一个嵌入到全站工作流中的“生成微服务”，在后台执行极限的算力运筹和分发。

6.1 京点点 Oxygen Vision 设计智能体，探索AIGC上限的“实验室”

京点点 Oxygen Vision（ai.jd.com），是京东零售推出的零售行业首个全自动AI设计智能体，也是京东零售AIGC能力的“实验室”。他的核心作用是探索AIGC的技术上限和应用边界，收集商家和采销的真实需求，沉淀品牌知识，不断优化美学系统大脑。

京点点 Oxygen Vision 平台的核心优势，在于能够处理“模糊需求”，实现从需求分析到效果验证的全流程自动化。比如，商家提出“优化某款商品的主图点击率”，这个需求非常模糊，没有明确的设计标准和方向。此时，设计智能体会通过以下步骤，完成需求的落地：

第一步，商品分析。智能体首先会分析该商品的核心卖点、目标人群、品类特征，以及当前素材的优缺点，明确优化的方向。比如，某款冲锋衣的核心卖点是“防风防水”，目标人群是户外爱好者，当前素材的问题是没有突出这一卖点，那么优化方向就是突出“防风防水”的核心特征。

第二步，竞品分析与策略推理。智能体会抓取该品类竞品中TOP优质素材的设计特征，分析竞品的优势和不足，结合自身商品的特点，推理出最优的设计策略。比如，分析发现，户外品类的高点击率素材，多采用场景化展示+核心卖点文字的设计方式，那么智能体就会采用这一策略，生成相关素材。

第三步，多方案生成。基于设计策略，智能体生成多种不同的素材方案，涵盖不同的场景、不同的文字排版、不同的商品角度，确保素材的多样性。

第四步，AB实验投放与迭代。将生成的素材方案，通过线上AB实验的方式进行投放，实时回收效果数据，分析不同方案的点击率、转化率，筛选出最优方案。同时，智能体还具备“一个SKU多轮实验”的分析和迭代能力，帮助商家持续优化素材，不断提升业务效果。

此外，京点点 Oxygen Vision 平台还承担着“收集需求、沉淀知识”的重要作用。它会收集商家和采销的真实素材需求，识别当前行业SOTA模型也很难做到可用的Hard Case，将这些Case纳入模型优化的重点测试集，推动模型能力的持续提升；同时，通过持续的实验迭代，发现可固化为“肌肉记忆”的标准流程，为嵌入式微服务的规模化落地提供支撑。

6.2 嵌入式生成微服务，实现规模化生产的“工业流水线”

如果说设计智能体是“探索上限”的实验室，那么嵌入式生成微服务，就是“做大规模”的工业流水线。它将AIGC能力拆解成微服务，像水和电一样，悄无声息地接入到商家和运营每天在用的工作台里，不强调炫酷的聊天界面，没有情绪价值，只强调批量、稳定、自动化，真正把AIGC从一个只能发朋友圈炫技的Demo，变成了一台轰鸣的业务增长引擎。

这款嵌入式生成微服务的核心特点，主要体现在以下三个方面：

一是全流程嵌入，无缝衔接业务。微服务被嵌入到京东零售的全站工作流中，涵盖商品发品、商品运营、商品营销等所有环节，商家和运营不需要切换平台，在日常工作中就能直接调用AIGC能力。比如，商家在上传商品时，就能直接生成主图、商详图；运营在策划促销活动时，通过商品编号就能直接生成促销素材；采销在优化商品展示时，就能直接批量生成多版本素材。

二是支持批量操作，提升运营效率。微服务支持单点、批量的素材诊断和生成需求，能够满足商家和运营的规模化需求。比如，商家可以一次性上传多个SKU，批量生成白底图，大幅提升运营效率，减少人工工作量。

三是承接业务验证，实现闭环迭代。微服务能够承接业务方的验证需求，定向批量生成素材，并进入系统级AB实验，回收效果数据，将数据反馈给设计智能体和模型优化团队，实现“素材生成-实验投放-数据反馈-模型优化”的完整闭环，持续提升素材质量和业务效果。

6.3 核心实践成果：效率、规模、效果三重突破

经过长期的实践探索，京点点 Oxygen Vision 平台已经成为京东零售AIGC规模化落地的核心支撑，在效率、规模、效果三个方面实现了三重突破，交出了一份亮眼的成绩单：

一是效率突破：日供给量稳定突破1000万+，能够满足京东百亿级动销商品的素材需求，覆盖主图、商详图、卖点图、广告图、促销图等所有素材类型，高效解决海量素材供给的瓶颈。

二是规模突破：服务商家超100万家。涵盖京东自营、第三方商家等所有类型，无论是头部品牌，还是中小商家，都能通过该系统获得高效、低成本的素材生成服务，实现降本增效增收。

三是效果突破：在极其严苛的线上A/B真实流量实验中，AIGC供给素材为实验商品带来的核心XTR（综合业务增益指标）提升达到了+29%，真正实现了“素材赋能业务增长”的核心目标。此外，通过“分层模型矩阵+智能调度”的架构优化，以及精细化的成本核算，Oxygen Vision系统将商家的素材制作成本降低了90%+，大幅减轻了商家的运营负担，持续提升商家的盈利能力。

7 行业观察与未来展望

7.1 行业观察：行业卷模型，业务卷ROI

在当前的AIGC行业中，存在一个明显的趋势：行业层面，大家都在疯狂“卷模型”——无论是大模型的参数规模、生成效果，还是新模型的迭代速度，都在不断突破；但在业务层面，真正的核心竞争力，在于“卷ROI”——即如何在保证效果的前提下，控制成本、提升效率，实现商业价值的最大化。

在QCon大会上，很多同行都在讨论OpenClaw、Hermes等前沿自主Agent，这些技术概念非常前沿、非常性感，代表了AIGC技术的未来方向。石孝钢表示：“作为技术人，我们承认这些技术的先进性，但作为背负着真实业务指标的落地团队，我们必须保持冷静：以终为始的商业ROI，永远大于盲目追新的技术形式”。

在电商AIGC的工业化落地中，那些几百毫秒就能跑完、成本极低、稳扎稳打的“务实小模型”，依然发挥着不可替代的作用。技术潮流会不断更迭，今天火的是MMDiT，明天可能又是新的架构，但如何站在生意的视角，把不同能力、不同成本的节点编排好，精算每一笔算力账单——这种对系统极限效能的运筹和组织能力，才是不受时代周期影响的，真正属于自己的护城河。

7.2 未来展望：素材供给，从“面向人”到“面向Agent”

尽管强调“务实落地”，但京东零售AIGC产品团队也始终关注技术的未来发展趋势。其中，一个极其前沿且重要的趋势是：素材供给，正在从“面向人”走向“面向Agent”。

随着AIGC技术的不断发展，未来的C端用户，会越来越多地依赖各种AI购物助手和自主Agent来获取购买建议、完成购物决策。这意味着，电商素材的“消费者”，不再仅仅是人类的眼睛，还多了一种全新的消费群体——VLM（多模态视觉大模型）。

VLM观察世界、理解图片、提取关键信息的方式，和人类对“美”的感知是截然不同的。人类更关注素材的美观度、场景感、情绪价值；而VLM更关注素材的信息完整性、准确性、结构化程度，能够快速提取商品的核心卖点、参数、促销信息等关键内容。

由于京东零售技术团队同时承接了集团内部“视觉理解”的能力供给，最近正在探索一个全新的命题：未来的电商好图，到底长什么样？它不能仅仅是让人类觉得“审美高级”，还必须具备极高的Agent识别效率（Machine-Readability）。如何在满足人类情绪价值的同时，让大模型在极短的时间内、最精准地抓取到商品的卖点特征？平衡“人类审美”与“机器可读性”的新一代设计范式，将是未来电商AIGC的核心探索方向。比如，在素材设计中，既要保证画面的美观度和场景感，吸引人类用户点击；又要规范卖点文字的排版、商品参数的展示，确保VLM能够快速识别和提取关键信息，为AI购物助手提供精准的素材支撑。

附：本文整理于京东零售视觉和AIGC应用部的产品经理石孝钢 4月18日在Qcon全球软件开发大会上演讲内容，想体验京点点 Oxygen Vision 产品功能，京东员工可以直接登陆 https://ai.jd.com。

【Qcon大会实录】艺术 · 技术 · 算术：京东零售AIGC百亿素材供给实践