开发者社区 > 博文 > 【Qcon大会实录】艺术 · 技术 · 算术:京东零售AIGC百亿素材供给实践
分享
  • 打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

【Qcon大会实录】艺术 · 技术 · 算术:京东零售AIGC百亿素材供给实践

  • jd_5d806888357cd
  • 2026-05-02
  • IP归属:北京
  • 173浏览

    1 前言

    AIGC 技术正从实验室走向产业落地,尤其是在零售场景展现出巨大潜力。京东零售作为行业先行者,在 AIGC 视觉素材大规模供给方面积累了丰富实战经验。本文基于京东零售视觉和AIGC应用部的产品经理石孝钢在 Qcon 大会的分享,系统阐述电商 AIGC 落地的核心逻辑、技术架构、商业价值与未来趋势,为行业提供可参考的工业化落地路径。【温馨提示:本文约1.3万字,阅读预计30分钟】

    当前 AIGC 技术浪潮席卷全球,在内容生成领域实现突破性进展。图像、视频、文案等多模态生成能力日新月异,模型效果不断刷新行业认知。但在产业级落地过程中,尤其是电商这种海量商品、高频迭代、严苛合规的场景中,AIGC 从 “能生成” 到 “能商用” 存在巨大鸿沟。大量企业简单认为接入模型 API 即可解决内容供给问题,却忽视了生成规模、成功率、可用率、成本控制、商业转化等核心问题。

    京东零售面对百亿级动销商品、周粒度高频促销、海量 SKU 素材需求,通过自主研发京点点 Oxygen Vision(ai.jd.com),实现日生成千万级素材、服务百万商家、业务指标显著提升的实战成果。本文将围绕以下模块展开:首先剖析电商AIGC落地的核心认知误区与现实挑战;其次详解“艺术、技术、算术”三大核心维度的实践逻辑,拆解京点点 Oxygen Vision 平台的底层架构与运行机制;随后系统性介绍京点点 Oxygen Vision 的双引擎产品矩阵;最后分享行业洞察与未来发展展望,阐述商品素材AI生成规模化落地的核心密码。

    2 电商AIGC落地的问题与挑战

    2.1 “能生成”不等于“能落地”

    当前,行业内对AIGC的关注多集中在“模型能力”上——哪个模型生成效果更逼真、哪个模型响应速度更快、哪个模型支持的生成类型更丰富。这种关注本身无可厚非,但如果将模型的生成能力等同于落地的生产能力,就会陷入严重的误区。

    石孝钢在演讲中坦言:“很多人看到最新的模型效果,第一反应都是‘太强了!是不是直接接个API,素材生成问题就可以彻底解决了?’,这是我们团队被问的最多的问题。”但在模型能力之外,石孝钢团队更关心的,也是每天都在追问自己的问题却是:生成量多大?成功率多少?可用率多高?总成本扛得住吗?它对真实的商家、对京东的生意,有帮助吗?这些问题,才是电商AIGC落地的核心关键。

    2.2 平台级的AIGC应用落地挑战

    提到平台级的AIGC应用在落地时的挑战,石孝钢以京东的实际案例进行举例。作为承载百亿级动销商品的零售平台,京东平台上的每个商品都会同时存在十余种不同规格、调性的素材,还要应对周粒度的高频促销更新,素材需求呈现海量且动态迭代的特点。

    结合实际调研,京东平台的商家店铺平均有上千个SKU在售,京东自营采销动辄就要负责上万个SKU,素材生产的工作量极为庞大,若采用传统外包模式,单张图的10-20元的生产成本,叠加运营SKU的数量、多版本需求和每周一次的更新频率,在日趋激烈的行业竞争下,成本投入难以承受,最终导致仅10%-20%的素材被有效运营,大量素材处于“放养”状态。这背后折射出平台级AIGC落地最核心的挑战——如何高效、低成本地满足海量、高频、多样化的素材供给需求,破解传统生产模式与平台业务体量不匹配的困境,同时兼顾素材质量与商业价值,这也是平台级AIGC从Demo走向规模化落地必须突破的关键难题。

    因此,我们得出了第一个现实的观察:电商 AIGC 的应用落地,绝对不只是一个“生成问题”。

    京东零售AIGC产品团队在实践中发现,电商 AIGC 的落地,本质需要解决四大核心问题:生成问题、体验问题、控制问题、生意问题。四大问题层层递进,构成了电商 AIGC 规模化落地的核心挑战。

    第一是生成问题,这是整套体系搭建的基础。底层大模型能力每一次迭代跃迁 —— 从文本生成到图文创作,再由静态图像升级为动态视频,持续打破电商内容供给的产能天花板,解锁全新的内容生产模式。强大的生成能力是落地的前提,但仅代表能力上限,绝非全部。技术研发不能只追求视觉效果的炫酷,更要兼顾真实业务场景的多元需求。

    第二是体验问题。电商属于强体验消费场景,平台频道有运营规则、品牌有视觉规范、各品类对应精准人群与行业竞争逻辑,电商场景专属的美学标准与通用设计美学存在显著差异,需要定制化的内容表达体系。

    第三是控制问题,也是电商场景的核心刚需。核心目标是保障商品信息一致性、内容合规性,确保商品卖点、促销信息真实客观,在安全可控的前提下完成内容创作。例如:商品 LOGO、配色、版型等核心要素必须精准还原,杜绝货不对版;营销促销信息严禁夸大虚构,坚守宣传底线;同时严格遵循平台合规规则,规避低俗、违规、风险类内容产出。

    第四是生意问题,这是电商 AIGC 落地的最终落脚点。即便内容画面质感出众、内容可用率极高,若无法帮助商家提效降本、拉动业务增量、实现正向 ROI,AIGC 就只能停留在实验层面,无法规模化商用。电商 AIGC 的核心价值,是助力商家降本增效、帮助平台提升转化效率,最终实现平台与商家的双向商业共赢。因此,所有技术迭代与产品设计,都必须围绕商业经营目标展开,精细化核算成本、量化业务收益。

    2.3 “技术、艺术、算术”哲学破解落地难题

    为破解三个核心问题,更好地为平台商家提供高效、低成本的素材供给服务,京东零售技术团队专门构建了一套代号为京点点 Oxygen Vision 的统一落地系统,为京东AIGC百亿素材供给实践提供了核心支撑。这套系统的核心哲学,可凝练为“艺术、技术、算术”六个字,其中艺术决定做什么,聚焦对齐电商审美需求、找准发力方向;技术解决怎么做,主打交付稳定、可控的确定性结果;算术解答值得吗,立足ROI视角精算每一分Token的经济学价值。

    3 艺术:美学到生产力的量化

    3.1 电商AIGC不是“艺术家”,而是“超级导购”

    在AIGC落地实践中,第一个需要突破的认知,就是“美学标准”的重构。通用AIGC和电商AIGC的训练目标,存在本质的差异:通用大模型在努力让自己成为“艺术家”,追求生成图像的美观度、艺术性,比如画出好看的人像、绚丽的风景;但电商AIGC不需要做艺术家,它的第一天职是“设计服务商业”,是一个“超级导购”,其核心目标是通过素材设计,吸引用户点击、促进用户转化,而不是追求单纯的“好看”。

    传统的图像美学评估(IAA)工作,其打分训练更多是与艺术方向对齐,采用单一或多维分数来评价图像的美观度。但京东零售技术团队的实践测试发现,这种评估方式并不适用于电商场景。比如,一款冲锋衣的纯白底图、带卖点文字的图片,在传统美学评估中往往会因为“不够美观”“文字过多”而得到低分,但这些图片在电商场景中,却能更精准地传递商品信息、吸引目标用户,从而获得更高的点击率和转化率。

    这就意味着,电商AIGC的美学标准,必须跳出“感性、难以量化”的艺术评价,转向“务实、可量化”的商业评价。我们不能用“这图好不好看”来验收素材,而应该用“这图能不能带来点击、能不能促进转化、能不能降低成本”来衡量素材的价值。

    3.2 电商场景的美学多样性:不同场域,不同需求

    电商场景的复杂性,决定了素材美学需求的多样性。在京东购物平台上,不同的素材展示位置、不同的用户意图,对素材的要求有着显著的区别。如果用统一的美学标准来生成素材,必然无法满足所有场景的需求。

    具体来说,不同场域的素材需求的差异主要体现在以下几个方面:

    一是首页、活动页。这类场景的核心目标是突出统一的平台调性、营造活动氛围,因此素材通常采用商品白底图,设计简洁、统一,避免过多的文字和装饰,确保页面整体的整洁度和一致性。比如,在百补国补频道,所有商品素材均采用白底图,既突出了商品本身,又保证了页面的整体美观。

    二是推荐场域。这类场景下,用户属于“随便看看、逛一逛”的状态,因此素材需要通过场景感激发用户的兴趣。比如,服装类商品的素材,会展示用户穿着服装在户外、居家等场景的效果;家电类商品的素材,会展示商品在家庭环境中的使用场景,让用户能够直观地想象到商品的使用效果,从而激发购买欲望。

    三是搜索场域。这类场景下,用户的购物意图明确且强烈,素材的核心目标是吸引用户点击。因此,素材会八仙过海、各尽所能,有的展示商品外观,有的展示使用场景,有的突出核心卖点,甚至会加入促销信息,比如“限时优惠”、“买一送一”等,最大限度地吸引用户点击进入商品详情页。

    四是商详场域。这类场景是用户决策的关键环节,素材的使命是激发用户转化。因此,素材除了展示商品的核心卖点外,通常会加入高强度的促销信息、赠品信息等,比如“限时补贴”、“赠精美礼品”、“7天无理由退换”等,打消用户的购买顾虑,促进用户下单。

    3.3 数据驱动的美学探索,构建任务规划引擎

    基于对电商美学的深刻认知,京东零售技术团队做的第一个动作就是放弃追求美学评价,转为探索电商务实的设计维度。他们把电商素材设计维度分成了5个主维度,包括:商品、场景、情绪、信息和促销。

    • 商品维度:核心聚焦产品的面积占比强度,在此基础上延伸出多个细节子维度,包括拍摄视角、商品呈现方式、是否采用多商品组合展示、是否带有产品包装等,核心目标是确保商品的核心特征能够清晰、突出地呈现,让用户快速捕捉商品本身的关键信息。
    • 场景维度:重点关注与用户使用需求的关联程度,覆盖从纯白底(适配平台首页、活动页等场景)到真实使用场景的全范围,同时包含道具搭配、打光效果、画面色调、背景虚化程度等子维度,可根据不同展示场域的需求,灵活调整场景呈现形式,适配多样化展示需求。
    • 情绪维度:涵盖从客观呈现商品规格参数的纯理性,到传递情感共鸣的纯感性氛围,在此维度下延伸出目标人群、购物动机(如是否用于送礼、日常自用等)等子维度,核心是贴合用户心理需求,让素材能够传递出契合用户期望的情绪价值,提升用户共鸣感。
    • 信息维度:核心关注画面中文案与营销图案的面积占比,在此基础上延伸出文案风格等子维度,重点确保信息传递的精准性和高效性,既避免文案过多杂乱影响观感,也保证核心营销信息能够清晰传递给用户。
    • 促销维度:聚焦信息中价促类型的占比,延伸出促销类型、视觉强度等子维度,核心目标是突出促销亮点,通过合理的视觉设计和内容配比,让用户快速捕捉促销信息,助力提升商品转化效率。

    通过这五大维度的系统分解,我们能够快速定位不同场域偏好的素材构图框架,并在此基础上开展针对性的优化探索,让素材设计更贴合电商场景的商业需求。与此同时,我们也做出了关键取舍:将常规生成质量评测中,商品一致性、人物崩坏、黄暴恐政等非设计方案层面的参数进行解耦,将其放到后续可控生成阶段进行专门的控制和质检,有效避免了不同维度的混淆,让美学探索能够聚焦于设计方案本身,提升素材设计的效率与精准度。

    这套数据驱动的美学探索路径,落地的关键逻辑就是“以业务目标为导向,通过实验迭代优化”,大致涵盖以下四个步骤:

    第一步,冷启动:为了避免随机探索对业务造成负向影响,我们没有从0开始探索,而是先提取不同场域、不同品类的“好图”设计特征,作为探索的冷启动起点。比如,在搜索场域,提取服装类商品点击率高的素材的共同特征——比如场景化展示、突出版型、加入简单卖点文字;在商详场域,提取家电类商品转化率高的素材的共同特征——比如突出核心参数、展示使用场景、加入促销信息。这些特征,成为我们生成素材的基础依据。

    第二步,多样化探索:在冷启动特征的基础上,通过模仿、变异等多样化策略,生成大量的实验素材。模仿,即基于好图特征,生成风格、结构相似的素材;变异,即在好图特征的基础上,进行轻微的调整和创新,比如调整文字位置、更换场景背景、优化商品角度等,避免素材同质化。

    第三步,实验投放:将生成的实验素材,通过线上AB实验的方式进行投放,实时回收素材的效果数据——比如点击率、加购率、转化率、留存率等。这些数据,成为我们判断素材价值的核心依据。

    第四步,迭代优化:根据AB实验的效果数据,分析哪些素材设计策略有效、哪些无效,总结规律,迭代优化素材生成策略。通过持续的“观察-思考-行动”循环,不断提升素材的质量和效果,追求目标回报率的最大化。这里的回报率,是可分场域、分品类定向设置的,比如搜索场域重点关注点击率,商详场域重点关注转化率。

    3.4 任务规划引擎的“快慢思考”系统

    这套数据驱动的美学探索系统,最终落地为京点点 Oxygen Vision 平台的任务规划引擎,它具备“快慢思考”两个系统,能够根据不同的任务类型,灵活调整执行策略,兼顾效率和效果。

    系统一,快思考/肌肉记忆:针对意图极其明确的简单任务,或者在前期多轮实验中已经取得明确有效生成策略结论的任务,直接命中规则,瞬间下发执行指令。比如,“生成商品白底图”“仅仅改个价格标签”这类任务,不需要复杂的探索和推理,直接调用成熟的生成策略,实现毫秒级响应,0算力浪费,最大限度地提升效率。

    系统二,慢思考/深度推理:针对模糊指令,比如“优化商品点击率”“优化排名”“生成千人千面素材”等探索性任务,系统二被唤醒。它会按照未收敛任务的“观察-思考-行动”模式,结合品类、场域知识,进行深度的意图理解与提示词强化(PE),生成策略性的探索方案。比如,用户提出“优化某款手机的点击率”,系统二会先分析该手机的核心卖点、目标人群、所在场域,然后结合同类手机点击率高的素材特征,生成多种不同的素材设计方案,进行实验投放,最终筛选出最优方案。

    此外,还有一种特殊情况:当一个任务从执行侧返回“多次尝试最好的模型仍未通过质检”时,规划引擎会降低设计蓝图的复杂程度,比如简化素材的设计元素、降低生成难度,确保任务能够顺利交付,避免因设计过于复杂而导致任务失败,影响业务进度。

    4 技术:跨越Demo到生产的鸿沟

    4.1 能生成≠能交付,工业化落地要守好“确定性”红线

    如果说“艺术”解决的是“做什么”的问题,那么“技术”解决的就是“怎么做”的问题。在电商AIGC的技术落地中,首要的就是明确“能生成”和“能交付”是两个完全不同难度等级的任务。

    在Demo阶段,我们的目标是“抽卡成功”——只要能生成1次惊艳的Good Case,就是值得肯定的成果。但在工业化生产阶段,我们的目标是“零事故交付”——在海量的素材生成中,必须确保每一张出街素材都符合要求,不能出现任何Bad Case。因为在实际曝光场景中,一张不合格的素材,可能会引发客诉、索赔,甚至影响平台的口碑和信任度。

    因此,工业化落地的技术核心,是“确定性”和“合规性”,这是不可逾越的红线。具体来说,就是要确保生成的素材:商品信息精准无误,没有变形、错位、遗漏;合规合法,没有违规内容、虚假宣传;质量稳定,可用率达到行业领先水平;同时,还要兼顾效率和成本,能够实现规模化生成。

    4.2 放弃“万能模型”幻想,拥抱“分层模型矩阵+智能调度”

    在技术路线的选择上,初期,京东零售技术团队试图用一个端到端的大模型,叠加上MOE(混合专家)架构,来搞定所有的生成任务——需要参考图生成,就接入ReferenceNet;需要固定商品高频特征细节,就接入ControlNet;需要去背景,就用这个模型直接端到端输出白底图。

    从运维的角度来看,这种模式似乎很完美:一个统一的模型,全集群无差别重复部署,彻底消除了不同任务之间的负载不均,任务的通用性拉满。但在实际落地中,我们发现了一个残酷的真相:在日常任务中,有超过3成的任务,其实只是要求把一张商品图精准地变成“白底图”!

    如果为了追求所谓的“架构统一”,用12B DiT模型去完成这个简单的任务,与用0.1B的抠图模型相比,就算使用MOE控制激活参数量,也会存在高达400倍的成本差。这意味着,大量的算力被浪费在简单任务上,导致整体成本居高不下,无法实现规模化落地。

    基于这个教训,石孝钢分享了三个核心观点,也成为了京点点 Oxygen Vision 落地的核心指导原则:

    第一,端到端,绝不等于商业上的最优解。端到端模型虽然技术上看似先进,但在商业场景中,往往会造成算力浪费、成本高企,不符合电商AIGC“规模化、低成本”的核心需求。

    第二,MOE(混合专家)架构,也不是掩盖算力浪费的万能药。MOE架构虽然能够在一定程度上优化模型的效率,但无法从根本上解决“用高端模型做简单任务”的算力浪费问题。

    第三,在极端的工业级并发下,精细化的工程编排,远远大于盲目追求单一的万能模型。电商AIGC的规模化落地,关键不在于模型有多先进,而在于如何将不同能力、不同成本的模型进行合理编排,实现“任务与模型的精准匹配”,最大化提升效率、降低成本。

    4.3 核心架构:分层模型矩阵+智能调度网络,实现高效可控生产

    在实际应用落地的过程中,京点点 Oxygen Vision 尝试构建“分层模型矩阵+智能调度”的全新技术架构,来确保高效可控的生产能力。这套架构的核心是将原本耦合的核心执行过程,拆解为标准化环节,构建多能力、多成本的模型矩阵,再通过智能调度网络,实现任务与模型的精准匹配,兼顾效率、质量和成本。这套架构的运转,主要分为两步:构建分层模型矩阵、搭建智能调度网络。

    第一步:构建分层模型矩阵,打好算力底座

    京东零售AIGC产品团队将AIGC素材生成的核心执行过程,切分为四个标准化环节:前处理、生成、后处理、质检。通过规范这四个环节之间的出入参协议,构建一个支持“热插拔”的系统——每个环节都可以独立升级、替换,不影响其他环节的正常运行,提升系统的灵活性和可扩展性。

    在每一个环节中,我们都部署了N个能力、成本各异的模型,形成分层模型矩阵。这些模型涵盖了不同的参数规模、不同的技术路线,既有几十亿参数的满血版大模型,用于处理复杂的生成任务(例如:场景化素材生成、千人千面素材生成);也有专门做过INT4、FP8极限压缩的量化版本,用于处理中等难度的任务(例如:常规主图生成、卖点图生成);还有最传统的CPU算法小模型,用于处理简单的基础任务(例如:白底图生成、图片抠图)。

    更重要的是,系统中的每一个模型节点,都不再是一个冷冰冰的API,而是一个带有“实时动态简历”的实体。它需要时刻向中央调度系统汇报自己的四个关键信息:

    1. 能力定义:明确自己擅长什么、做不了什么,比如有的模型擅长服装类素材生成,有的模型擅长家电类素材生成,有的模型擅长抠图,有的模型擅长视频生成。

    2. 实时负载:汇报自己当前的排队情况,比如当前有多少任务在等待处理、剩余算力多少,确保调度系统能够实时掌握每个节点的运行状态。

    3. I/O成本:汇报调用自己一次的单位Token成本,比如调用12B大模型一次的成本是多少,调用0.1B抠图模型一次的成本是多少,为调度系统的成本优化提供依据。

    4. SLA时延:汇报自己最快几秒钟能把结果输出,比如抠图模型的时延是100毫秒,大模型的时延是1秒,确保调度系统能够根据任务的时延要求,选择合适的模型节点。

    通过这种分层模型矩阵的构建,我们为AIGC的规模化生产,打下了坚实的算力底座,既保证了复杂任务的生成质量,又兼顾了简单任务的效率和成本。

    第二步:搭建智能调度网络,实现最优路径选择

    如果说分层模型矩阵是“算力底座”,那么智能调度网络就是这套架构的“灵魂”。它是一个极轻量级的多模态强化学习调度网络,核心作用是:根据任务需求、图像难度、系统负载,在四个执行阶段交织成的DAG(有向无环图)行动空间中,选择一条“质检通过率最高、算力成本最低”的组合路径。

    智能调度网络的运转逻辑,主要分为三个步骤:

    第一步,难度识别。在视觉提取上,我们采用了轻量级的Swin Transformer架构,以极低的算力开销,瞬间扫描出输入图像的“物理难度”——比如图像的清晰度、商品的复杂程度、是否有复杂背景等。比如,一张清晰的纯色背景商品图,难度较低;一张模糊的、多背景的商品图,难度较高。

    第二步,需求解析。调度网络会解析上层传来的“文本指令”,明确任务的核心需求——比如是生成白底图、还是生成场景化素材,是追求极致效果、还是追求低成本,是要求低时延、还是可以接受一定的时延。

    第三步,路径选择。调度网络将“图像难度”“文本指令”“当前系统负载率”三者结合,在强化学习的预训练下,通过多头分类器输出一条最优的组合路径。比如,对于“生成商品白底图”这个简单任务,调度网络会选择“CPU抠图小模型”,确保低成本、低时延;对于“生成场景化服装素材”这个复杂任务,调度网络会选择“满血版大模型”,确保生成质量。

    4.4 架构优势:系统自发“涌现”高级运维能力

    当我们将系统重构为“分层模型矩阵+智能调度网络”的动态DAG路由架构后,出现了一个令人惊喜的现象——系统开始自发“涌现”出高级的微观运维能力,这些能力不需要人工干预,完全由系统自主实现,大幅降低了运维成本,提升了系统的稳定性和可靠性。

    这些自发涌现的能力,主要体现在以下五个方面:

    现象一:Too Bad!(质量击穿)。系统发现某个廉价节点几乎没有流量,原因是调度网络发现,只要任务走到这个节点,就会因为产出废片被后置的质量防线疯狂扣分。这相当于系统发出的红色警报,提示算法团队:这个模型根本省不了钱,必须马上重新微调,否则会影响整体的素材可用率。

    现象二:Good Enough!(性能溢出)。反过来,某高端模型处于空闲状态,而大量任务走廉价节点依然保持了高通过率。这说明廉价模型已经“足够好”,能够满足当前任务的需求。此时,工程团队就可以放心地将珍贵的高端GPU资源降配回收,用于处理更复杂的任务;同时,算法团队可以考虑在同样的算力消耗预算下,尝试优化优质模型,挑战更高的质检标准。

    现象三:Catch All!(柔性容灾)。当某个节点突然不可用时——比如模型崩溃、服务器故障,调度网络会在分钟级的路径失败内,发现流向该节点的任务通过率暴跌,然后瞬间将流量平滑泄洪到同层级的备用或降级节点,为工程修复争取宝贵的时间,避免业务损失。这种柔性容灾能力,确保了系统的高可用性,即使单个节点出现问题,也不会影响整体的素材供给。

    现象四:Skip!(架构折叠)。当新一代端到端大模型引入后,调度网络发现,直接用新模型生成素材,比“抠图+合成”的传统路径效率更高、成本更低。于是,系统会自动切断冗长的前置节点,完成拓扑结构的折叠进化,无需人工干预,就能实现系统效率的提升。

    现象五:Too Hard!(知难而退)。当上游传来的需求,多次经过每层最好的节点仍无法通过质检时,系统会向美学大脑(任务规划引擎)反馈,提示当前规划的设计蓝图过于复杂,建议上层简化设计后重新下发任务。这种“知难而退”的能力,避免了算力的浪费,确保了任务的交付率。

    4.5 组织协同:建立产品、算法、工程的默契契约

    技术架构的落地,离不开组织协同的支撑。通过工程实现的算力资源有效利用率监控,我们理顺了产品、算法、工程三个团队之间的默契契约,形成了“各司其职、协同发力”的工作模式,确保系统能够持续迭代优化。

    具体来说,三个团队的职责分工如下:

    产品团队:负责跟踪各类任务的通过率与实际业务效果数据,比如素材的点击率、转化率、成本等,同时持续迭代质检评测集,明确素材的质量标准,为算法优化和调度策略调整提供依据。

    算法团队:负责优化每个节点的模型效果、速度、推理成本,针对质量差的模型进行微调,在保证质量的前提下,探索模型的降本提速空间,同时根据产品团队提供的评测集,持续提升模型的可用性。

    工程团队:负责调度链路的建设与落地实现,确保系统的高可用性和资源优化,比如节点的部署、负载均衡、故障修复等,同时根据调度网络的反馈,优化系统的拓扑结构,提升系统的运行效率。

    这种清晰的职责分工和协同机制,确保了京点点 Oxygen Vision 平台能够持续迭代优化,不断提升素材生成的质量、效率和成本控制能力,为规模化落地提供了坚实的组织保障。

    5 算术:ROI视角下的Token经济

    5.1 不谈算力成本的AIGC,都是耍流氓

    如果说“艺术”解决“做什么”,“技术”解决“怎么做”,那么“算术”解决的就是“值得吗”的问题。

    在电商AIGC的规模化落地中,我们面临着一个“不可能三角”:效果、成本、吞吐。而在实际业务中,三种倾向的任务同时存在:

    一是追求极致效果的精细化运营任务,比如高流量商品的素材优化、新品首发的素材生成,需要天花板级效果的素材,用于AB实验验证业务假设,这类任务可以接受较高的算力成本。

    二是实时工具箱类任务,比如商家实时生成素材、用户自主生成搭配图,需要低时延、高并发的吞吐能力,才能在高峰时段保障用户体验,这类任务需要控制成本,同时确保一定的效果。

    三是大量的业务治理类任务,比如素材去水印、擦除牛皮藓、批量生成基础白底图,这类任务不需要太高的效果,核心需求是用最低的成本大量产出,确保效率。

    因此,所有的技术决策、调度策略,本质上都是效果(Q)、时延(T)、成本(C)的博弈。而这场博弈的终极目标,回到生意层面,就是为了提升业务增益,实现正向ROI。

    5.2 以业务增益为导向,精算每一笔算力账单

    京东零售的AIGC产品团队的“算术”逻辑,核心是“以终为始”——所有的成本投入,都要围绕业务增益展开,精算每一笔算力账单,确保每一分算力投入都能带来相应的商业回报。简单来说就是业务回报减掉生产成本的最大化,奖励函数分3个部分,红色部分代表生成素材的算力资源消耗,蓝色部分代表设计方案预期产生相对品类的业务增益指标。

    此外,团队还引入了“业务乘数”的概念,将算力预算与业务价值挂钩。业务乘数是增益放大器,因为AIGC素材是以曝光作为转化漏斗的起点的,所以我们实际使用时,采用的是“曝光获取能力”来衡量业务价值。

    比如,高流量商品或者高价值展示点位的任务,受到业务乘数的放大,具有更高的商业价值,因此有更充足的算力预算,可以使用更高级的模型做生成交付,并在高峰时段享有更充足的算力保障;而低流量、低价值的任务,则会分配更经济的算力资源,控制成本。

    同时,系统还具备“闲时优化”的能力:当系统识别到高等级模型存在空闲,且有机会提升业务指标时,会慷慨地开放更好的生成能力给腰尾部任务,比如为低流量商品生成更高质量的素材,提升其点击率和转化率,实现算力资源的最大化利用。这种“差异化算力分配”的逻辑,既保证了高价值任务的效果,又控制了整体的算力成本,实现了“效果与成本”的平衡,确保了AIGC落地的商业可行性。

    6 京点点 Oxygen Vision 产品矩阵:从实验室到业务一线

    基于“艺术、技术、算术”三大核心逻辑,京东零售AIGC产品团队构建了京点点 Oxygen Vision 产品矩阵,将AIGC能力从实验室真正落地到业务一线,形成了“智能体探索上限、嵌入式微服务规模化落地”的双轮驱动模式,既保证了技术的先进性,又确保了业务的实用性。

    京点点 Oxygen Vision 包含2层产品体系:

    上层是“探索引擎”。这是一个独立可交互的“设计智能体”,为京东商家和采销提供高效高质量的设计服务,并在这里收集极端业务 Case,沉淀品牌知识,不断优化我们的美学系统大脑。

    下层是“增长引擎”。这是一个嵌入到全站工作流中的“生成微服务”,在后台执行极限的算力运筹和分发。

    6.1 京点点 Oxygen Vision 设计智能体,探索AIGC上限的“实验室”

    京点点 Oxygen Vision(ai.jd.com),是京东零售推出的零售行业首个全自动AI设计智能体,也是京东零售AIGC能力的“实验室”。他的核心作用是探索AIGC的技术上限和应用边界,收集商家和采销的真实需求,沉淀品牌知识,不断优化美学系统大脑。

    京点点 Oxygen Vision 平台的核心优势,在于能够处理“模糊需求”,实现从需求分析到效果验证的全流程自动化。比如,商家提出“优化某款商品的主图点击率”,这个需求非常模糊,没有明确的设计标准和方向。此时,设计智能体会通过以下步骤,完成需求的落地:

    第一步,商品分析。智能体首先会分析该商品的核心卖点、目标人群、品类特征,以及当前素材的优缺点,明确优化的方向。比如,某款冲锋衣的核心卖点是“防风防水”,目标人群是户外爱好者,当前素材的问题是没有突出这一卖点,那么优化方向就是突出“防风防水”的核心特征。

    第二步,竞品分析与策略推理。智能体会抓取该品类竞品中TOP优质素材的设计特征,分析竞品的优势和不足,结合自身商品的特点,推理出最优的设计策略。比如,分析发现,户外品类的高点击率素材,多采用场景化展示+核心卖点文字的设计方式,那么智能体就会采用这一策略,生成相关素材。

    第三步,多方案生成。基于设计策略,智能体生成多种不同的素材方案,涵盖不同的场景、不同的文字排版、不同的商品角度,确保素材的多样性。

    第四步,AB实验投放与迭代。将生成的素材方案,通过线上AB实验的方式进行投放,实时回收效果数据,分析不同方案的点击率、转化率,筛选出最优方案。同时,智能体还具备“一个SKU多轮实验”的分析和迭代能力,帮助商家持续优化素材,不断提升业务效果。

    此外,京点点 Oxygen Vision 平台还承担着“收集需求、沉淀知识”的重要作用。它会收集商家和采销的真实素材需求,识别当前行业SOTA模型也很难做到可用的Hard Case,将这些Case纳入模型优化的重点测试集,推动模型能力的持续提升;同时,通过持续的实验迭代,发现可固化为“肌肉记忆”的标准流程,为嵌入式微服务的规模化落地提供支撑。

    6.2 嵌入式生成微服务,实现规模化生产的“工业流水线”

    如果说设计智能体是“探索上限”的实验室,那么嵌入式生成微服务,就是“做大规模”的工业流水线。它将AIGC能力拆解成微服务,像水和电一样,悄无声息地接入到商家和运营每天在用的工作台里,不强调炫酷的聊天界面,没有情绪价值,只强调批量、稳定、自动化,真正把AIGC从一个只能发朋友圈炫技的Demo,变成了一台轰鸣的业务增长引擎。

    这款嵌入式生成微服务的核心特点,主要体现在以下三个方面:

    一是全流程嵌入,无缝衔接业务。微服务被嵌入到京东零售的全站工作流中,涵盖商品发品、商品运营、商品营销等所有环节,商家和运营不需要切换平台,在日常工作中就能直接调用AIGC能力。比如,商家在上传商品时,就能直接生成主图、商详图;运营在策划促销活动时,通过商品编号就能直接生成促销素材;采销在优化商品展示时,就能直接批量生成多版本素材。

    二是支持批量操作,提升运营效率。微服务支持单点、批量的素材诊断和生成需求,能够满足商家和运营的规模化需求。比如,商家可以一次性上传多个SKU,批量生成白底图,大幅提升运营效率,减少人工工作量。

    三是承接业务验证,实现闭环迭代。微服务能够承接业务方的验证需求,定向批量生成素材,并进入系统级AB实验,回收效果数据,将数据反馈给设计智能体和模型优化团队,实现“素材生成-实验投放-数据反馈-模型优化”的完整闭环,持续提升素材质量和业务效果。

    6.3 核心实践成果:效率、规模、效果三重突破

    经过长期的实践探索,京点点 Oxygen Vision 平台已经成为京东零售AIGC规模化落地的核心支撑,在效率、规模、效果三个方面实现了三重突破,交出了一份亮眼的成绩单:

    一是效率突破:日供给量稳定突破1000万+,能够满足京东百亿级动销商品的素材需求,覆盖主图、商详图、卖点图、广告图、促销图等所有素材类型,高效解决海量素材供给的瓶颈。

    二是规模突破:服务商家超100万家。涵盖京东自营、第三方商家等所有类型,无论是头部品牌,还是中小商家,都能通过该系统获得高效、低成本的素材生成服务,实现降本增效增收。

    三是效果突破:在极其严苛的线上A/B真实流量实验中,AIGC供给素材为实验商品带来的核心XTR(综合业务增益指标)提升达到了+29%,真正实现了“素材赋能业务增长”的核心目标。此外,通过“分层模型矩阵+智能调度”的架构优化,以及精细化的成本核算,Oxygen Vision系统将商家的素材制作成本降低了90%+,大幅减轻了商家的运营负担,持续提升商家的盈利能力。

    7 行业观察与未来展望

    7.1 行业观察:行业卷模型,业务卷ROI

    在当前的AIGC行业中,存在一个明显的趋势:行业层面,大家都在疯狂“卷模型”——无论是大模型的参数规模、生成效果,还是新模型的迭代速度,都在不断突破;但在业务层面,真正的核心竞争力,在于“卷ROI”——即如何在保证效果的前提下,控制成本、提升效率,实现商业价值的最大化。

    在QCon大会上,很多同行都在讨论OpenClaw、Hermes等前沿自主Agent,这些技术概念非常前沿、非常性感,代表了AIGC技术的未来方向。石孝钢表示:“作为技术人,我们承认这些技术的先进性,但作为背负着真实业务指标的落地团队,我们必须保持冷静:以终为始的商业ROI,永远大于盲目追新的技术形式”。

    在电商AIGC的工业化落地中,那些几百毫秒就能跑完、成本极低、稳扎稳打的“务实小模型”,依然发挥着不可替代的作用。技术潮流会不断更迭,今天火的是MMDiT,明天可能又是新的架构,但如何站在生意的视角,把不同能力、不同成本的节点编排好,精算每一笔算力账单——这种对系统极限效能的运筹和组织能力,才是不受时代周期影响的,真正属于自己的护城河。

    7.2 未来展望:素材供给,从“面向人”到“面向Agent”

    尽管强调“务实落地”,但京东零售AIGC产品团队也始终关注技术的未来发展趋势。其中,一个极其前沿且重要的趋势是:素材供给,正在从“面向人”走向“面向Agent”。

    随着AIGC技术的不断发展,未来的C端用户,会越来越多地依赖各种AI购物助手和自主Agent来获取购买建议、完成购物决策。这意味着,电商素材的“消费者”,不再仅仅是人类的眼睛,还多了一种全新的消费群体——VLM(多模态视觉大模型)。

    VLM观察世界、理解图片、提取关键信息的方式,和人类对“美”的感知是截然不同的。人类更关注素材的美观度、场景感、情绪价值;而VLM更关注素材的信息完整性、准确性、结构化程度,能够快速提取商品的核心卖点、参数、促销信息等关键内容。

    由于京东零售技术团队同时承接了集团内部“视觉理解”的能力供给,最近正在探索一个全新的命题:未来的电商好图,到底长什么样?它不能仅仅是让人类觉得“审美高级”,还必须具备极高的Agent识别效率(Machine-Readability)。如何在满足人类情绪价值的同时,让大模型在极短的时间内、最精准地抓取到商品的卖点特征?平衡“人类审美”与“机器可读性”的新一代设计范式,将是未来电商AIGC的核心探索方向。比如,在素材设计中,既要保证画面的美观度和场景感,吸引人类用户点击;又要规范卖点文字的排版、商品参数的展示,确保VLM能够快速识别和提取关键信息,为AI购物助手提供精准的素材支撑。


    附:本文整理于京东零售视觉和AIGC应用部的产品经理石孝钢 4月18日 在Qcon全球软件开发大会上演讲内容,想体验京点点 Oxygen Vision 产品功能,京东员工可以直接登陆 https://ai.jd.com

    文章数
    1
    阅读量
    173

    作者其他文章