【世界时快讯】线上购物被革命！谷歌最新模型AI一键试衣，细节不变姿势随意换

新智元 2023-06-19 13:29:00

一键换装，被谷歌给实现了！

(资料图片)

这个AI试衣模型TryOnDiffusion，你只要给它一张自己的全身照，和服装模特的照片，就能知道自己穿上这件衣服之后是什么样子了。

主打的就是一个真实。所以，是真人版奇迹暖暖吧？

按说，各种换装的AI早就有不少了，谷歌的这个AI模型究竟有何突破呢？

项目地址：https://tryondiffusion.github.io/

关键就在于，他们提出了一种基于扩散的框架，把两个Parallel-Unet统一了起来。

在以前，这种模型的关键挑战就在于，如何既保留衣服细节，又能将衣服变形，同时还能适应不同主体的姿势和形状，让人感觉不违和。

以前的方法无法同时做到这两点，要么只能保留衣服细节，但无法处理姿势和形状的变化，要么就是可以换姿势，但服装细节会缺失。

而TryOnDiffusion因为统一了两个UNet，就能够在单个网络中保留衣服细节，并且对衣服进行重要的姿势和身体变化。

可以看到，衣服在人物上的变形极其自然，并且衣服的细节也还原得非常到位。

话不多说，让我们直接看看，谷歌的这个「AI试穿」到底有多厉害！

用AI生成试穿图像

具体来说，Virtual Try-On（VTO）可以向顾客展示衣服在不同体型和尺寸的真实模特身上的效果。

虚拟服装试穿中，有许多微妙但对于来说至关重要的细节，比如衣服的垂坠、折叠、紧贴、伸展和起皱的效果。

此前已有的技术，比如geometric warping（几何变形），可以对服装图像进行剪切和粘贴，然后对其进行变形以适配身体的轮廓。

但这些功能，很难让衣服妥帖地适应身体，并且会存在一些视觉缺陷，比如错位的褶皱，会让衣服看起来畸形和不自然。

因此，谷歌的研究者致力于从头开始生成服装的每个像素，以生成高质量、逼真的图像。

他们采用的技术是一种全新的基于Diffusion的AI模型，TryOnDiffusion。

扩散是逐渐向图像添加额外像素（或「噪声」），直到它变得无法识别，然后完全消除噪声，直到原始图像以完美的质量重建。

像Imagen这样的文本到图像模型，就是使用的来自大语言模型LLM的扩散加文本，可以仅根据输入的文本，就能生成逼真的图像。

Diffusion是逐渐向图像添加额外像素（或「噪声」），直到它变得无法识别，然后再完全消除噪声，直到原始图像以完美的质量重建。

在TryOnDiffusion中，不需要使用文字，而是使用一组成对的图片：一张图片是衣服（或者穿着衣服的模特），一张图片是模特。

每张图片都会被发送到自己的神经网络（U-net），并通过被称为「交叉注意力」的过程来相互共享信息，输出新的穿着这件衣服的模特的逼真图像。

这种基于图像的Diffusion和交叉注意力的结合技术，构成了这个AI模型的核心。

VOT功能让用户可以在符合自己身材的模特身上渲染展示上衣效果。

海量高质量数据训练

谷歌为了使VTO功能尽可能提供真实的效果并且真的能帮助用户挑选衣服，对这个 AI 模型进行了大量的训练。

但是，谷歌没有使用大语言模型来训练它，而是利用了谷歌的购物图。

这个数据集拥有全世界最全面，同时也是最新的产品、卖家、品牌、评论和库存数据。

谷歌使用了多对图像训练模型，每对图像由两种不同姿势的穿着衣服的模特图组成。

比如，一个穿着衬衫的人侧身站立的图像和另一个向前站立的图像。

谷歌专门的扩散模型将图像输入到他们自己的神经网络（U-net）来生成输出：穿着这件衣服的模特的逼真图像。

在这对训练图像中，模型学习将侧身姿势的衬衫形状与面朝前姿势的图相匹配。

反过来也一样，直到它可以从各个角度生成该人穿着衬衫的逼真图像。

为了追求更好的效果，谷歌使用数百万不同服装和人物的随机图像对多次重复了这个过程。

结果就是我们在文章开头的图片呈现出来的效果。

总之，TryOnDiffusion既保留了衣服的细节效果，也适配了新模特的身材和姿势，谷歌的技术做到了二者兼得，效果相当逼真。

技术细节

在一张展示一个模特的身体的图片，另一张展示另一个穿着某件衣服的模特的图片的条件下，TryOnDiffusion的目标是生成一个展示这件服装在这个人身上可能会呈现的具体的视觉效果。

解决这个问题最关键的难点在于，保持服装细节逼真的同时，将服装进行适当的变形以适应不同模特之间的姿势和体型的变化。

先前的方法要么着重于保留服装细节，但无法有效处理姿势和形状的变化。

要么允许根据期望的体型和姿势呈现出了试穿效果，但缺乏服装的细节。

谷歌提出了一种基于Diffusion的架构，将两个UNet（称为Parallel-UNet）合二为一，谷歌能够在单个网络中保留服装细节并对服装的试穿效果进行明显的姿势和身体变化。

Parallel-UNet的关键思想包括：

1）通过交叉注意机制隐式地为服装制作褶皱；

2）服装的褶皱和人物的融合作为一个统一的过程，而不是两个独立任务的序列。

实验结果表明，TryOnDiffusion在定性和定量上均达到了最先进的性能水平。

具体的实现方式如下图所示。

在预处理步骤中，目标人物从人物图像中被分割出来，创建「无服装 RGB」图像，目标服装从服装图像中分割出来，并为人物和服装图像计算姿势。

这些信息输入被带入128×128 Parallel-UNet（关键步骤）以创建128x128的试穿图像，该图像与试穿条件的输入一起作为输入进一步发送到256×256 Parallel-UNet中。

再把256×256 Parallel-UNet的输出内容被发送到标准超分辨率扩散（super resolution diffusion）来创建1024×1024的图像。

而在上面整个流程中最为重要的128×128 Parallel-UNet的构架和处理过程，如下图所示。

将与服装无关的RGB和噪声图像输入顶部的person-UNet中。

由于两个输入内容都是按像素对齐的，在 UNet 处理开始时直接沿着通道维度（channel demension）将两个图像连接起来。

由于两个输入都是按像素对齐的，我们在 UNet 处理开始时直接沿着通道维度将它们连接起来。

将分割后的服装图像输入位于底部的garment-UNet。

服装的特征通过交叉注意（cross attention）融合到目标图像之中。

为了保存模型参数，谷歌研究人员在32×32上采样（Upsampling）之后提前停止了garment-UNet，此时person-UNet中的最终交叉注意力模块（final cross attention module）已经完成。

人和衣服的姿势首先被送入线性层以分别计算姿势嵌入。

然后通过注意力机制将姿势嵌入融合到person-UNet中。

此外，它们被用在使用FiLM在所有规模上调制两个UNet的特征。

与主流技术的对比

用户调查研究:对于每组输入的图片，15个普通用户选从4个备选技术中选择一个他们认为最好的，或者选择「无法区分」。TryOnDiffusion的表现明显超过了其他技术。

下图从左到右依次是「输入，TryOnGAN，SDAFN，HR-VITON，谷歌的方法」。

局限性

不过TryOnDiffusion存在一些局限性。

首先，在预处理过程中，如果分割图和姿势估计存在错误，谷歌的方法可能会出现服装泄漏的瑕疵。

幸运的是，近年来这方面的准确性已经大大提高，这种情况并不经常发生。

其次，不包括关服装的RGB来显示身体的效果并不理想，因为有时它可能只能保留身份的一部分。

例如纹身在这种情况下会不可见，某些的肌肉结构也会不可见。

第三，我们的训练和测试数据集通常都会具有干净统一的背景，因此无法确定该方法在更复杂的背景下的表现如何。

第四，我们不能保证服装在模特身上是否真的合身，只关注试穿的视觉效果。

最后，本研究侧重于上半身的服装，谷歌还没有对全身试穿效果进行实验，未来会进一步对全身效果进行研究。

X 关闭

【世界时快讯】线上购物被革命！谷歌最新模型AI一键试衣，细节不变姿势随意换

新智元 06-19

全球简讯:国泰航空公布毛毯门事件改善方案：扩大普通话服务范围

看看新闻Knews 06-19

伊能静陪儿子逛街，蹲地上陪儿子试鞋母爱爆棚，小哈利一脸冷酷

新浪娱乐 06-19

天天快消息！滨医附院门诊部党支部赴渤海革命老区纪念馆开展主题党日活动

齐鲁壹点 06-19

“三个年”活动｜府谷公安快速破案返赃50万元！|焦点滚动

榆林公安 06-19

今日热闻!纤夫的爱歌词简谱_纤夫的爱歌词

互联网 06-19

2023年中国高端机械设备行业市场发展现状天天快播

互联网 06-19

世界要闻：美国一音乐节爆发枪击案：枪手无差别袭击致2死3伤

海外网 06-19

每日关注!安顺市西秀区发展和改革局

互联网 06-19

世界滚动:重知行研学瓦岗寨，经风雨砥砺少年心——记赵营镇第一初级中学瓦岗寨研学之旅

教育文摘周报 06-19

魔兽世界战士宏魔兽世界战士宏大全）-快看点

互联网 06-19

为什么是科大讯飞

雪球网 06-19

【南方医营养】这样减重，让你事半功倍——减重效果的加持方法

临床营养网 06-19

昧组词和拼音_昧组词有哪些全球今日讯

互联网 06-19

要闻：50万东航里程积分到期即失效合规吗，为何航司不打个提醒电话

新民晚报 06-19

【天天时快讯】羼入怎么读（羼）

互联网 06-18

每日互动举办数智亚运保障专班誓师大会|全球热议

新浪证券 06-18

【环球报资讯】C视频·西部行丨UP主观察：从一瓶奶看川滇同行

川观新闻 06-18

中国人喜欢晒被子，外国人为啥从来不晒？看完涨知识了！优质

互联网 06-18

惠惠助手不显示价格趋势了惠惠购物助手怎么不显示

城市网 06-18

中际旭创：目前公司产能充足具有较强的批量交付能力

证券时报网 06-18

世界要闻：个人产权什么意思_个人产权

互联网 06-18

全球新动态：红酒开封后多久不能喝_红酒开封后能保存多久

万能网 06-18

中国驻伊朗使馆：提醒在伊朗中国公民防范盗抢案件

光明网 06-18

【当前独家】有什么情形会停止执行死刑

法务网 06-18

12年一次！四川境内三条铁路启动大修集中修环球速讯

川观新闻 06-18

天天即时看！有你我就有了全世界(对于有你我就有了全世界简单介绍)

互联网 06-18

广西南宁有人酬金8万找狗，主人：狗狗7岁，还没找到，真的会给这么多钱_焦点资讯

九派新闻 06-18

环球关注：南方电网南方能源大数据中心落地贵安新区总投资14.5亿元

财联社 06-18

中国VC/PE行业5月成绩单：共35家中企上市半导体及电子设备行业较活跃

智通财经 06-18

5G专利全球第一华为被曝向日本30家公司收专利费

快科技 06-18

有关坚强意志名言警句-当前最新

互联网 06-18

4个工具，让 ChatGPT 如虎添翼！

程序员客栈 06-18

浙江高校校长毕业致辞：“内卷”狭隘要读书破万“卷”-焦点热文

今日科学 06-18

考点搭好棚子、打开食堂让孩子候考，老师家长暖心护考中考首日，有雨更有爱

宁夏新闻网 06-18

天天热文：韩国与美国外长通话

中评网 06-18

天天快消息！山东学中医本科的大学有哪些专业省内个春季高考校

壹壹高考网 06-18

全球快看：马云在杭州观赛阿里全球数学竞赛决赛

界面新闻 06-18

58岁大哥相中55岁漂亮大姐，当天就想在一起，大哥：进屋你就当家_环球热推荐

王星胜 06-18

配置更高价格更香海豹冠军版静态体验-环球热消息

搜狐科技 06-18

辽宁交通职业技术学院老师怎么样（辽宁交通职业技术学院）

互联网 06-18

黄鹤楼xgrq是什么烟_xgrq黄鹤楼多少钱一包

互联网 06-18

五大联赛近10年联赛冠军数：拜仁10，巴黎8，尤文7，曼城6，巴萨5

直播吧 06-18

字元是什么意思_字元焦点讯息

互联网 06-17

拥有100万存款是什么概念？我国存款达到100万的人多吗？答-快报

东方资讯 06-17

主要工作业绩怎么写_这些都是主要内容|今热点

互联网 06-17

t1100碳布是什么级别_t1100

青年汽车云小站 06-17

极地船“雪龙2”迎来大风大浪大雨，学长学姐甲板上毕业，学弟学妹就接力出海|每日热点

百度新闻 06-17

安全风险管控标识牌_安全风险标识颜色_世界微资讯

互联网 06-17

酸菜鱼是哪里的菜_酸菜鱼简介-全球热议

万能网 06-17

成都市新津区2023年公办小学入学划片范围

新津教育 06-17

环球看热讯：*ST全筑(603030):2023年第三次临时股东大会会议资料

中财网 06-17

北京市气象台发布高温蓝色预警

环球网 06-17

恐怖游戏《玩具熊的五夜后宫》改编电影新海报公布_即时焦点

IT之家 06-17

全球消息！弘扬中医文化这场比赛让孩子们说中医

华龙网 06-17

第四届中国（绍兴）集成电路产业大会举行

证券时报·e公司 06-17

pokemmo同类型宝可梦3D网游Pokeone 入坑介绍|环球微资讯

哔哩哔哩 06-17

江苏最新平均工资出炉！最挣钱的行业是→-速讯

环球网 06-17

全球热文：1060ti显卡参数_1060ti

互联网 06-17

华商领先基金净值天天基金档案,华商领先基金吧

互联网 06-17

记者：拜仁有意引进小基耶萨，准备向尤文报价5000万欧世界热头条

直播吧 06-17

穆西亚拉：为贝林厄姆加盟皇马而高兴无法想象基米希会离开-世界快资讯

雷速体育 06-17

焦点快看：何氏眼科眼基因研究院落户海南博鳌乐城

证券时报网 06-17

环球快看点丨门将送大礼！U17国足亚洲杯首战憾平小组出线压力倍增

射门中国 06-17

比尔盖茨回答中国网友提问，回复了黄晓明新资讯

互联网 06-17

大学生免费帮人遛狗_被调侃“学生证换狗”

互联网 06-17

工银瑞信基金：中国版纳斯达克？创业板50魅力何在？

清一色财经 06-17

解码“村超”：一片足球热土的新标签，当地不担心只红极一时全球快报

南方都市报 06-17

今天北京晴热持续最高气温将达38℃ 下午西部南部有分散性雷阵雨

新华网 06-17

中国神华(01088)将于8月16日派发末期股息每股2.909港元_每日快播

指股网 06-17

采用全新设计风格新款别克昂科威Avenir官图发布-焦点热讯

搜狐科技 06-17

平安个人网上银行登录平安个人网上银行登录不上

互联网 06-17

小米鼠标亮红灯咋回事小米鼠标亮红灯

城市网 06-17

玩家哭了！女子带100张《塞尔达传说：王国之泪》卡带入境被海关查获_全球讯息

快科技 06-17

股票行情快报：合金投资（000633）6月16日主力资金净买入1269.10万元世界快播报

证券之星 06-17

前沿资讯!焚烧秸秆被罚1.7亿，核酸检测造假却罚7万，差距为何如此之大？

赚钱技巧 06-17

资讯：“国球进社区国球进公园”启动仪式在石景山区举行

北京石景山 06-16

日本核污水排海在即韩国消费者开始囤盐和水产品干货

海外网 06-16

今日最新！广联工程控股(01413.HK)6月28日举行董事会会议批准刊发年度业绩

市场资讯 06-16

全球观察：谷歌 × 凯度发布《BrandZ 中国全球化品牌 2023》，小米、华为、OPPO 等上榜

亚汇网 06-16

价格前线|6月16日山东兖州动力块煤(Q6000)车板价异动提示-即时焦点

同花顺iNews 06-16

当前快看：武磊双响张琳芃破门国足4-0缅甸扬科维奇迎上任首胜

射门中国 06-16

世界焦点！厦门！最新好消息传来！

厦门日报 06-16

天天短讯！世界银行新行长彭安杰：中国不是竞争对手

环球时报 06-16

长城炮为何能成为皮卡标杆？看看新亮相的这三款车，越野、乘用、商用一应俱全！|环球快看点

车知事 06-16

环球看热讯：中超第一阶段单轮跑动距离榜：前两名均为周定洋创造

直播吧 06-16

守住钱袋子金星新村社区开展防范非法集资集中宣传日活动_全球新要闻

红网 06-16

首钢股份：公司铁矿石、煤炭等大宗原燃料以长协模式采购为主，并充分运用波段采购手段，合理对冲风险今日关注

每日经济新闻 06-16

郑商所启动2023年支持会员产业服务专项计划

中国网财经 06-16

天天速看：今日上映！《闪电侠》首批影评出炉：DC宇宙翻身作

快科技 06-16

【世界热闻】恒丰银行菏泽分行召开“抓教育、转作风、促发展”工作会议

感知山东 06-16

天天报道:民航局：5月我国航空运输市场延续平稳恢复态势

人民网 06-16

我国电商物流指数实现五连升农村电商物流业务量大幅增长

人民网 06-16

江苏淮安：农村综合性改革改出锦绣乡村全球焦点

淮安新闻网 06-16

【全球报资讯】国防部：中俄联合空中战略巡航有效检验提升两国空军协作水平

国防部发布 06-16

环球热点评！文化南海，像盛夏一样火热！

南海发布 06-16

【速看料】湖北大学举行2023年毕业典礼

湖北日报 06-16

贵州高院发布2023年第一批电信网络诈骗及其关联犯罪案件典型案例环球最新

互联网 06-16

比亚迪海豹对手来了！荣威纯电轿车D7官图发布

第一电动网 06-16

11岁的女孩子最喜欢什么_世界速递

礼物网 06-16

相关文章