百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

ICLR 2023 Spotlight|2D图像脑补3D人体,衣服随便搭,还能改动作

myzbx 2025-03-10 18:42 26 浏览

机器之心专栏

机器之心编辑部

在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。

论文名称:EVA3D: Compositional 3D Human Generation from 2D image Collections

论文地址:
https://arxiv.org/abs/2210.04888

项目主页:
https://hongfz16.github.io/projects/EVA3D.html

代码开源:
https://github.com/hongfz16/EVA3D

Colab Demo:https://colab.research.google.com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb

Hugging Face Demo:https://huggingface.co/spaces/hongfz16/EVA3D

背景

利用 NeRF 提供的可微渲染算法,三维生成算法,例如 EG3D、StyleSDF,在静态物体类别的生成上已经有了非常好的效果。但是人体相较于人脸或者 CAD 模型等类别,在外观和几何上有更大的复杂度,并且人体是可形变的,因此从二维图片中学习三维人体生成仍然是非常困难的任务。研究人员在这个任务上已经有了一些尝试,例如 ENARF-GAN、GNARF,但是受限于低效的人体表达,他们无法实现高分辨率的生成,因此生成质量也非常低。

为了解决这个问题,本文提出了高效的组合的三维人体 NeRF 表示,用以实现高分辨率的(512x256)三维人体 GAN 训练与生成。下面将介绍本文提出的人体 NeRF 表示,以及三维人体 GAN 训练框架。

高效的人体 NeRF 表示

本文提出的人体 NeRF 基于参数化人体模型 SMPL,它提供了方便的人体姿势以及形状的控制。进行 NeRF 建模时,如下图所示,本文将人体分为 16 个部分。每一个部分对应于一个小的 NeRF 网络进行局部的建模。在渲染每一个局部的时候,本文只需要推理局部 NeRF。这种稀疏的渲染方式,在较低的计算资源下,也可以实现原生高分辨率的渲染。

例如,渲染体型动作参数分别为的人体时,首先根据相机参数采样光线;光线上的采样点根据与 SMPL 模型的相对关系进行反向蒙皮操作(inverse linear blend skinning),将 posed 空间中的采样点转化到 canonical 空间中。接着计算 Canonical 空间的采样点属于某个或者某几个局部 NeRF 的 bounding box 中,再进行 NeRF 模型的推理,得到每个采样点对应的颜色与密度;当某个采样点落到多个局部 NeRF 的重叠区域,则会对每个 NeRF 模型进行推理,将多个结果用 window function 进行插值;最后这些信息被用于光线的积分,得到最终的渲染图。

三维人体 GAN 框架

基于提出的高效的人体 NeRF 表达,本文实现了三维人体 GAN 训练框架。在每一次训练迭代中,本文首先从数据集中采样一个 SMPL 的参数以及相机参数,并随机生成一个高斯噪声 z。利用本文提出的人体 NeRF,本文可以将采样出的参数渲染成一张二维人体图片,作为假样本。再利用数据集中的真实样本,本文进行 GAN 的对抗训练。

极度不平衡的数据集

二维人体数据集,例如 DeepFashion,通常是为二维视觉任务准备的,因此人体的姿态多样性非常受限。为了量化不平衡的程度,本文统计了 DeepFashion 中模特脸部朝向的频率。如下图所示,橙色的线代表了 DeepFashion 中人脸朝向的分布,可见是极度不平衡的,对于学习三维人体表征造成了困难。为了缓解这一问题,我们提出了由人体姿态指导的采样方式,将分布曲线拉平,如下图中其他颜色的线所示。这可以让训练过程中的模型见到更多样以及更大角度的人体图片,从而帮助三维人体几何的学习。我们对采样参数进行了实验分析,从下面的表格中可见,加上人体姿态指导的采样方式后,虽然图像质量(FID)会有些微下降,但是学出的三维几何(Depth)显著变好。

高质量的生成结果

下图展示了一些 EVA3D 的生成结果,EVA3D 可以随机采样人体样貌,并可控制渲染相机参数,人体姿势以及体型。

本文在四个大规模人体数据集上进行了实验,分别是 DeepFashion,SHHQ,UBCFashion,AIST。该研究对比了最先进的静态三维物体生成算法 EG3D 与 StyleSDF。同时研究者也比较了专门针对三维人生成的算法 ENARF-GAN。在指标的选择上,本文兼顾渲染质量的评估(FID/KID)、人体控制的准确程度(PCK)以及几何生成的质量(Depth)。如下图所示,本文在所有数据集,所有指标上均大幅超越之前的方案。

应用潜力

最后,本文也展示了 EVA3D 的一些应用潜力。首先,该研究测试了在隐空间中进行差值。如下图所示,本文能够在两个三维人之间进行平滑的变化,且中间结果均保持较高的质量。此外,本文也进行了 GAN inversion 的实验,研究者使用二维 GAN inversion 中常用的算法 Pivotal Tuning Inversion。如下面右图所示,该方法可以较好的还原重建目标的外观,但是几何部分丢失了很多细节。可见,三维 GAN 的 inversion 仍然是一个很有挑战性的任务。

结语

本文提出了首个高清三维人体 NeRF 生成算法 EVA3D,并且仅需使用二维人体图像数据即可训练。EVA3D 在多个大规模人体数据集上性能达到最佳,并且展现出了在下游任务上进行应用的潜力。EVA3D 的训练与测试代码均已经开源,欢迎大家前去试用!

相关推荐

vue:生命周期钩子函数及顺序_列举出5个vue中常用的生命周期钩子函数

一、vue的钩子相关顺序Vue实例有一个完整的生命周期,在newVue()后,会初始化数据,如下://初始化的入口,各种初始化工作initMixin(Vue);//数据绑定的核心方法,包括常用...

最长递增子序列:从经典算法到 Vue3 运行时核心优化

最长递增子序列(LongestIncreasingSubsequence,LIS)正悄然成为性能分水岭。它不仅是面试的高频考点,更是Vue3快速Diff算法赖以实现O(nlogn)...

十分钟掌握Vue 3性能优化:实战技巧与避坑指南

「为什么我的Vue应用越做越卡?」这是最近团队新人最常问的问题。本文将从真实电商项目出发,手把手教你用Vue3的现代特性实现性能飞跃,文末还准备了可复用的优化检查清单!一、先看疗效:优化前后对比优...

JavaScript学习 -- 文本节点_html 文本节点

什么是文本节点在HTML文档中,文本节点是一种特殊的dom节点,它包含文本内容,没有任何标记或属性。<p>这是一段文本节点</p>在上面的代码中,<p>元素包含了...

JavaScript中this指向各种场景_javascript的this指向

在JavaScript中,this的指向是一个核心概念,其值取决于函数的调用方式,而非定义位置(箭头函数除外)。以下是this指向的常见场景及具体说明:1.全局作用域中的this在全局作用域(非...

v-if和v-for的优先级是什么?_v-if和v-for的区别,什么时候用

#一、作用v-if指令用于条件性地渲染一块内容。这块内容只会在指令的表达式返回true值的时候被渲染v-for指令基于一个数组来渲染一个列表。v-for指令需要使用iteminitems...

Vue插槽(Slot)深度解析:从匿名到作用域的组件复用革命

在Vue组件化开发中,内容分发始终是核心挑战之一。当我们需要让组件既能保持结构复用,又能灵活定制局部内容时,插槽(Slot)机制应运而生。从基础的匿名插槽到复杂的作用域插槽,Vue的插槽系统逐步解决了...

手摸手带你解决AI应用开发中Markdown渲染问题

使用Markdown-It+VueRender实现安全可控的Markdown渲染在前端项目中,Markdown的渲染经常使用markdown-it。它功能丰富、插件多,但默认的渲染方...

Vue3 新趋势:10 个最强 X 操作!_vue.3

Vue3为前端开发带来了诸多革新,它不仅提升了性能,还提供了更简洁、更强大的API。以下是十个最值得学习和使用的Vue3API,它们将助力你的开发工作迈向新高度。浅层响应式API:shall...

25个React最佳实践小技巧_reactor设计模式

以下是25个React开发中实用的最佳实践与小技巧,覆盖组件设计、状态管理、性能优化、代码规范、错误处理等核心场景,每个技巧均附示例和核心原因,帮助你写出更高效、可维护的React代码。一...

javascript函数的call、apply和bind的原理及作用详解

javascript函数的call、apply和bind本质是用来实现继承的,专业点说法就是改变函数体内部this的指向,当一个对象没有某个功能时,就可以用这3个来从有相关功能的对象里借用过来...

简单介绍一下前端各框架中的模板标签

在各大前端框架、小程序中,此类标签的作用主要是用来帮助我们包裹多个元素。在浏览器实际渲染中会将其移除只渲染其包裹的DOM元素,所以说不会增加额外的DOM节点在小程序中使用小程序中的模板标签是<...

面试官问我,后端一次性返回十万条数据,前端应该怎么处理 ?

问题描述面试官:后端一次性返回10万条数据给你,你如何处理?我:歪嘴一笑,马上给后端发送一百万次请求,干蹦他的服务器,让他给爷哭!问题考察点性能优化意识(能否识别出“10万条数据”会导致性能问题?是...

React系列十 - 高阶组件以及组件补充

源自:coderwhy一.高阶组件1.1.认识高阶组件什么是高阶组件呢?相信很多同学都听说过,也用过高阶函数,它们非常相似,所以我们可以先来回顾一下什么是高阶函数。高阶函数的维基百科定义:至少...

从0开始写一个虚拟滚动组件_虚拟滚动原理

如果一个页面有1W+条数据,该怎么渲染比较好。不管是在我们的实际项目开发中还是在面试的过程中都会遇到类似的问题。相信很多同学会想到分页。当然这也是最传统也是最保底的解决方案了。如果有开发过electr...