本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

现在,只用WiFi就能“看”到你在房间里干啥了……

(你…干…嘛……啊啊啊啊)

多人追踪也是so easy:

过程中完全不需要拍下图像、不需要摄像头

输入的仅是WiFi一维信号,输出则是三维人体姿态。

两台路由器即可搞定!换算成本都不到500块。

而且还不受环境光线、目标被遮挡的影响,效果接近于基于2D图像进行识别的方法。

啊这,难道说WiFi能“看到”我?更进一步……WiFi能监视我??

OMG,蝙蝠侠剧情要照进现实了??

要知道在《暗黑骑士》里,哥谭市所有人的手机都变成了监控设备,同一空间里所有人的一举一动都能被实时记录。

网友们已经构思恐怖脑洞了:

想象一下,只需一台连接WiFi接收器的电视机,别人就能看到我们全家在干啥了。

有人甚至说,以后可能必须要在身上涂保护层来屏蔽WiFi信号。

搞全身追踪,不要用摄像头了

如上提到的方法,是卡耐基梅隆大学(CMU)机器人研究所的新成果。

研究的本身目的是为了保护隐私,毕竟在很多非公共场所,如养老院、独居老人家中,监控非常有必要,但是使用摄像头又很难保证隐私安全。

使用雷达倒是能解决隐私问题,但价格和具体可操作上就很劝退了。

于是,该团队想到了用现在几乎各家必备的WiFi来进行识别。

所以在设备上,仅需两台再也普通不过的家用路由器(每个至少有3根天线)就可以了。

原理也很简单,就是利用WiFi信号中的信道状态信息(CSI)数据。

这些数据是一堆复杂的十进制序列,可以表示发射信号波和接收信号波之间的比率。

当它们在发射器和接收器之间传输时,一旦接触到人体,就会被修改。

于是,通过解读这些“改变”,就可以检测到人体姿态。

为此,研究人员开发了一个“基于区域”的卷积神经网络分析pipeline,该pipeline可以定位人体的各个部位。

然后再将WiFi信号的相位和振幅映射到24个人体区域里的坐标,实现最终的全身姿态追踪。

具体来说,模型通过三个分量从WiFi信号中生成人体表面的UV坐标。

首先,通过振幅和相位Sanitization步骤对原始CSI信号进行“净化”处理。

然后,将处理过的CSI信号通过双分支编码器-解码器网络转换为2D特征图。

接着,将2D特征馈送到一个叫做DensePose RCNN的架构中。

该架构灵感就来自Facebook已经开源的人体姿势实时识别系统DensePose。DensePose入选了2018年CVPR的Oral环节,主要是把2D图像转换成3D人体模型。

所以这步的目的就是算出2D特征图对应的3D姿态,也就是估计出UV坐标。

最后,在训练主网络之前,作者还将用图像生成的多层次特征图与WiFi信号生成的多水平特征图之间的差异进行了最小化,进一步完善了最终结果。

尽管我们从肉眼看上去,两种方法的最终结果差不多,但在数据方面,基于图像的方法效果还是更好一些。

比如在同样环境布局下,基于WiFi方法的精确度都低于图像方法。

△数值越高意味着越好

不同环境布局的情况也是如此。

与此同时,如果遇到数据集中不包含的动作,该方法也无法识别成功。如果人数超过3个,也发生“丢人”情况。

下图中左边两幅是罕见动作失败案例,右边两幅是3人以上识别失败情况。

不过团队认为,如上问题可以通过进一步扩充数据集来解决。

除此之外,该方法对路由器的放置位置要求很高,并且会对其他WiFi网络造成影响。

来自CMU团队,有2位华人作者

论文一作为Jiaqi Geng,他来自卡耐基梅隆大学,去年8月获得了机器人专业硕士学位。

△Jiaqi Geng

另一位华人作者是Dong Huang,他现在是卡耐基梅隆大学高级项目科学家。

△Dong Huang

他的研究方向一直都是利用深度学习进行信号识别。比如之前已经实现了用WiFi信号实时识别2D人体姿态。

最后一位作者是Fernando De la Torre,他现在卡耐基梅隆大学机器人研究所副教授。

△Fernando De la Torre

他的研究方向主要为计算机视觉,涉及领域包括人体姿态识别、AR/VR等。

2014年曾创办过一家开发人脸识别技术的公司FacioMetrics LLC,2年后被Facebook收购。

作者团队表示,目前该方法性能还受限于可用来训练的数据不多,未来,他们计划扩充数据集。

论文地址:https://arxiv.org/abs/2301.00250