发布于: Aug 11, 2022

无人零售商店需要运用多种技术,其中应用领域最为广泛的便是人工智能图像识别技术。无论是识别顾客还是识别所购商品都离不开这项技术,那么他是如何应用到无人商店中的呢,我们会为您简略介绍。

说到这里您大概已经有了一个整体印象。再让我们再回头看看入场体验。顾客打开 Amazon Go 移动应用,扫描主屏幕上的二维码,然后进入商店。

在这里面临的挑战之一是设计出一种体验,使顾客感觉自然和无缝。例如,需要考虑决定扫描二维码时手机是是正面朝上还是反面朝下感觉更自然。与此同时,还希望客户能够顺利且畅通无阻地走进去。因此,设计了入口闸门的硬件和软件,使顾客可以向下扫描二维码进入,同时系统可以验证顾客身份,并打开闸门。而所有这一切的处理都需要在很短的时间内完成,通常不到一秒钟。这样客户就不必在进入的过程中放慢步伐。同样的问题也适用在出口上 ,顾客也不必为了打开闸门而放慢速度或采取其它的动作。

另一个挑战是如何能够适应现实世界的情况,因为事情总是不可预测的。例如,在理想的世界中,每一位顾客在进入商店时只扫描一次。然而,有时人们扫描手机后会分心,并开始与朋友交谈,所以如果他们再次扫描之后进入商店,系统必须足够聪明以处理所有这些特殊的场景。最后,我们需要更顺畅的处理家庭或者团队购物的场景。或者说,一组打算共享一个账户共同付款的顾客。在这种情况下,扫码者将作为这一组的付款人,在组中的每个成员进入商店时只需扫描他的手机。但显然他们中的任何人都可以随时离开商店,所以会话管理逻辑必须在这些情况下正常的工作。

因此,作为入口/出口服务的一部分,构建了用于验证客户帐户、组关联和会话管理的系统。总体而言,这个部分的服务的目的是管理当前在商店中处于活动状态的一组客户的会话(session)以及每个服务相关的支付方式。

对于“ Just walk out 技术 ”来说简直可以用来编写一本计算机视觉的教科书,因为它包含了对象识别、人员检测、姿势预估、活动分析,传感器融合以及校准等一系列的应用算法。最重要的是,这些算法不仅必须像大多数最先的算法所显示的那样有较高的准确率,还必须产生准确的购物的收据。下面让我们深入了解 “Just Walk Out” 技术的一些组件,就是这些组件解决了 “谁拿了什么” 的难题。让我们从 “谁” 这个部分开始,其中包含三个主要模块、定位器、链接器和复杂状态解析器。

大多数人想当然会认为只需要在货架上购物时找到顾客就可以满足需要。但是,这种片段的识别处理并不能提供所需的准确性。事实上,这个场景中需要的是顾客从店铺入口到出口的全程定位。当只有几个人在商店里时解决问题很简单。但是,当有许多人彼此接近时这个问题就变得极具挑战性。人群会导致顾客彼此遮挡,有时候他们甚至看起来很相似。Amazon Go 店铺里布置的每个摄像头都会产生一个 3D 点云。 基于每个摄像头的校准参数,将这些参数聚合为一个全局的表示,并提取出移动的对象。 并非所有的移动物体对应的都是顾客,还可能是购物篮、推车以及婴儿车等。系统中的人员定位器查看分段的图像数据,并决定它是某人还是另一种对象。然后,将人员在一帧中的位置链接到下一帧。 为每个顾客的数据分配一个标签。

链接器的作用是将标签从第一帧保留到最后一帧。这样我们就可以看到顾客在店铺中的轨迹,例如 1H8,他正走向准备店铺的食品区域。

比较棘手的情况是当人们彼此接近时识别将变得困难。 这被称之为复杂状态。因此,要对人员位置的不确定性进行建模,并通过运动特征和图像特征来解决人员位置的不确定性的问题。

现在,请注意标签为“117”的顾客。他与另一个顾客非常接近,但系统知道他在那里,但不确切地知道他在哪里。实际上他已经已进入 “复杂状态”,这个状态由黄色标签表示。在进行分离处理后,系统将重新将其定位,并重新使标签为“117”的顾客获得绿色标签。

这是另一个真实的记录,所有客户在店铺中的位置如下图。

系统将所有店铺内的俯瞰视图拼接在一起,以便定位在店内移动的顾客和人员,例如有顾客进入商店,或者员工将商品添加到货架上。在这个示例中,我们的老朋友标签为 “117” 的顾客在屏幕的中间结束纠结状态后重新获得了新的 ID。而标签为“B6”的人员则是一个从房间后面进来的店内工作人员。他在推车,负责将商品添加到零食区域。右下角的 W4 从精选即热食品区域来到饮料区域。这时候他获得了复杂状态标签,然后重新获得
绿色的 W4 的标签。

相关文章