最近亚马逊推出了一个名为Amazon Go的实体便利店。这个商店的独到之处在于,它不需要排队,无需注册,也不需要结账。用户进入时只需在手机上打开Amazon Go App的二维码,在闸机上刷一下,选好商品就可以径直离开!
这个商店到底用到了哪些高科技呢?从官方的宣传看,技术亮点包括传感器融合和深度学习算法。然而,亚马逊并未公布该系统的详细工作原理,所以我们现在只能是对其进行大致推测。
为什么Amazon Go使用摄像头和计算机视觉而不是用物品上的RFID标签呢?对于这个问题,Quora上的一名网友Will Thiel表示,最重要的原因是,Amazon Go不是真正的商店,而是一个可转售的服务。也就是说,如果此举成功,亚马逊将试图以转售亚马逊网络服务同样的方式,为用户提供7-11商店内的购物体验。这意味着他们需要为7-11提供服务,而不用其采用新的流程和硬件。
其他原因包括:
1.成本。如果每个商品上都加一个RFID标签,RFID标签会花钱,贴标签的时间会花钱,解决人工错误会花更多的钱。亚马逊不喜欢花钱。
2.设备。为什么亚马逊想用智能手机而不是其他非消费类硬件?成本(见上)、数据(见下)、增强现实。亚马逊可以将有关销售等的信息叠加到用户购物体验上。
3.数据和交互性。如果传感器在购物车里,RFID只会告诉你什么商品进入到车里,什么留在车里。如果传感器在门口,他们只会告诉你什么商品离开了商店。有了手机和计算机的视觉,亚马逊知道每个人在商店里做了什么。
客户无法被RFID标记,摄像头和计算机视觉可以跟踪到他们。现在,任何商店都已经添加了摄像头,可重复利用。
然而,网友Jacob Minz给出了不同观点。他表示,即使是有人坐在视频屏幕后观察,也不能可靠预测客户封闭的购物袋中有什么。其次,任何闭路摄像机电路将具有其盲点,或者会遭受浪涌而产生瞬时盲点。
所以,商品必须贴上RFID标签。
RFID标签非常便宜,零售价仅为0.13美元,亚马逊可以以0.03美元(折合成人民币仅约2毛钱)更便宜的价格购买到。
RFID是无源元件,不需要电池工作。扫描仪可以相隔一定距离获取到其代码。
上图中的人实际上是贴上了RFID标签。但在商店的示例中,所有物品都会被标记,计算机可以创建物品的动态地图。
我们需要有第三个点,即客户(客户标签),这就是计算机视觉(CV)发挥作用之处。其他的事情亚马逊就很容易搞定。
另外,Quora上的另一名网友表示,Amazon Go里面的这些摄像头能识别人的肤色,通过图像分析精确找到顾客的手。毕竟当购物者较多时,两位顾客很有可能会在一个货架上拿货,通过肤色来识别用户是最有效的方法,可以降低失误率。
亚马逊还有强大的 Alexa 智能助手,遍布杂货店的麦克风采集声音后,系统就能获知到顾客的方位和大致动作。通过各个麦克风接收音频的时间差,系统还能得出顾客在商店中的行动习惯。
此外,通过压力传感器和称重传感器,系统可以判断货架上的商品是否已经被拿走或还回。再配合图像分析,系统就能及时发现用户在还回商品时是否放错了货架。
另外,网友Brian Roemmele也透露说亚马逊曾提交过两份专利文件,里面的描述和Amazon Go如出一辙。这两份文件分别为:“检测物品互动与移动”(Detecting item interaction and movement)和“物品从物料处理设施上转移”(Transitioning items from the materials handling facility)。
“检测物品互动与移动”这份专利的大致内容是:用户从货架上拿起或放下物品时,系统可以检测到这个动作,并且更新用户移动设备里的清单。
从专利中我们了解到,系统中包含多个摄像头,它们被分别置于天花板、货架两侧和内部。其中,天花板上的摄像头用来采集用户和货品的位置,货架两侧的摄像头用来捕捉用户的图像和周围的环境,货架内的摄像头则用来确定货品的位置或用户手的移动。
“物品从物料处理设施上转移”这份专利主要是说,物品被识别,并且当用户正在拿起物品时,物品自动与用户发生关联。当用户进入或穿过“转移区”(Transition Area),被拿起的物品将自动转移到用户,而不需要有用户的“确认”输入或带来附加延迟。
另外,专利还表示,这里的摄像头可以是多种类型的,可以是RGB摄像头或深度感知摄像头。除了摄像头之外,也可以有其他输入设备,比如压力传感器、红外传感器、体积位移传感器、光幕等等。压力传感器可以检测物品移出和进入的时间,红外传感器可以用来区分用户的手和物品。
Amazon Go 现在还处在Beta测试阶段,暂时只对亚马逊员工开放,如果在西雅图试运营顺利的话,明年就会在全美推广。但是这种免结帐最好的方式,是用计算机视觉,还是RFID呢?亦或您有更好的设计想法,欢迎交流。