在全球范围内,估计有70亿个连接到Internet的物联网(IoT)设备-预计在未来两年内,这一数字将翻倍。这些设备几乎部署在任何地方,从公共场所到我们的工作场所,甚至在我们家中最私密的区域。
东联科技有限公司董事长兼CEO,知名网络安全专家郭盛华曾透露:“通常,家庭物联网设备会接触或访问敏感,个人和私人信息。例如,智能扬声器可能会收听私人对话,门铃或安全摄像头可能会在居民和客人不知情或未同意的情况下记录下来,而电视可能会跟踪我们的观看习惯。 这些设备不仅暴露于敏感信息中,还归因于物联网中的“ I”,所有这些设备都可以访问Internet并可能共享此类信息。 ”
在这项工作中,我们东北大学和伦敦帝国理工学院试图回答三个问题:
-
物联网设备的互联网流量会流向何处?
-
这样的流量是否通过加密保护免受窃听?
-
这次曝光可能会对隐私产生什么影响?
以下是我们 在阿姆斯特丹ACM IMC 2019大会上发表的研究论文的发现的摘要 。
衡量物联网隐私
物联网设备与其他设备(例如手机)有很大的不同。因此,没有标准的仿真工具,仿真器或测试平台可以对其进行测试。
因此,我们在两个地区部署了两个双测试台。我们还开发了 软件 (并使其公开可用),用于与设备自动交互并收集Internet流量。
第一个测试平台是Mon(IoT)r实验室,建于美国东北大学。它的设计类似于真实的一室公寓,用户研究的参与者可以在其中自由访问物联网设备并与之交互。为了了解这些设备在另一个具有不同隐私法规的地区是否以相同的方式运行,我们在帝国理工学院(英国)设置了第二套测试台,并使用了一组类似的物联网设备。我们从许多类别中选择了设备,然后购买了当时市场上最受欢迎的设备-共有81种设备,包括摄像头,智能集线器,电视和智能冰箱。
图1 —美国和英国的物联网实验室,配置为一室公寓,其中包含大量的消费物联网设备。
我们设计了用于模拟设备使用情况的实验。我们特别考虑了:
-
受控的交互- 通过使用配套的应用程序或智能扬声器,我们可以自动控制设备(即打开灯光,流式传输视频,触发动作)。
-
空闲- 当设备开启但没有交互时,我们收集了流量。
-
不受控制的互动- 我们招募了36名参与者,他们使用了他们认为合适的设备六个月。
我们重复了30次对照实验,总共进行了34,586次实验。我们的监控软件捕获了设备与Internet之间收发的所有数据包,并按设备和实验组织了结果。
您的数据要去哪里?
为了回答这个问题,我们集中在以下方面:
-
IoT设备与哪些方联系?
-
他们的地理位置是什么?
-
联系最常见的非第一方是什么?
目的地可以分类为:
-
第一方: 负责实现设备功能的IoT设备制造商或相关公司。
-
支持方: 任何提供外包计算资源的公司,例如CDN和云提供商。
-
第三方: 不是第一方或支持方的任何一方。这包括广告和分析公司。
组织 | 美国 (46台设备) |
英国 (35个设备) |
美国通用 (24台设备) |
英国通用 (24个设备) |
亚马孙 | 31 | 24 | 16 | 17 |
谷歌 | 14 | 9 | 10 | 8 |
赤舞 | 10 | 6 | 6 | 5 |
微软 | 6 | 4 | 1个 | 1个 |
网飞 | 4 | 2 | 3 | 2 |
金山软件 | 3 | 3 | 1个 | 1个 |
21号通行证 | 3 | 3 | 1个 | 1个 |
阿里巴巴 | 3 | 4 | 2 | 2 |
北京华夏 | 3 | 3 | 1个 | 1个 |
美国电话电报公司 | 2 | 0 | 1个 | 1个 |
表1 —多个设备联系的组织
为了表征目的地,我们尝试通过查看DNS响应,HTTP标头或TLS握手来找到第二级域(SLD),然后通过使用公共数据库(如whois)重试表征组织。我们还从网络流量中收集了所有IP地址,并进行了重试以表征拥有IP地址的组织。
为了对IP地址进行地理定位,我们使用了 RIPE IP Map 和 Passport。结果表明:
-
正如预期的那样,许多设备都与Amazon和内容交付网络(CDN)提供商联系。
-
几乎所有电视或加密狗都在不实际使用Netflix或未登录Netflix的情况下联系Netflix。我们还注意到,他们联系了设备隐私管辖范围之外的云提供商(例如中国云提供商)。
我们的结果表明,设备会改变不同区域的行为,但是我们无法确定对此行为的简单或清晰的解释。然后,我们确定了联系的经济体,并通过按类别对流量进行分组来显示结果。图2中的Sankey图显示,大部分流量是由照相机和电视产生的,并且大多数设备都与测试平台以外的隐私管辖权联系,尤其是来自英国的隐私管辖权。
图2 —美国(左)和英国(右)实验室到排名靠前的七个目的地区域(中心)之间的网络流量,按类别(中,左,右)分组。
未加密的信息泄漏
下一步,我们对物联网设备发送的内容进行表征,检查未加密的内容和隐私暴露的证据。
我们发现某些设备(三星冰箱,替代集线器和Magic home LED)公开了未加密的MAC地址(唯一标识符)。有趣的是,每次小米相机检测到运动时,其MAC地址,运动时间和日期(以纯文本形式)都会发送到Amazon EC2域。我们还注意到,有效载荷中包含一个图像。
我们最终注意到了其他未加密的内容,例如固件更新和有关初始设备设置的元数据。
图3 —一些IoT设备公开了个人身份信息(PII)。
加密了多少流量?
幸运的是,我们的研究不仅产生了坏消息!分析流量时,我们发现未加密的流量非常小(请参见图4中的红色条)。
图4 —按设备类别的未加密(红色)和加密(绿色)流量的百分比。
我们可以根据网络流量推断用户活动吗?
即使大多数物联网流量不是纯文本,我们也想知道窃听者是否仍可能基于加密/编码的网络流量模式来检测用户活动。更具体地说,是否可能了解用户与IoT设备进行交互的方式和时间,以及已使用的设备功能(例如打开/关闭灯)?
我们收集了受控设备交互作用产生的流量模式,然后使用监督式机器学习寻找相似的模式。我们尝试了几种机器学习方法,最后得到了随机森林树分类器。作为功能,我们使用数据包大小和到达间隔时间等。
图5-按活动可推断的设备百分比。
图5显示大量设备活动是可推断的,尤其是视频或语音活动。窃听者(例如ISP或云提供商)可以利用可推断的活动来了解用户在家中时所拥有的设备以及他们在家里中的行为。
推断设备活动将打开另一个重要功能:如果我们可以确定设备在做什么,则可以确定设备是否意外地采取了某些措施(例如,录制视频)。
设备会意外暴露信息吗?
我们将意外行为定义为以下情况:设备生成的网络流量对应于不是由实验触发的互动,或者是用户不希望的互动。
图6 —推断活动的方法。
我们专注于不受控制的闲置实验,发现了一些意外行为,包括:
-
一些流行的视频门铃可以检测到运动,我们发现设备会记录触发了运动检测的人的视频-既不通知被记录的人(设备所有者的应用程序中的通知除外),也无法禁用特征。
-
即使不使用这些服务,也有几台电视会定期与Netflix,Google或Facebook联系。
-
一些智能扬声器(例如启用了Alexa的设备)经常在不说唤醒字的情况下录制音频。例如,当说出“我喜欢[s-word]”开头的句子时,Alexa设备会唤醒。
-
即使房间没有运动或活动,一些摄像机也会错误地触发运动并进行记录。
-
许多设备虚假地重新启动。
呼吁谨慎和透明
我们的研究是第一个量化跨不同网络,地理区域以及与设备交互的信息公开程度的研究。
我们发现,许多行为应使消费者在考虑在家中部署此类设备时应仔细考虑。
此外,我们发现在物联网设备行为方面需要提供更大的透明度,以便用户可以更好地识别意外和不需要的数据传输,并采取适当的措施。
我们的一些主要发现包括:
-
物联网设备联系的目的地中,有超过50%是非第一方的。
-
在美国,有56%的设备和在英国的84%的设备与至少一个国外目的地联系。
-
许多设备(占89%)很容易受到至少一种可用于识别意外活动的活动推断的攻击。
我们的研究是大规模了解消费者物联网设备信息暴露的第一步。为了在更广泛的研究社区中促进分析和重现性,我们的实验基础结构,代码和数据是公开可用的。
虽然我们的初步研究仅涉及表面问题,但请继续关注后续工作,该工作可提供有关IoT设备意外行为的更深刻见解,并展示如何控制来自设备的信息暴露。(欢迎转载分享)