上一主题下一主题
推送至APP |
级别: 总版主
UID: 2
精华: 1
发帖: 12967
威望: 12978 点
铜币: 1126817 枚
贡献值: 0 点
注册时间: 2022-03-21
最后登录: 2024-02-18
0楼  发表于: 2022-06-10 19:27

数据挖掘和隐私

  对个人隐私的威胁的产生主要来自于当数据一旦被破译, 掌握数据这方或者其他可以接近数 据集的人或团体,能够辨别特定的个体,便存在利益被侵犯的可能性。 据传,从 2010 年起,MySpace 通过网络数据交易公司 InfoChimps 将用户的网站信息公开出 售给第三方,包括学术研究者、市场调研机构甚至营销人员。他们出售的信息包括用户账户 的任何活动内容和信息, 涵盖博客日志、 用户所在地信息、 照片、 评论和状态更新等。 MySpace 在互联网领域的日薄西山有多方面的原因, 但是他们对用户隐私的不重视也可能是其中的一 个原因。 而有的时候,信息泄露并不是互联网公司有意为之的。比如 2011 年 Facebook 的网站就曾经 出现过一个安全漏洞,使得用户可以通过一个链接看到其他任何在线用户的相册。 在西方国家,隐私问题是为大家所极为看重的。请看 KDNuggets 在 2012 年 7 月做的调查。 结果表明,50.2%的网民不愿意以任何价格出售他们的 Facebook 信息,而愿意出让的人中, 37%要以一年 500 美元或者市场价格出让。
  《时代》杂志的主编 Joel Stein 在 2011 年 3 月的一篇文章是这样说到数据挖掘和个人隐私 的: “Google 认为我是一个喜欢,明星绯闻,动漫电影并讨厌看书的人;Yahoo 认为我 是一个喜欢冰球,菜谱,服装和化妆品的中年男人。 ExeLate,RapLeaf 和 Intellidyn,三家 ” 买卖数据的公司也各自通过 JOEL 的互联网信息对 Joel 做出各自的描述。而这些关于 Joel 的 描述,且不论正确与否,一个商家只需要 2.5 美分就可以从这些数据公司中获得。Joel 认为 这些数据的存在超出了他的底线,应当彻底在互联网上禁止通过数据挖掘来获取个人信息。 《信息管理》杂志的主编 Jim Ericson 在他的博客上对于 Google 通过 Cookie 收集用户行为的 方式表示很无奈: “我们一方面感谢互联网把我们连在一起,但是我们也成为了这条食物链 中的一个环节” 。
  社交服务网站(SNS)的发展验证了六度分隔理论(Six Degrees of Separation)的假设,也就 是说人际关系脉络方面您可以通过不超出六位中间人与世界上任意一个人认识。 把朋友的朋 友是朋友的原则应用到互联网世界上,线上社交网络从而得到蓬勃发展。当然,这样的情况 带来的后果是个人隐私的唾手可得和不可控。 个人隐私被互联网泄露的后果在 2012 年 3 月美国一家法院的判案中得以极端体现。一位名 为 Clementi 的美国大学一年级新生被室友 Ravi 通过网络搜索确认为同性恋,Clementi 因忍 受不了性倾向歧视, 以及他的视频被 Ravi 在网上泄露,最终选择了跳桥, Ravi 也因此被 判入狱 30 天。Clementi 登录同性恋论坛的频率和网站留言等在网络上记录的痕迹被 Ravi 搜 到,成为酿成悲剧的导火索,而 Ravi 做这些搜索的目的只是为了了解一下他的新室友。 这是个体有目的地通过互联网挖掘他人隐私数据(俗称“人肉” )带来的严重后果,而此类 个人的事件也屡见不鲜。那么互联网公司的数据挖掘行为呢? 在章节 10.3.2 中我们提到的“Target 对于怀孕妇女的营销”案在互联网上也传得沸沸扬扬。 一方面大家都惊叹于 Target 能够如此精确地对用户信息进行数据挖掘,另一方面也对用户 的隐私表示担忧。 这些怀孕的妇女可能并不想大家知道她们怀孕的事情, 而其实这些被精准 营销的妇女在个人隐私方面是受到严重侵犯的。 新近很火热的移动社交应用 Path 为了帮用户获得和他最密切的 150 个好友,Path 未经用户 批准扫描手机通讯录。 Path 的创始人出面道歉, 并解释说上传用户电话簿的行为是有严格限 制的,仅仅用于提高“好友建议”的质量。所有用户在 Path 上分享的消息都经过了加密, 这些电话簿的资料同样也是,而在 Path 后期出的版本中,用户可以选择不上传电线 移动社交应用 Path 示意图
  “虚拟社交关系”入侵“现实电话簿”的事件不仅仅出现在 Path 身上,大名鼎鼎的 Twitter 近期也招供下载存储用户通讯录长达 18 个月之久,还有 KIK、WhatsApp 以及在中国移动互 联网上很火爆的微信、 米聊等一大堆的社交应用程序都会这样或明或暗地从用户手机中吸取 数据。而对于这种数据挖掘行为,我们已经听到了不少的担忧甚至反对的声音:用户的个人 数据和关系属于用户本人,用户拥有自己数字化数据的知情权、拥有权和绝对控制权,其他 公司对这些个人数据的追踪、分析和转让都是不可容忍的。 最近另一起与数据挖掘有关的伦理讨论是由互联网巨头谷歌引起的。2012 年 1 月,谷歌宣 布整合包括 Youtube、Gmail、Google等旗下服务中搜集的用户个人信息,用户将因此有可 能从根本上失去在谷歌世界里同时管理和拥有多个不同身份的能力。 谷歌的这一行为已经引 起了政府的注意, 代表欧盟监管机构的法国计算机服务与公民自由国家委员会很快给谷歌写 信,称初步调查显示谷歌新的政策不符合欧盟的数据保护指令。
  这些争论多数源于对数据源中可能含有的关键信息,例如用户身份、健康状况、家庭情况、 个人收入等可能泄露的担忧。 另外, 互联网公司也可以通过把他们分析的用户与他们所掌握 的用户个人数据相结合,而对用户的网络活动进行监控。同时,数据挖掘还有可能通过把原 本分散在多个网络系统中的用户数据集成、提炼,从而掌握用户在各个领域的行为,但这些 行为所汇集而成的信息极有可能是用户不希望外泄的。 但无法避免的是, 每一次用户在互联 网上注册或者使用一个基于互联网的服务时, 必然会留下一些相关的个人信息, 而对于这些 信息的使用, 各个互联网公司往往并没有经过用户的许可。 虽然他们将此项授权添加在了大 多数用户可能从不会仔细阅读的“用户同意事项”中。 就像保护个人隐私并不阻碍我们愿意在公共场合说话,数据挖掘也不总是站在隐私的对立 面。其实我们经常会在公开场合,例如餐馆、车站或地铁上,进行私人性质的谈话。我们明 白对话内容会被服务员或者路人听到,但心理学家欧文高夫曼所说的“礼貌性疏忽(civil inattention) ”会帮到我们。人们一般会选择过滤掉我们的谈话内容,即使听到了也不会加入 我们的讨论。 当然我们自己也会通过压低声音来限制传播范围, 谈话末了还会加上一句, “千 万不要告诉别人” 。 在网络这个虚拟公共场合里,用户也可以对一些信息内容采取加设密码、 “穿上马甲”等方 式来进行“窃窃私语” ,效果就像在餐馆谈话时压低声音一样明显。不过用户的大多数数据 还是会被记录,然后被使用于商业目的。我们在第 8 章提及的邮件营销;第 9 章提及的网盟 广告和第 10 章中论述的电子商务其实都运作在用户数据挖掘的基础之上的。而现在流行的 精准营销、社会化营销、移动广告等无不是在数据挖掘的支持下产生的。 包括谷歌在内的一些互联网公司认为, 这些适度的隐私出让可以让用户受益, 并带来社会效 率的整体提升。 如果没有得到用户足够多的数据并进行分析, Google 的搜索结果可能会像谢 耳朵的超严密逻辑分析一样无厘头。某种程度上来说,正是这些用户数据的有心搜集,才让 互联网提供的各种服务多了些温情,少了些死板, “您要让它为您更好地服务就不可能不让 它更了解您是谁” 。在搜索领域,对于谷歌搜索威胁最大的将是 Facebook,而其原因正是因 为 Facebook 掌握了您大量的个人信息和历史数据,使得搜索结果更加精准。 其实,数据挖掘本身不存在伦理问题。数据挖掘技术是中立的,大多数用户行为的数据也不 会产生伦理问题,从广义上讲,从高速公路上的车流数据,商业用车的碰撞测试数据到股票 的历史数据均可被视为数据挖掘的范围, 这些类型的数据虽占据可以被数据挖掘方法所分析 的很例,却很少让人产生道德方面的忧虑。 对个人隐私的威胁的产生主要来自于当数据一旦被破译, 导致数据挖掘方或者任何可以接近 数据集的人,能够辨别特定的个体,便存在利益侵犯的可能性。例如保险公司可以透过访问 医疗记录来筛选出那些有糖尿病或者严重心脏病的人, 不允许他们加入保险计划或是大幅提 高他们的保费,从而削减保险支出。 面对互联网公司数据挖掘的隐秘性, 欧盟正在起草新的数据保护条例, 包括将有可能对违规 公司处以其全球收入 2%的罚款。 2012 年 2 月, 奥巴马政府也定下了新隐私保护规范的架构, 此规范能让消费者更好地控制个人信息的使用。
☛ 1024社區区
上一主题下一主题
 电影2090 » 明星八卦