01.jpg

算法也能欺骗我们做坏事 到底该如何预防?

网易科技 2017-07-20

  

  算法会如何整理你的数据?

  《卫报》网站撰文称,算法能够决定你能否申请到住房贷款,也能够决定你要缴纳多少保险费用,但有时候它们会出错——还有的时候,它们被专门用来欺诈。那么,要如何阻止算法骗人呢?

  以下是文章主要内容:

  很多的算法会无意间作恶。然而,有的算法则被用于犯罪活动。算法是通常用计算机代码编写而成的形式化规则,能够根据历史规律或者以往的模式预测未来的事件。要训练一个算法,你需要提供历史数据和成功的定义。

  过去几十年间,可以看到一些金融活动已经被算法接管。交易算法利用历史数据来预测未来的市场动向。这种算法的成功标准就是能否带来可预测的市场动向,算法会对那种动向发生之前的历史规律保持警惕。金融风险模型还使用历史市场变化来预测全球范围的大变动,不是针对独立的股票来预测,而是针对一整个市场。针对抵押贷款证券的风险模型出了名的恶劣——人为有意造成的——信任那些模型可以说是2008年金融危机引发的巨大损失的罪魁祸首。

  自2008年以来,我们更多地听说大数据算法,而不是金融领域的算法。这种新一代算法的目标已经从抽象的市场转移到个人身上。但它的基础功能是一样的:收集人们相关的历史数据,记录他们的在线行为、位置或者问卷调查的回答,然后利用庞大的数据集预测他们未来的消费活动、投票行为或者职业道德。

  近年来,大数据模型的广泛普及基本上没有引起普通人的注意,但可以说,如今人们与大型官僚系统接触的一些重要时刻都涉及计分系统式的算法。大学录取,求职者筛选,员工绩效评估,信用卡申请,保险购买,选举投票,甚至警务,很多时候都是通过算法来完成。此外,被应用于这些系统决策的技术基本上都不透明(甚至对它们的创造者也不透明),目前基本上都能够逃过监管,即便它们存在问题。这让这当中有哪些算法真的是在为我们服务的问题显得更加重要,更加紧迫。

  四种层次的算法

  说到邪恶的算法,我将它们分成四种层次。最高的层次是反映文化偏见的意外问题。例如,哈佛教授拉坦亚·斯威尼(Latanya Sweeney)发现,在谷歌上搜索被认为是黑人名字的名字,会产生与犯罪活动有关的广告,但我们可以假定没有谷歌工程师编写了那些种族主义的代码。事实上,之所以出现那些恶劣的广告,是因为以前的用户的谷歌搜索行为数据的训练:他们更有可能在搜索听上去像是黑人的名字以后点击犯罪记录广告。另一个例子是:在谷歌上搜索“不职业的发型”的图片,产生的结果几乎全是黑人女性的图片,这同样是因为长期以来人们的发帖或者搜索结果点击行为数据训练出来的结果。

  下一层次是因为疏忽而变得恶劣的算法。这里算法包括不让从事最低工资工作的人过上体面生活的调度程序。这些算法把他们当做是机器的一个齿轮,安排他们在每一周的每一天里值不同的班次,使得他们无法正常作息,因而平常无法照顾孩子,无法再打一份工,或者无法上夜校学习。它们以残忍的方式来取得很高的效率和规模,大体上也合法。谷歌用于自动标记照片的系统也是如此。该系统一直以来都有一个问题:黑人会被标记为大猩猩。这表明该公司存在疏忽,在产品本身的质量评估上做得不够:他们没有在放出代码之前确保它们在各种不同的测试用例中都没有问题。

  

  算法被用于筛选简历未经人工审查的求职者,这可能会导致歧视

  第三层次包含恶劣但不算违法的算法。例如,在澳大利亚,有Facebook高管向广告主展示寻找和瞄准弱势的青少年的方法。这很可怕,但似乎并不违法。的确,大体来看网络广告可被视作光谱:一方面,向富有的人群呈现奢侈品广告,吸引他们点击购买;另一方面,却向穷人和处于绝望中的人呈现发薪日贷款商的广告。对于不大可能会去货比三家的人,算法会收取更高的汽车保险费用。Uber刚刚停用了一项它用来预测工资待遇会有多低的算法,该算法会进一步扩大男女收入差距。

  最后,最底的层次包含蓄意作恶甚至公然违法的算法。有数百家私有公司在提供大范围监控工具,包括英国的数十家。那些工具被标榜为定位恐怖分子或者犯罪分子的方式,但它们也能够被用来瞄准和纠出民间的积极分子。由于那些公司收集了大量的数据,它们的预测性算法和评分系统可用来从噪声中过滤出有用的信号来。这个行业的违法性正引起讨论,但秘密行动的记者最近发现,代表伊朗和南苏丹的中间人能够相对轻松地买到这类系统。

  大众尾气门的借鉴意义

  言归正传,Uber开发了个名为“Greyball”的算法,它专门用来避免它的打车服务在城市里非法经营的时候被发现。它使用数据来预测哪些乘客会违反Uber的服务条款,或者预测哪些乘客属于秘密的政府执法人员。Greyball收集到的警告信号包括一天内多次使用Uber应用,以及使用与警察机构关联的信用卡。

  到目前为止,我们所发现的最臭名昭著的蓄意违法算法当属大众汽车公司在全球1100万辆汽车上用来蒙蔽尾气污染测试的算法,该算法隐瞒了那些汽车实际的氮氧化物排放量达到法律允许数量的35倍的事实。尽管表面上看大众使用的是作弊设备,但该设备也算是算法。该算法被训练得能够鉴别和预测测试环境和道路环境,能够根据环境鉴别结果以不同的方式运作。跟Greyball一样,它意在欺骗。

  

  2015 年,电商公司Poster Revolution 被判利用算法与其它的海报销售商串谋定价

  汽车制造商的例子值得深思,因为算法行业——它是一个非常年轻的、高风险的新行业,但没有部署安全保护措施——跟早期的汽车行业非常相似。业界普遍天真地信任自己的技术,但实际上,AI行业目前就像是在出售没有保险杠的,车轮随时都有可能脱落的汽车。我可以肯定,时不时都有人生产这种汽车,但随着时间的推移,问题设计导致越来越多的人员伤亡,我们想出了更多的规定来保护乘客和行人。因此,对于非法软件和算法,我们能够从当前成熟的汽车制造业学习到什么经验教训呢?

  首先,大众以外的其它汽车制造商也有部署类似的软件来在特定情况下关闭排放控制系统。换言之,尾气检测造假并不是个例,而是一套标准的作业程序。此外,我们可以假定这不是串谋行为,而是汽车制造商受到极端激励以及较低的被发现概率的驱使的一个简单案例。那么,我们完全有理由相信还有很多其它的算法被用来绕过被认为遵守成本太高的规章制度,尤其是在这些算法的开发者对被发现概率不以为意的时候。

  接着,大众汽车尾气检测造假始于2009年,也就是说它足足5年时间没有被发现。这5年里还发生了什么事情呢?我们从这一思路着手,思考现在有哪些公司在蒙骗监管机构,规避隐私法律,或者恣意妄为地进行算法诈骗?

  按照成本收益来分析,这可能就像是轻而易举的商业模式:作弊,直至被监管人员发现为止,然后支付数额有限的、对我们所积累的利润不会什么损害的罚款。那毕竟也是金融危机发生以后的运作模式。为了股东价值,我们可能不得不这么做。

  从另一个角度说,我们都在期待着无人驾驶汽车未来几年或者至多几十年后到来。到那个时候,我们能否期望会有国际协议约定内嵌的无人驾驶汽车伦理的模样呢?又或者说当无人驾驶汽车遇到意想不到的坑洞的时候,行人的生死将由汽车制造商来主宰?如果我们通过了相关的规定,它们在不同的国家会有所不同吗?甚至按照制造商所在的国家实施不同的规定?

  如果说观察像汽车碰撞这么易于观察的事听上去都令人困惑,那想象一下,在复杂的“深度学习”模式的模糊世界中观察底层的状况会有多困难。

  当然,所需要的工具都已经有了。中国最近的展示表明脸部识别技术已经相当出色——足够捕捉乱穿马路的人和偷卫生纸的人。那意味着企业有许多的机会去对顾客或者潜在的雇员实施不正当的伎俩。就这一问题,企业也有这么做的商业动机。就在上个月,由于在购物搜索结果中偏袒自家的购物服务,谷歌被欧盟重罚24亿欧元。去年,亚马逊也因为定价算法而遭到ProPublica的起诉。它被指优先展示自营的产品,尽管那些产品并没有其市集平台以外的产品划算。如果说互联网是大数据企业争夺你的注意力的地方,那么可以想象未来会有更多的算法被用于这一目的。

  大众尾气丑闻还有一个可以借鉴的地方。其尾气检测作假行为最终于2014年被西弗吉尼亚大学的一个教授和学生团队发现。该团队向独立的非盈利组织国际清洁交通委员会申请拨款,最后仅获得5万美元。他们将那些钱用来驾驶汽车环游全美,途中捕捉尾气排放数据。这可以说是一项成本很低且直截了当的测试。

  

  2015 年,大众汽车被发现利用恶劣的算法进行尾气检测造假

  如何监管算法?

  什么组织将会遏制即将出现的非法算法泛滥问题呢?算法领域有组织在扮演国际清洁交通委员会那样的角色吗?目前是否有组织有足够的资格、兴趣和能力去制止非法算法,以及证明这些算法有害呢?答案是目前还没有。相反,至少在美国,不相干的一些联邦机构在负责算法范畴的执法事宜,但这些机构没有一个特别熟悉错综复杂的大数据算法领域。在其它地区,欧盟委员会似乎在专注于调查谷歌的反垄断活动和Facebook的假新闻问题,但这让多个行业领域都没有受到审查。

  不过,更重要的问题是,算法调查得有多深入。现在的算法属于秘密,属于专有代码,作为企业的“秘诀”而受到保护。它们太过神秘了,很多在线评分系统甚至对它们瞄准的人都不透明。那意味着那些人也不知道自己被授予了多少分数,也不能抱怨或者抗议那些分数。最重要的是,即便自己身上发生了某种不公平的事情,他们通常也不知情。

  考虑到所有的这些问题,对算法实施监管实在难以想象,即便是在它们出毛病,不断地伤害人们的时候。对于这一问题,首先,并不是任何一种伤害都可以准确无疑地测量出来。有人可能会说,由于假新闻四处泛滥,我们的民主受到了损害。但你要如何估量民主呢?

  并不是说算法完全无法监管。毕竟,按照定义,非法的算法算是违反我们能够指出的法律。说到底,也应当将这种违法行为归责于某个人。但如何执行这种法律的问题仍旧存在。

  马里兰大学计算机科学教授本·施耐德曼(Ben Shneiderman)在阿兰·图灵研究所的讨论会中提出了国家算法安全委员会的概念。该机构以调查陆地和空中交通事故的美国国家运输安全委员会为模型,类似地负责调查违法算法造成的损害情况,尤其是判定谁应该为算法造成的伤害负责。

  

  算法根据历史数据来给房屋估价,一美国房主控告Zoopla 采用错误的数据致使她的房产估价减少10 万美元

  这是一个好主意。我们应当在发现问题的时候对它们展开调查,有个正式的调查流程是好事。如果该委员会有充分的法律权力,那它可能就能够深究很多的常识问题。但还不清楚它的法律权力会有多广泛。

  以汽车厂商出现故障来类比吧:在算法世界,并没有类似于30车连环相撞的情况。大多数的算法伤害都悄无声息地分别发生在一个个独立的个体身上。相比肉眼可见的汽车碰撞事故,多起同时发生的、悄无声息且无法检测的汽车碰撞要更难调查。

  我还是觉得调查造成损害的算法是有希望的。在尽是数据传道者的世界里成为数据怀疑者的其中一个奇迹是,人们过于惊叹于他们的技术,即便是在它无意间造成损害的时候,他们也公开描述它是多么地神奇。我们已经见识过不在少数的算法损害案例,这意味着尽管这些算法很神秘,很不透明,但他们最终都会被重新发现,虽然它们已经造成了大量的麻烦。

  这对于未来而言意味着什么呢?首先,我们需要开始保持对各种动向的关注。我们所发现的每一个非法算法都应当被视作测试用例。违规者陷入麻烦了吗?陷入多大的麻烦?那些规定执行了吗?处罚是什么?正如我们在2008年金融危机以后所学到的,如果违反规则带来的成本低于收益,那么规则就会被忽视。

  军备竞赛

  一旦开始进行执法并进行跟踪记录,我们就相当于是进入一场军备竞赛。可以预计的是,不久之后将会出现各种成熟的算法。它们能够绕过法律,先进,悄无声息,寻求规避规章制度。它们将会从其它被抓的算法身上汲取教训,争取下一次做得更加完善。换言之,抓住他们作弊将会变得越发困难。我们的策略也必须要越来越精进。

  

  预测性警务算法利用历史数据预测下一个犯罪行为会在哪里发生,民权组织称这些系统放大了现有的警察偏见

  我们预计也有可能会被大公司告知,它们“正在私下处理。”在打击恐怖主义上,这已经在发生。它们那么说的时候我们不该信任它们。我们需要创建标准的检测框架——对于损害有标准的定义——并要求提交算法进行检测。我们不能够仅仅在“测试实验室条件下”做这种检测,不然的话算法领域也将会出现像大众尾气门那样的事件。

  算法检测最大的障碍之一是,谷歌、Facebook或者亚马逊不允许外部研究人员检测多个角色模型(或者说个人网上档案)。由于那些公司定制提供个性化的服务,了解那些服务如何运作的唯一途径就是查看多个人的档案,但这并不被允许。以大众尾气检测来做类比:相当于是说研究团队没有汽车的控制权,因而不能检测它的尾气排放。我们需要要求提供更多的访问权和持续的监测,尤其是我们抓到他们有不法行为的时候。对于这一问题,整个行业,比如保险算法和招聘算法,都应当要受到这些监测,而不只是对独立的罪犯提出这一要求。

  我们是时候做好战斗的准备了。这场战斗最终将会变成一场技术军备竞赛,但一开始,也就是现在,它是一场政治战斗。我们需要要求从业者提供证据证明,其有可能损害到我们的算法的运作公平,合法,始终如一。发现问题的时候,我们需要有效执行我们的法律,向违法的公司处以巨额罚款,让作弊行为变得毫无成本效益可言,从而防患于未然。现在是时候开始要求机器为我们效劳了,而不是我们去为机器效劳了。(乐邦)

责任编辑:王超

科普中国APP 科普中国微信 科普中国微博
网易科技
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢