到 2050 年,基于每秒执行 100 万亿条指令的计算机的机器人“大脑”将开始与人类智能相媲美
近年来,计算机和互联网的力量、功能和普及程度如雨后春笋般涌现,已经超出了人们对技术进步速度和日常生活中实用性的早期预测。警惕的专家现在预见到一个充满强大计算机芯片的世界,这些芯片将越来越多地渗透到我们的小工具、住宅、服装甚至我们的身体中。
然而,一个密切相关的目标仍然难以实现。与计算机在很大程度上出人意料地进入主流形成鲜明对比的是,机器人技术的整个努力完全没有达到 20 世纪 50 年代的预测。当时,专家们对计算机看似神奇的计算能力感到眼花缭乱,他们认为,只要编写正确的软件,计算机就可以成为复杂的自主机器人的人工大脑。他们相信,在一两年内,这样的机器人将清洁我们的地板,修剪我们的草坪,并从总体上消除我们生活中的苦差事。
显然,事实并非如此。确实,工业机器人已经改变了汽车等产品的制造。但这种自动化与许多科学家和工程师所希望的多功能、移动、自主创造相去甚远。为了追求这种机器人,一波又一波的研究人员变得灰心丧气,数十家初创公司倒闭。
机械的“身体”并不是高不可攀的,而是机械的“身体”。正如工业机器人所证明的那样,适合手工作业的铰接臂和其他移动机构已经存在。相反,基于计算机的人工大脑仍然远低于构建类人机器人所需的复杂程度。
尽管如此,我相信几十年来关于实用、通用的自主机器人的梦想将在不远的将来实现。到 2010 年,我们将看到移动机器人与人一样大,但认知能力在许多方面与蜥蜴相似。这些机器将能够执行简单的杂务,例如吸尘、除尘、运送包裹和倒垃圾。我相信,到 2040 年,我们将最终实现机器人技术的最初目标和科幻小说的主题支柱:具有人类智力的自由移动机器。
乐观的理由
鉴于我刚才所描述的机器人技术目标基本上未实现的历史,为什么我相信快速的进步和惊人的成就即将到来?我的信心基于电子和软件的最新发展,以及我自己在过去 30 年里对机器人、计算机甚至昆虫、爬行动物和其他生物的观察。
乐观的唯一最好理由是近年来大规模生产的计算机性能飞速增长。在 20 世纪 70 年代和 80 年代,机器人研究人员可以使用的计算机每秒能够执行大约一百万条指令 (MIPS)。每条指令都代表一项非常基本的任务,例如将两个 10 位数字相加或将结果存储在内存中的指定位置。
在 20 世纪 90 年代,适合控制研究机器人的计算机能力可达到 10 MIPS、100 MIPS,最近在一些具有多个处理器的高端台式计算机中已达到 50,000 MIPS。Apple MacBook 笔记本电脑的零售价在撰写本文时为 1,099 美元,可达到约 10,000 MIPS。因此,远远超出 20 世纪 70 年代和 80 年代机器人能力的功能现在已经接近商业可行性。
例如,1995 年 10 月,一辆名为 Navlab V 的实验车辆从华盛顿特区穿越美国到达圣地亚哥,95% 以上的时间都是自动驾驶。该车辆的自动驾驶和导航系统是围绕基于 Sun Microsystems 微处理器的 25-MIPS 笔记本电脑构建的。Navlab V 由卡内基梅隆大学机器人研究所建造,我也是该研究所的成员。美国其他地方和德国的研究人员制造的类似机器人车辆已经在各种天气和驾驶条件下行驶了数千公里。在加州举行的 DARPA Grand Challenge 竞赛中,这一领域取得了显着进展。2005 年 10 月,几辆全自动汽车成功穿越了 132 英里充满危险的沙漠路线,
在过去几年的其他实验中,移动机器人绘制和导航不熟悉的办公套件,计算机视觉系统定位有纹理的物体并实时跟踪和分析面部。与此同时,个人电脑在识别文本和语音方面变得更加擅长。
尽管如此,今天的计算机在识别和导航等功能方面仍无法与人类匹敌。这让专家们困惑了很多年,因为计算机在计算方面远远优于我们。对这一明显悖论的解释源于这样一个事实:人脑整体上并不是一台真正的可编程通用计算机(计算机科学家称之为通用机器;当今几乎所有计算机都是此类机器的例子) 。
要理解为什么会这样,需要从进化的角度来看。为了生存,我们的早期祖先必须反复做好几件事:寻找食物、躲避掠食者、交配和保护后代。这些任务很大程度上取决于大脑的识别和导航能力。经过数亿年的进化磨练,大脑成为一种极其复杂但具有特殊用途的计算机。
当然,进行数学计算的能力与生存无关。然而,随着语言改变了人类文化,我们大脑的至少一小部分进化成了某种通用机器。这种机器的特点之一是它能够遵循任意一组指令,并且通过语言,可以传输和执行这些指令。但是,由于我们将数字可视化为复杂的形状,将其写下来并执行其他此类功能,因此我们以一种极其尴尬且低效的方式处理数字。我们使用数千亿个神经元在几分钟内完成数百个神经元(经过专门“重新连接”并安排计算)可以在几毫秒内完成的任务。
极少数人天生就有能力进行看似惊人的心算。从绝对意义上来说,这并没有那么令人惊奇:他们的计算速度可能是普通人的 100 倍。相比之下,计算机的速度要快数百万或数十亿倍。
硬件可以模拟湿软件吗? 机器人专家面临的挑战是采用通用计算机并对其进行编程,以匹配主要具有特殊用途的人类大脑,以及其超优化的感知遗传和其他独特的进化特征。今天的机器人控制计算机太弱了,无法成功地应用于该角色,但它们胜任这项任务只是时间问题。
我断言计算机最终将具有与人类相同的感知、认知和思维能力,其中隐含着这样一个想法:一个足够先进和复杂的人工系统(例如电子系统)可以被制造和编程来执行相同的操作。就像人类的神经系统,包括大脑。这个问题目前在一些圈子里存在争议,聪明人也有不同意见的余地。
问题的关键在于生物结构和行为是否完全源于物理定律,以及物理定律是否可计算——也就是说,是否适合计算机模拟。我的观点是,没有充分的科学证据来否定这两个命题。相反,有令人信服的迹象表明两者都是正确的。
分子生物学和神经科学正在稳步揭示生命和心灵背后的物理机制,但到目前为止主要解决的是更简单的机制。可以通过组合简单的功能来产生神经系统的更高功能的证据来自于阅读、识别语音、引导机器人手臂通过感觉组装紧密部件、通过人工气味和味道对化学品进行分类、对抽象事物进行推理等的程序。 。当然,今天的计算机和机器人远远达不到人类甚至动物的广泛能力。但根据下一节总结的分析,这种情况是可以理解的,该分析得出的结论是,当今的计算机的功能仅足以像昆虫神经系统一样发挥作用。而且,根据我的经验,机器人在简单的任务上确实表现得像昆虫一样。
例如,蚂蚁可以追踪气味踪迹,但当踪迹被中断时就会迷失方向。飞蛾遵循信息素踪迹,也利用月亮作为指导。同样,许多商业机器人可以沿着安装在它们移动的表面下方的导丝移动,有些机器人使用激光读取墙壁上的条形码来进行自我定位。
如果我的假设是更强大的计算机能力最终将带来人类水平的心理能力,那么我们可以期望机器人能够匹配并超越各种动物的能力,然后随着计算机处理速度足够高,最终超越人类。另一方面,如果这个假设是错误的,我们有一天会发现特定的动物或人类技能无法在机器人中实现,即使它们拥有足够的计算机能力来匹配整个大脑。这将为一项令人着迷的科学挑战奠定基础——以某种方式分离和识别大脑拥有而计算机缺乏的基本能力。但目前还没有证据表明存在这样一个缺失的原则。
第二个命题,即物理定律适用于计算机模拟,越来越无可争议。科学家和工程师已经在不同的抽象和近似水平上进行了无数有用的模拟,从汽车碰撞到将夸克和胶子结合在一起形成质子和中子的“颜色”力。
神经组织和计算 如果我们承认计算机最终将变得强大到足以模拟思维,那么自然出现的问题是:需要什么处理速率才能产生与人脑同等的性能?为了探讨这个问题,我考虑了脊椎动物视网膜的功能,人们对视网膜的了解足以充当罗塞塔石碑,大致将神经组织与计算联系起来。通过比较视网膜中的神经回路执行图像处理操作的速度与计算机完成类似工作每秒需要多少条指令,我相信至少可以粗略地估计神经组织的信息处理能力,并且通过推断,整个人类神经系统的情况。
人类视网膜是眼球后部的一块神经组织,厚半毫米,宽约两厘米。它主要由感光细胞组成,但其厚度的十分之一毫米由图像处理电路组成,能够检测大约一百万个微小图像区域的边缘(明暗边界)和运动。每个区域都与视神经中自己的纤维相关联,每个区域每秒执行大约 10 次边缘或运动检测。结果沿着相关纤维深入大脑。
根据长期从事机器人视觉系统的经验,我知道类似的边缘或运动检测如果由高效的软件执行,则需要执行至少 100 条计算机指令。因此,要实现视网膜每秒 1000 万次检测,至少需要 1,000 MIPS。
整个人脑比视网膜中 0.02 克的处理电路重约 75,000 倍,这意味着需要 1 亿 MIPS(每秒 100 万亿条指令)才能模拟 1,500 克的人脑。2008 年的个人电脑大约相当于孔雀鱼 0.1 克重的大脑,但典型的个人电脑必须至少强大 10,000 倍才能像人脑一样运行。
脑力和效用 虽然让人工智能专家感到沮丧,但巨大的缺陷并不意味着类人人工智能的目标无法实现。特定价格下的计算机能力在 20 世纪 90 年代每年翻一番,而在 20 世纪 80 年代每 18 个月翻一番,在此之前每两年翻一番。1990 年之前,这一进步使得机器人控制计算机的成本和尺寸大幅降低成为可能。成本从数百万美元增加到几千美元,尺寸也从填满房间变为手持式。与此同时,功耗稳定在 1 MIPS 左右。自 1990 年以来,成本和尺寸的减小有所减弱,但家用计算机的功耗已升至约 10,000 MIPS。按照目前的速度,缩小差距只需要大约20年或30年。更好的是,有用的机器人不需要完全人类规模的脑力。
商业和研究经验让我相信,孔雀鱼的精神力量(大约 10,000 MIPS)足以引导移动实用机器人可靠地穿过陌生的环境,适合它们在数十万个工业场所以及最终数亿个家庭中工作。一些具有 10,000 MIPS 的机器已经出现,但大多数工业机器人仍然使用低于 1,000 MIPS 的处理器。
商用移动机器人几乎找不到工作。全球只有区区 10,000 名工人,而制造这些工人的公司要么陷入困境,要么倒闭。(机器人操纵器制造商的表现也好不到哪里去。)最大类别的商用移动机器人,称为自动导引车 (AGV),在工厂和仓库中运输材料。大多数跟踪埋藏的信号发射线并检测端点和与开关的碰撞,这是 20 世纪 60 年代开发的技术。
在混凝土地板下安装导丝需要花费数十万美元,然后固定路线,这使得机器人只有在大型且异常稳定的工厂中才经济。20 世纪 80 年代微处理器的出现使一些机器人成为可能,它们可以跟踪更柔和的线索,例如瓷砖地板上的磁铁或光学图案,并使用超声波和红外接近传感器来检测和绕过障碍物。
自 20 世纪 80 年代末以来开发的最先进的工业移动机器人由偶尔的导航标记(例如激光感应条形码)以及墙壁、角落和门口等预先存在的特征引导。铺设导丝的昂贵劳动力被针对每个路线段仔细调整的定制软件所取代。开发机器人的小公司发现许多工业客户渴望实现运输、地板清洁、安全巡逻和其他日常工作的自动化。遗憾的是,大多数买家失去了兴趣,因为他们意识到安装和路线更改需要经验丰富的路线程序员进行耗时且昂贵的工作,而且可用性不稳定。这些机器人在技术上取得了成功,但在商业上却失败了。
然而,在失败中,他们揭示了成功的要素。首先,用于各种工作的实体车辆必须合理定价。幸运的是,现有的 AGV、叉车、洗地机和其他设计用于容纳人类骑手或跟随导引线的工业机器都可以实现自动化。其次,客户不必请专家来让机器人工作或改变其日常工作;地板清洁和其他平凡的任务无法承受专家安装的成本、时间和不确定性。第三,机器人必须可靠工作至少六个月,然后才会遇到问题或需要停机进行重新编程或其他更改的情况。顾客通常会拒绝机器人,这些机器人在完美运行一个月后会卡在角落里,迷失方向走开,滚到员工的脚或从楼梯上摔下来。然而,六个月后,机器就请了一天病假。
机器人多年来一直完美无缺地工作,通过修复最常见的故障的迭代过程而完善,依次揭示更罕见的问题并依次纠正。不幸的是,只有预先安排的路线才能实现这种可靠性。类似昆虫的 10 MIPS 足以跟踪机器人路径每段上的一些精心挑选的地标。这些机器人很容易被一些小意外所迷惑,例如移动的条形码或堵塞的走廊(就像蚂蚁被气味追踪或飞蛾将路灯误认为月亮一样)。
20 世纪 90 年代中期,随着微处理器达到 100 MIPS,世界各地的实验室出现了能够绘制自己路线的**太空机器人。**大多数人通过声纳或激光测距仪扫描构建二维地图来定位和路线自己,并且最好的人似乎能够在办公室走廊中导航数天,然后迷失方向。当然,它们仍然远远低于六个月的商业标准。粗略地图中的不同位置常常彼此相似。相反,同一位置,在不同高度扫描,看起来会有所不同,或者忽略小障碍物或尴尬的突出物。但传感器、计算机和技术正在不断改进,成功就在眼前。
我的努力都在比赛中。20 世纪 80 年代,卡内基梅隆大学设计了一种方法,通过积累代表周围环境的网格的每个单元中空置或占用的统计证据,将大量噪声传感器数据提炼成可靠的地图。该方法在二维方面效果很好,并且仍然指导着上述许多机器人。
三维地图的内容丰富了 1,000 倍,有望变得更好,但多年来在计算上似乎遥不可及。1992 年,我们利用规模经济和其他技巧将三维地图的计算成本降低了 100 倍。经过持续的研究,我们成立了一家名为 Seegrid 的公司,该公司在 2007 年底售出了第一批机器人。这些机器人是拉动仓库和工厂“拖拉机”的机器人,它们根据指令,自动遵循在单一人工引导步行中学到的路线。通过。它们通过三维网格地图来导航,就像通过安装在“头部”上的四个广角立体摄像机看到的那样,并且不需要导丝或其他导航标记。
机器人,1.0版 2008 年,台式 PC 的速度超过 10,000 MIPS。Seegrid 拖车使用稍旧的处理器,速度约为 5,000 MIPS,每秒提取大约一个视觉“一瞥”。每次都会选择周围环境中数千个视觉上独特的斑块,并统计估计它们的 3D 位置。当机器学习新路线时,这些 3D 补丁会合并成一系列 3D 网格地图,描述路线周围 30 米的“隧道”。当拖拉机自动沿着教导路径返回时,会将补丁与存储的网格地图进行比较。通过所谓的传感器模型对数千个 3-D 模糊块进行统计加权,该模型使用校准的示例路线进行离线训练,该系统对视力不佳、照明变化、物体移动、
Seegrid 的计算机、感知程序和最终产品正在迅速改进,并将获得新的功能,例如寻找、拾取和放下负载的能力。物料搬运自动化的潜在市场很大,但其中大部分市场无法通过涉及埋置导丝或其他路径标记的旧方法进入,这些方法需要大量的规划和安装成本,并产生不灵活的路线。另一方面,视觉引导机器人可以轻松安装和重新布线。
快速重放 计划正在进行中,以改进、扩展和小型化我们的技术,以便它们可以用于其他应用程序。入围名单中包括消费类扫地机器人。从外观上看,它们可能类似于 iRobot 广泛使用的 Roomba 机器。然而,Roomba 是一种简单的野兽,它会随机移动,只能感知到眼前的障碍物,并且可能会陷入混乱之中。Seegrid 机器人可以查看、探索并绘制其场所地图,并且可以在无人值守的情况下运行,并制定清洁计划,最大限度地减少对主人的干扰。它会记住它的充电位置,允许频繁充电来运行强大的真空电机,并且还能够经常将其灰尘负载清空到更大的容器中。
商业上的成功将激发竞争并加速对制造、工程和研究的投资。吸尘机器人应该会产生更智能的清洁机器人,配备除尘、擦洗和拾取手臂,然后是更大的多功能实用机器人,配备更强大、更灵巧的手臂和更好的传感器。计划将
编写这些机器的目的是让这些机器捡起杂物、存储、检索和运送物品、清点库存、看守房屋、开门、割草、玩游戏等等。当机器人在敏锐度、精度、力量、范围、灵活性、技能或处理能力方面存在不足时,新的应用将扩大市场并刺激进一步的进步。能力、销售数量、工程和制造质量以及成本效益将呈螺旋式上升。也许到 2010 年,这一过程将产生第一个具有广泛能力的“通用机器人”,它们和人一样大,但具有蜥蜴般的 20,000 MIPS 思维,可以通过编程来完成几乎任何简单的工作。
就像有能力但受本能支配的爬行动物一样,第一代通用机器人只能处理其应用程序中明确涵盖的突发事件。由于无法适应不断变化的环境,他们往往表现低效或根本不表现。尽管如此,在企业、街道、田野和家庭中,仍有如此多的体力工作等待着他们,以至于机器人技术可能开始在商业上取代纯粹的信息技术。
具有类似鼠标 100,000 MIPS 的第二代通用机器人将像第一代那样进行适应,甚至可以进行训练。除了应用程序之外,此类机器人还将托管一套软件“调节模块”,这些模块将在预定情况下生成积极和消极的强化信号。例如,快速完成工作并保持电池充电将是积极的;撞击或破坏某物将是负面的。还有其他方法可以完成应用程序的每个阶段,从具体的(反手或反手抓住手柄)到广泛的一般性(室内或室外工作)。随着工作的重复,带来积极强化的替代方案将受到青睐,而那些带来负面结果的替代方案将受到青睐。缓慢但肯定的是,第二代机器人的工作性能将会越来越好。
像猴子一样的 500 万 MIPS 将使第三代机器人能够从模拟物理、文化和心理因素的心理演练中快速学习。物理特性包括物体的形状、重量、强度、质地和外观以及处理它们的方法。文化方面包括事物的名称、价值、适当的位置和目的。心理因素适用于人类和机器人,包括目标、信念、感受和偏好。开发模拟器将是一项艰巨的任务,涉及数千名程序员和经验收集机器人。模拟将跟踪外部事件并调整其模型以使其忠实于现实。它可以让机器人通过模仿来学习技能并提供一种意识。问为何桌上有蜡烛,第三代机器人可能会参考它对房子、主人和自我的模拟,回答说它把它们放在那里是因为它的主人喜欢烛光晚餐并且它喜欢取悦它的主人。进一步的询问将引出更多关于简单的内部心理生活的细节,该心理生活仅与工作区域中的具体情况和人员有关。
具有类似人类 1 亿 MIPS 的第四代通用机器人将能够进行抽象和概括。它们将通过将强大的推理程序与第三代机器融合而产生。这些推理程序将是当今定理证明者和专家系统的更为复杂的后代,它们模仿人类推理来进行医疗诊断、安排路线、做出财务决策、配置计算机系统、分析地震数据以定位石油矿藏等。
经过适当的教育,最终的机器人将变得非常强大。事实上,我确信他们在任何可以想象的努力领域(无论是智力还是体力)都会超越我们。这种发展将不可避免地导致我们社会的根本性重组。整个公司将在没有任何人类雇员或投资者的情况下存在。人类将在制定管理企业行为的复杂法律方面发挥关键作用。但最终,我们的后代很可能将不再像我们现在那样工作。他们可能会用各种社交、娱乐和艺术追求来度过每一天,就像今天舒适的退休人员或富裕的休闲阶层一样。
发展路径大致概括了人类智能的进化过程,但速度要快一千万倍。它表明,机器人的智能将在 2050 年之前远远超过我们的智能。在这种情况下,大规模生产、受过充分教育的机器人科学家勤奋、廉价、快速且日益有效地工作将确保 2050 年大部分科学知识将被我们发现。