-
人工智能离百姓越来越近 超市购物也变得时髦起来!
人工智能离百姓越来越近 超市购物也变得时髦起来! 作为数字零售的先行者,多点Dmall与阿里云、腾讯智慧零售、京东超市一同参会,并首次向外界展示了物物在线、物物智能、数据驱动的多点智能物联中台。在多点展区,应用于卖场场景的智能购物车、电子价签、智能手持终端,和卖场入口处的智能存包柜、客流摄像机,以及收银体系之下的自助购设备、智能防损、派样机等智能硬件产品家族一一亮相,多点智能硬件联盟实力得到了参会零售从业者的高度认可。 就拿超市入口处的存包柜来讲,以前我们都是按下“存包”按钮,机器吐出一张小纸条,抽取小纸条后自动弹开柜门存放物品。购物过程中必须得保管好这张小纸条,如若丢失那就得求助于店员。而现在,消费者再也不用担心这个问题了,多点智能存包柜,支持APP扫码开柜存放物品,一存一取so easy。 在店内,消费者还可与AI营销屏实时互动,只要站在屏幕面前即可获得精准商品推荐。另有全新升级的通道式自助购,给予消费者更为私密安全的购物结算空间,一人一通道,APP扫码进入,有序排队结账,不被他人打扰。 据悉,多点智能硬件联盟成立于2019年11月,是多点联盟的重要组成部分,目前已有商超、便利店和智能硬件厂商等加入其中,共同建立起数字零售场景试验室。多点Dmall搭建的智能物联中台,已稳定连接起不同厂商的智能硬件设备,可实现用户可追溯、数据可统计、产品可管理的统一服务标准。
-
把你变成“积木人”
一张照片生成积木的你!5个在校生2个月做的AI项目,李开复看了赞不绝口 一个AI创业的idea,做了两个月,就可以商业化啦? 创新工场今年的DeeCamp,就是这种画风,简直办成了创业大赛。 两个月的时间,这些海内外名校的学生们,迅速的做出了各种软件、硬件、解决方案、有趣的玩法……甚至还直接规划好了商业化路线。 给人一种马上就要去交易所敲钟的错觉。 这个已经连续举办3年、业界最著名大佬亲自讲课的AI夏令营,正在朝着商业+技术结合的方向飞速发展。 如果说,前几届DeeCamp是在培养百万年薪的工程师,现在简直是在培养未来独角兽的CEO了。 一张照片,直接生成积木玩偶 全场最令人惊艳的项目「方仔照相馆」,来自北京航空航天大学、清华大学、香港中文大学、奥地利科学技术研究所的同学组成的团队,可以让AI技术自动设计特定人物的积木玩偶。 打开它的Demo玩一玩,你就可以上传一张人物照片,系统自动提取人物特征、匹配部件,直接生成照片上人物的积木玩偶。 比如我们熟悉的钢铁侠马斯克: Tim Cook: 甚至还能直接生成拼装图纸: 以及零件部件图: “那岂不是直接交给代工厂生产就行了?”一位做过定制积木玩偶礼品的人士看到之后惊叹的说。 后续,团队还准备开发捏脸系统,可以在AI生成的基础上自选发型等不同装扮。 堪称积木版《奇迹暖暖》。 而且,「方仔照相馆」团队已经设计好了商业化路径,采取人物定制、线下「方仔照相馆」设施的方式,直接实现商业化。 这看起来比商场里的投币抽奖盲盒有趣多了。李开复评价称,这是一个几乎可以拿投资的商业项目。因此,这个项目也成了两个并列总冠军赛道项目之一,团队成员获得了10W元奖金。 设定背景人设,AI自动写科幻小说 创新赛道的冠军「AI科幻世界」项目,打造了一个可以生成科幻小说的系统。 团队成员来自中科院、美国乔治梅森大学等高校,他们基于GPT-2模型,在百亿级中文大规模语料上重新训练后,就可以根据作者的背景设定,自动生成科幻题材的文学作品。 比如我们先编一个张三大战外星人的背景: 输入主角张三,和他的人设信息: 再把配角们的人设也都输入进去: 现在,我们编一个故事的开头 阿尔法星系的舰队军团正在冥王星轨道外列阵,被联合国选中的张三正在前往发射中心的车里,愁容满面。 这时候,就可以生成许多种故事情节的走向,作者可以选择自己倾向的方向: 这样,只要看一看,选一选,就能自己DIY一篇科幻小说。 著名科幻作家、星云奖得主陈楸帆看到这个项目之后,觉得非常有价值,他认为虽然该项目虽然在目前算法还无法处理人物关系,但是大纲生成上能启发作者思路,帮助构思,摆脱思维惯性和固有的禁锢,从更广阔、弹性的空间上给予作家情节脉络发展的创意和启发。 看来,以后小说家们没灵感了写不动了,就可以把稿子帖进去,看看AI会给出什么后续剧情的发展,激发灵感,接着填坑。 用刷短视频的方式上网课 同样是在家上网看视频,上网课就令人感到匹配,看短视频就十分轻松愉快了。 那能不能用刷短视频的方式上网课? 教育赛道的冠军,来自CMU和宾大的同学组成的「Teched U」团队就做了这样的一套产品, 他们设计了一套TopicNet算法,可以根据知识点、主题,把很长的网课视频按照知识点拆成简短的视频,便于理解和吸收,如果有你已经掌握、不想再听的知识,也可以直接跳过节省时间。 而且,把“长课”拆短之后,就有了课程大纲。 你可以从大纲里选择自己想听的部分,比如把老师划的重点选出来,重新组合,专门听重点的课程。 另外,借助OCR等技术,这项产品还实现了视频搜索功能。也就是说,在你听完一门网课一段时间之后,如果突然忘记某个知识点,就可以直接搜索关键词,跳到老师讲这个知识点的地方,重新听老师是如何讲解这部分知识的。 这样,不用辛苦的整理笔记,也可以随时复习了。 Teched U团队的同学们说,他们的模型准确率达到了91.6%,高于业界44%的水平。在他们看来,教育视频经过这样的处理,可以大大提升用户体验,提升付费意愿,用户们为了优质的体验也不再倾向于找盗版课程资源,有利于在线教育公司的发展。 目前,这个项目已经准备产品化,面向中小型在线教育公司提供SaaS服务。在个技术夏令营里,该团队还有一位商务同学,他表示团队已经和字节跳动教育业务开始了合作对接,正在尝试为字节跳动的视频进行切割拆分。 要知道,DeeCamp两个月前才刚刚开始,这是一个仅仅准备了2个月的项目,就已经有了商业化成功的苗头。 要技术,也要商业落地 为什么今年的DeeCamp,有如此浓重的商业化氛围? 创新工场人工智能工程院执行院长王咏刚说,今年的课程设置中,有刻意引导学生从综合层面考虑问题,这也是今年DeeCamp区别于以往的标志。 比如疫情影响下格外热门的医疗领域,学生们直接设计了一台能够实现心音、肺音、脉搏检测的便携硬件设备。 “要解决一个医疗问题,不管是跟新冠疫情有关,还是跟常见病有关,都需要从产品完整的角度,包括产品设计甚至包括软硬件结合的角度考虑问题。” “单做一个纯粹的AI技术很可能缺乏场景,我们鼓励学生去做综合的思考,包括技术产品和商业化”,王咏刚说。 这也是DeeCamp人工智能训练营被发起的初衷。 自诞生起,DeeCamp人工智能训练营就以消弭中国AI应用人才鸿沟、培养和完善中国AI应用人才生态为初衷,坚持公益属性,将知识课程与项目实践相结合,引导学生体验 AI 技术如何转化为产业应用,积累实践案例经验。 自2017年暑期首次开办以来,DeeCamp总计收到来全球 1000 余所高校超过 20000 份报名申请,已有 1000 余名学员顺利结业。 创新工场董事长兼CEO李开复博士表示:“特别惊喜地看到同学们今年的作品,跟以往线下合作在水平上没有区别,这说明好的科研产品是可以在线上合作完成的,让我们非常振奋。” 李开复强调:DeeCamp的初衷是用AI技术解决真实世界的问题,最顶级的技术未必会产生最大的商业价值,和传统产业结合才能释放AI潜力。大家一定要理解产业,找到真实场景中的落地机会。
-
深入了解人工智能的发展阶段
人工智能是研究开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学,研究目的是促使智能机器会听(语音识别、机器翻译等)、会看(图像识别、文字识别等)、会说(语音合成、人机对话等)、会思考(人机对弈、定理证明等)、会学习(机器学习、知识表示等)、会行动(机器人、自动驾驶汽车等)。 了解人工智能向何处去,首先要知道人工智能从何处来。人类首次提出“人工智能”一词是在1956年的达特茅斯会议上,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(Artificial Intelligence,简称AI)”这一概念,这次会议确立了人工智能这一新的研究领域,标志着人工智能学科的诞生。 人工智能的发展已经走过六十三个年头,取得了许多令人瞩目的成就,给科技的进步和人们的生活都带来了翻天覆地的变化,改变我们的社会和生活,使人类进入到一个更加高度发达和繁荣的智能时代。 然而,人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段: 五是稳步发展期:20世纪90年代中—2010年。由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。 六是蓬勃发展期:2011年至今。随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮。 虽然现在的智能机器人和真正的人脑思维相比还有很大差距,但随着对人工智能领域的大力发展,相信人工智能时代的到来也只是时间的问题,而随着对人工智能越来越多的应用,人们对人工智能的关注更加密切了。人工智能的每一次进步,都能为当前的生产活动带来实际的发展作用,也会越来越多地影响我们的生活。
-
人工智能的发展
自从1950年,阿兰·图灵出版《计算机与智能》首次提出计算机智能概念,1956年约翰·麦卡锡在美国达特矛斯电脑大会上创造“人工智能”一词以来,人类的人工智能技术发展取得了长足的进步。 先来看看,人工智能的历史进展是怎么样的: 第一阶段:逻辑推理时代1950-1960年代,是人工智能的“逻辑推理时代”。 1956年,美国卡内基·梅隆大学展示世界上第一个人工智能软件的工作:逻辑理论机(LT)。这项工作旨在“让机器自己去证明数学定理”。 这样的想法早在17世纪G.W.Leibniz创立数理逻辑的时候就产生了,但直到计算机诞生后,才以人工智能的形式真正实现。 当时这段程序成功证明了Russel所著《数学原理》第二章52条定理中的38条,并在7年后的改进版中完成了剩余14条的证明。 1958年,麻省理工学院的John McCarthy发明了表处理程序设计语言LISP。它不仅能处理数据,还能方便地处理各种符号,因此成为人工智能研究的重要工具。 那时,逻辑理论机的开发者Herbert Simon和Allen Newell乐观地预言,十年之内很多事情就能靠人工智能解决。 这些事包括: 成为国际象棋世界冠军 发现并证明有意义的数学定理 谱写优美的乐曲 实现大多数的心理学理论 事实上,此后的10年里,这些预言一项都没有实现。 第二阶段:专家系统时代1970-1980年代,是人工智能的“专家系统时代”。 1968年,斯坦福大学的Edward Feigenbaum和Joshua Lederberg建成了一种能帮助化学家判断某待定物质的分子结构的系统,起名为DENDRAL。它是世界上第一例成功的专家系统,在开创这一全新领域的同时,也标志着人工智能从实验室走了出来,开始进入实际应用。 专家系统的出现,为人工智能带来了全新的发展。 1972年,斯坦福大学开始研制MYCIN系统,使用了人工智能的早期模拟决策系统,用来帮助医生对住院的血液感染患者进行诊断,和推荐用于治疗的抗菌素类药物。 1973年起,卡内基·梅隆大学先后研制了自然语言理解系统HEARSAY-I和HEARSAY-II,它能把输入的声音信号转换成文字,并组成单词、合成连贯的句子,正确率高达85%。 1977年,斯坦福研究院的人工智能中心开发了探矿系统PROSPECTOR,通过模拟地质专家的知识体系和推理过程,来帮助地质学家进行矿产勘查。该系统4年后投入实际使用,取得了巨大的经济效益。 1980年,卡内基·梅隆大学为数字设备公司(DEC)设计了一套名为XCON的专家系统,每年为公司省下4000万美元,在这段时期,仅专家系统产业的价值就高达5亿美元。 然而人们也发现,这些任务大都范畴较窄,局限性很强,稍稍超出范围就无法应对,这与当时大家普遍想象中的人工智能的巨大潜力相去甚远。 事实上,即使在各类机构大量研发资金的资助下,20年前设计的理想目标很多都没有实现 这让人们不得不承认自己确实低估了人工智能项目的难度,并开始回头反思。 人工智能的发展进入了冰河期。 第三阶段:神经网络时代1990年代,是人工智能的“神经网络时代”。 1975年,Paul Werbos提出BP算法,使得多层人工神经元网络的学习成为可能。 又过了10年,以Rumelhart和McClelland为首的科学家发展了Werbos的理论,实现了BP神经网络,解决了许多简单感知器不能解决的问题,并在数学上给出了完整推导。 这项成果可以说是此后整个人工智能浪潮的奠基性工作。 1988年,Linsker对感知机网络提出了新的自组织理论,并在Shanon信息论的基础上形成了最大互信息理论,从而点燃了基于NN的信息应用理论的光芒。 90年代初,Vapnik等人提出了“支持向量机”和“VC维数”的概念。 美国国会甚至通过决议,将1990年1月开始的十年定为“脑的十年”。各个国家纷纷加大了对神经网络研究的资助,神经网络获得了显著的发展。 第四阶段:机器学习时代21世纪以来,是人工智能的“机器学习时代”。 摩尔定律带来越来越强大的计算能力,显著提高了人工智能的研究效果。 最早的突破发生在1997年,IBM制造的电脑“深蓝”击败了国际象棋世界冠军加里·卡斯帕罗夫,极大地震惊了人类。 也是从那时起,越来越多我们今天熟悉的AI形态开始初露锋芒。 2000年,麻省理工学院的Cynthia Breazeal开发出仿人社交机器人Kismet。它的样子十分可爱,同时具备视觉、听觉、触觉输入和位置感应。然后,它还可以进行对话、甚至用表情、体态与人互动。 2006年,Geoffrey Hinton等人发表论文,提出了“深度学习”的概念。 论文发表后,大家普遍认为神经元网络可以解决很多问题——事实也确是如此,深度学习后来陆续被成功应用于计算机视觉、语音识别、自然语言处理等领域,它的热度直到今天也没有消褪。 Alpha Go和中韩围棋高手比赛取得完胜就是目前人工智能技术的典型杰出代表。 近年来,随着深度学习和深度神经网络的发展,特别是深度学习对知识的理解比过去有了很大的进步,使得人工智能在应用端的智能化水平得到大幅提高,如保险定损、医学影像识别、人脸识别、语音模仿、教育教学、案件推理、环境分析、翻译和司法文本阅读等领域,都取得了显著的应用进步。 例如在出行领域,人工智能对自动驾驶的推动也是明显的。 2004年,第一届DARPA自动驾驶汽车挑战赛在莫哈韦沙漠举行,最终没有一辆自动驾驶汽车跑完全部的150英里。 次年,斯坦福大学的Sebastian Thrun(谷歌无人车之父)宣布参赛。并在与卡耐基·梅隆大学展开激烈角逐后,一举拿下冠军。 自此,业界对无人驾驶的态度由“一塌糊涂”转变为“信心大增”。 虽然目前来说,完全的无人驾驶有些遥远, 但随着机器学习算法的提升和应用的挖掘,现如今包括奥迪乃至国内数家车企推出了L3级别的自动驾驶。 6月27日,滴滴出行首次面向公众开放自动驾驶服务。 或许在近两年,更接地气人机和谐共驾便指日可待。 在生活领域,曾经爆火的deep fake也是运用了人工智能 这是一种人工智能为基础的人物图像合成技术。 它用于使用称为“ 生成对抗性网络 ”的机器学习技术将现有图像和视频组合并叠加到源图像或视频上。 可以轻松实现“一键换脸”。 当然,此项技术不仅有可能被使用在恶作剧上,在其他领域如果被恶意使用隐患无穷,所以被迅速封杀。 还有更多生活方面的有趣应用,比如AI修复上色: 一位reddit网友利用AI训练了一个用于修复以及上色的深度学习模型,甚至可以处理几个世纪前的油画和线条画。 当然,可以修复的不止是老照片,还可以修复过往老视频。 前段时间,一段AI修复一百年前的北京老视频也在网络传播,这些都让我们看到了人工智能的力量。 AI让模糊图秒变高清图 由英伟达、阿尔托大学和麻省理工学院的研究者联合研发的一款叫Noise2Noise的AI技术,无需查看清晰的图像也能将模糊的图变的高清,还能去除图片上的文字。 甚至在畜牧业,人工智能也有意想不到的作用: 荷兰WeTransfer 公司有位叫 Arkaitz Garro 的前端工程师,利用AI人脸识别原理,搞了个"猫脸识别"。 微软甚至为此还出了软硬件产品和教程。 无独有偶,国内众多互联网养猪的大佬家都已经实现了AI"猪脸识别"。 在金融领域,人工智能的介入同样影响巨大: 例如智能投顾系统。通过对个人客户的大数据进行分析,从多个维度对用户进行画像,从而可以提供各类更加定制化的投资决策辅助工具和包括个性化资产配置在内的投顾服务,并实时进行动态跟踪调整。 随着智能投顾的逐步普及,不注重最低投资金额限制,没有达到财富净值的普通收入用户和中等收入用户也能够获得更专业以及更理性化的投资顾问服务,将使智能投顾成为为大量长尾用户进行低成本管理资产的主要方式,行业整体的专业性也将得到大幅度提高。 2015年以来,随着计算机机器学习、大数据技术的发展,计算机智能化投资交易技术开始由“顶尖富豪通过少量对冲基金专享”转向了“为普罗大众服务”。 以尊嘉金融为例,资产管理团队拥有超过10年的数量化对冲管理经验,并有超过20年的主动管理股票基金管理经验。在过去十多年中,使用自主研发的投资交易策略管理着近百亿的对冲基金,跨越牛熊市均取得了优秀的业绩。 尊嘉将面向高净值客户的、追求绝对收益的对冲基金策略转化为普罗服务大众的“对冲”策略,精心打造了智能投顾机器人,把控风险,增值财富。 在未来的日子,相信人工智能会随着5G的应用越来越融入我们的生活。 我们就在见证着这一切的发生
-
人工智能的正在发展中
针对这个问题,我们邀请了微软亚洲研究院机器学习组的首席研究员刘铁岩博士,为大家带来他眼中人工智能现状,包括面临的挑战与机遇。 要说人工智能发展到了什么程度,我们先来看看人工智能的历史进程。 人工智能从1956年的达特茅斯会议开始,到现在61年的历史,发展过程中风风雨雨,可以看到几起几落,至少我们经历过两个所谓人工智能的冬天。 每一次人工智能的崛起都是因为某种先进的技术发明,而每一次人工智能遇到了它的瓶颈,也都是因为人们对于人工智能技术的期望太高,超出了它技术能达到的水准。所以政府、基金会等撤资,导致了研究人员没有足够的资金去从事研究。 那么今天我们处在一个什么阶段呢?有人说现在是人工智能的春天,有人说是夏天,还有人悲观一点,说是秋天,秋天的意思就是冬天马上就来了。作为人工智能的学者,我们该怎么看待这件事情,我们能做些什么?不管大家怎么预测,至少今天还是一个人工智能的黄金时代。 为什么这么讲呢?接下来先给大家展示一些最近人工智能取得的成果,确实是之前十几年我们完全想不到的。 首先,我们讲人工智能在语音方面的突破,人工智能在语音识别,语音合成上面最近都取得了非常瞩目的结果。2016年10月份由微软美国研究院发布的一个语音识别的最新结果实现了错误率为5.9%的新突破,这是第一次用人工智能技术取得了跟人类似的语音识别的错误率。 其次,在图像方面,人工智能也有很多长足的进步,比如图像识别的ImageNet比赛,用计算机去识别数据集中1000个类别的图像。在2015年,来自微软亚洲研究院的技术——ResNet,获得了2015年ImageNet的冠军,错误率是3.5%,而人的错误率大概是5.1%。所以可看出在特定领域、特定类别下,其实计算机在图像识别上的能力已经超过了人的水平。2016年我们微软亚洲研究院再接再励,在比图像识别更难的一个任务——物体分割上面取得了冠军。 除了语音和图像以外,其实人工智能在自然语言上面也取得了很大的进展。左边这张图描述了各大公司都在不断地提高各自语音机器翻译的水准和技术,右边这张图展示的是去年12月微软发布了Microsoft Translator的一个新功能,它支持50多种语言,可以实现多个人多种语言的实时翻译,比如大家每个人可能来自不同的国家,只要拿着手机用这个APP我们就可以互相交流。你说一句话或者输入文字,对方听到/看到的就是他的母语。 前面说的这些语音、图像、语言,听起来还都是一些感知方面的东西。大家也知道,最近这段时间,人工智能在一些传统我们认为可能很难由机器来取得成功的领域也获得了突破。比如左边这张图描述的是用人工智能技术来打游戏,大家可以看到这个敲砖块的游戏,在120分钟训练的时候,人工智能就找到了很有效的得分的途径。当我们继续去训练这个人工智能的机器人,到了240分钟以后,它又达到了那种所谓骨灰级玩家的水准,它发现了一些平时我们自己都玩不出来的窍门。 右边展示的是围棋比赛,大家都知道AlphaGo非常火,使用了深度增强学习的技术,经过了非常长的训练时间,引用了大量数据做self-play,最终是以压倒性的优势,4:1战胜了当时的世界冠军李世石。在去年的IJCAI上面,AlphaGo主要的开发人员做了一个keynote,说自战胜了李世石之后,AlphaGo并没有停下脚步,因为它是一个self-play的process,可以继续训练,只要给他足够的运算时间和样例,它就可以不断地去训练。所以也能理解为什么今年年初Master重新回到大家视野里,可以对围棋高手60连胜,因为这个差距太大了。 这些事情都是以前人们觉得人工智能不可以去企及的领域。但正是因为这些计算机科学家、人工智能科学家不断地去模仿人的决策过程,比如他们训练了value network,训练了policy network,就是怎么样根据现在的棋局去评估胜率,去决定下一步该走什么子,而不是走简单的穷举,用这些value network来对搜索树进行有效的剪枝,从而在有限的时间内完成一个非常有意义的探索,所有这些都是人工智能技术取得的本质的进展,让我们看到了一些不一样的结果。 说了人工智能的这些辉煌之后,其实有很多问题是需要我们去冷静思考和回答的。 我们的主题是开启智能计算的研究之门,我想从一个研究者的角度跟大家讨论一下我们还能做些什么,甚至是更有意义的是去做些什么。人工智能表面看起来很火,其实如果把这张魔术的台布展开,你就会发现它千疮百孔,各种各样非常基础的问题其实并没有解决,甚至有很多哲学的方法论的东西从我们的角度来看可能也不准确。 面对这样的情况,更有意义的事情可能是冷静下来,去从事一些能够改变人工智能现状以及未来的很本质的基础研究工作,甚至是去反思人工智能发展的路线图,看看我们是不是应该重启一条道路。这些事情才能使得我们不仅仅是随波逐流,不仅仅是变点现,骗点钱,而是在人工智能发展的真正道路上留下我们自己的足迹,过了几十年当大家回忆的时候,另外一个人站在台上讲述人工智能一百年的时候,他会在那个图上标着一个星星,那里面讲的是你的故事。 前面这些人工智能现象的背后是什么?说到技术层面,现在最火的两个词,一个叫Deep Learning(深度学习),一个叫Reinforcement Learning(增强学习)。深度学习是什么?通俗地讲,它就是一个端到端的学习,我们不需要一些feature engineering,而是用一个非常复杂的、容量很大的模型去直接拟合输入输出,让模型自己探索有意义的中间表达。 什么是增强学习?通俗地讲,就是学习机器不断地跟环境做自主的互动,在互动的过程中用长远的收益来指导当下该做什么决策,通过不断的跟环境互动去调整决策的最优性。 之所以现在深度学习和增强学习能够取得很大的成功,背后有一个很大的原因,就是基于巨大的数据和巨大的运算量训练出的拥有巨大容量的模型,所以它们的成功离不开硬件系统,这也是为什么现在GPU这么火,包括云计算、多机协作已经成了我们必不可少的环节。 这是现在人工智能的现状。面对这样的现状,我们是按照大家指定的这条道路去走,多搞几个GPU去训练一些模型跟别人PK,还是反思一下这条路对不对,有没有什么问题,接下来我想跟大家讨论的就是人工智能的诸多问题。我只列了一些其中的代表,但其实问题远远不止这些。 第一件事,现今的人工智能技术,尤其是以深度学习为代表的,需要大量的标注数据,来让我们能够训练一个有效的模型,它不太依赖于人的先验知识,要learning from scratch。如果想从零开始学习就需要有大量的样本提供规律。比如,图像分类,现在通常会用上千万张图像来训练;语音识别,成千上万小时的有标注的语音数据;机器翻译一般都是在千万量级的双语语对上去做训练,这样的数据之前是不可想象的,但是我们这个时代是大数据时代,所以有了这些数据,就使得深度学习训练成为了可能。但这是不是一剂万能的灵药呢?其实在很多领域里是不可能或者是很难获得类似的数据的。比如医疗上面,很多疑难杂症,全世界也没有几例,那怎么能够对这个类别搜集大数据。所以从这个意义上讲,如果我们能够找到一种方法克服对大的标注数据的需求,我们才能够使得现在的人工智能技术突破目前数据给它划定的边界,才能够深入到更多的领域里面去。 第二个挑战是关于模型大小以及模型训练难度的问题,前面提到了深度神经网络有很多层,而且一般参数都很大,几十亿的参数是家常便饭。面对这样的网络,至少有两个困难,一个是我们经常提到的梯度消减和梯度爆炸的问题,当深层网络有非常多层次的时候,输出层和标签之间运算出来的残差或者是损失函数,是很难有效地传递到底层去的。所以在用这种反向传播训练的时候,底层的网络参数通常不太容易被很有效的训练,表现不好。人们发明了各种各样的手段来解决它,比如加一些skip-level connection,像我们微软亚洲研究院发明的ResNet技术就是做这件事情的,还有很多各种各样的技巧。但这些其实都只是去解决问题的技巧,回过头来,原来的这个问题本身是不是必要的,是需要我们反思的。 再有就是模型爆炸。前面说了几十亿的参数是家常便饭,几十亿甚至上百亿个参数意味着什么,意味着模型本身的存储量是非常大的。举一个简单的例子,如果我们用神经网络来做语言模型,给出的训练数据集是Clueweb整个网络上的网页,大概有十亿个网页的量级。 这样的一个数据,如果要去用循环神经网络去训练一个语言模型,简单计算一下就会知道,它需要用到的模型的大小大概是80G到100G的大小,听起来好像不太大,但是现在主流的GPU板上的存储24G已经算是高配,换句话说,80G到100G的大小已经远远超过一个GPU卡的容量,那么就一定要做分布式的运算,还要做模型并行,有很多技术难度在里面。即便有一个GPU卡,能够放下这80G或100G的模型,如此大的训练数据过一遍也可能要用上百年的时间,这听起来也相当不靠谱。到底需不需要这么大的模型,有没有必要我们非要把自己放在一个内存也不够用,计算时间也非常长,也不能忍受的境地呢,这个是值得思考的问题。 说到大模型,标注数据很大,那必然要提到分布式运算,分布式运算听起来是一个相对成熟的领域,因为系统领域已经对分布式计算研究了很多年。但是回到我们分布式机器学习这件事情上是有所不同的:这里我们做分布式运算的目的是为了让我们能够用更多的资源来容纳更大的模型,使得运算的时间缩短到能接受的程度,但是我们不想丢掉运算的精度。 举个例子,原来用上百年的时间可以得到一个非常精准的语言模型,现在有100台机器,虽然算的很快,但出来的语言模型不能用了,这件得不偿失。 说到分布式运算有两个主流的方式,一个是同步的并行方式,一个是异步的并行方式。同步的并行方式是什么,就是很多机器都分了一个子任务,大家每计算一步之后要互相等待,交换一下计算的结果,然后再往前走。这个过程能够保证对整个分布式运算的流程是可控的,可以知道发生了什么,在数学上可以做建模,能够在理论上有所保证。但它的问题就是所谓的木桶原理,这个集群里面只要有一台机器很慢,分布式运算就会被这台机器拖垮,就不会得到好的加速比。 所以人们开始做异步的并行方式,异步的意思就是每台机器各自做自己的事情,互相不等待,把当前按照各自的数据训练出来的模型更新推到某一个服务器上,再更新整体模型。但这时候又出现了一个新的问题,就是乱序更新的问题,这个过程是不能被我们原来的数学模型所描述的,违背了优化技术的一些基本假设。比如当我们使用随机梯度下降法的时候,可以证明当时用一个不断减小的学习率时,优化过程是有收敛性的。这是因为我们每一次增加的那个梯度是在上一次计算的模型基础上算出来的梯度。一旦加上去的梯度可能是旧的,不是依据前一个模型算出来的,到底优化过还能不能收敛,就不那么清楚了,所以虽然速度快,精度却可能没有保证。 第四个,我把它叫做调参黑科技,难言之隐。这件事情特别有趣,我前一段时间参加过一个论坛,一位嘉宾的一句话给我印象特别深,他说大家知道为什么现在很多公司都有深度学习实验室吗,以前没听说过有一个叫支持向量机实验室的,为什么?这是因为像SVM这样的技术训练过程非常简单,需要调节的超参数很少,基本上只要按部就班去做,得到的结果都差不多。 但深度学习这件事情,如果不来点调参黑科技,就得不到想要的结果。所谓深度学习实验室,就是一批会调参的人,没有他们深度学习就没那么好用。虽然是句玩笑,但是深度学习力要调的东西确实太多了,比如说训练数据怎么来,怎么选,如果是分布式运算怎么划分,神经网络结构怎么设计,10层、100层还是1000层,各层之间如何连接,模型更新的规则是什么,学习率怎么设,如果是分布式运算各个机器运算出来的结果怎么聚合,怎么得到统一的模型,等等,太多需要调的东西,一个地方调不好,结果可能就大相径庭。这就是为什么很多论文里的结果是不能重现的,不是说论文一定不对,但至少人家没有把怎么调参告诉你,他只告诉了你模型长什么样而已。 下一个挑战,叫做黑箱算法,不明就里。这不仅仅是神经网络的问题,更是统计机器学习多年来一直的顽疾,就是用一个表达能力很强的黑盒子来拟合想要研究的问题,里面参数很多。这样一个复杂的黑盒子去做拟合的时候,结果好,皆大欢喜。如果结果不好,出现了反例,该怎么解决呢,这里面几亿、几十亿个参数,是谁出了问题呢,其实是非常难排错的事情。相反,以前有很多基于逻辑推理的方法,虽然效果没有神经网络好,但是我们知道每一步是为什么做了决策,容易分析、排错。所以最近几年有一个趋势,就是把基于统计学习的方法和基于符号计算的方法进行结合,造出一个灰盒子,它既具备很强的学习能力,又能在很大程度上是可理解、可支配、可调整的。 到现在为止,这几件事都是现在人工智能技术层面的问题。接下来,谈的是更像方法论和哲学的问题,仅为个人的观点,跟大家一起分享。 其中一条,我叫做蛮力解法,舍本逐末。这句话什么意思?刚才我提到过深度学习之所以这么成功,是因为它有一个特别强的表达能力,在历史上人们证明过深层神经网络有universal approximation theorem,只要隐结点的数目足够多,任意给一个连续函数,它都可以无限逼近这个函数,换言之,有了很强的表达能力,什么问题都可以学的很好。听起来好像是挺美好的事,但实际上它背后存在一个问题:它拟合的是数据的表象,数据表象可以非常复杂,但是数据背后驱动的规律是不是真的那么复杂呢,如果我们只看到表象不去研究数据产生的本质,很可能你花了很大的力气去拟合,但是浪费了很多时间,得到的结果也不鲁棒。 举个例子,我们发现大自然也好,人类社会也好,其实没有想象的那么复杂,虽然你看到的很多数据很复杂,它们背后的规律可能非常简单。像量子力学有薛定谔方程、量子化学、流体力学、生物遗传学、经济学、社会学也都有类似的简单方程,科学家发现那么纷繁复杂的现象都可以被一个动态系统所刻划,而动态系统背后的规律可能就是一个最高二阶的偏微分方程。大家可以想象,如果不知道这些机理,不对动态系统做建模,只对动态系统的产出数据做建模,就会觉得这个问题非常复杂,要有一个容量非常大的神经网络去逼近这个数据。但反过来,如果目光焦点在这个动态系统身上,可能就两三个参数的一个二阶微分方程就搞定了。 下面也是一个值得思考的问题——动物智能,南辕北辙,虽然前面提到人工智能产生了很多的进步,但其实目前所做的还主要是认知的事情,做一个Pattern Recognition,听听声音,看看图像,这是动物也能做的事。今天的人工智能没有回答一个关键的问题,就是动物和人的区别。可能有人会讲,据说猴子的大脑比人的大脑小很多,有可能是体量的不同。但人的祖先跟大猩猩在包容量上应该没有本质的区别,那到底为什么经过漫长的进化,人能成为万物之灵主宰地球了呢? 我自己的观点是因为人类发明了很多动物界没有的机制和规律。比如我们有文字,我们可以把我们对世界的认知,总结出来的规律写下来,把它变成书,变成资料传给我们的下一代。当老一辈的人去世之后,孩子们读读书,就掌握了之前几百年几千年人们对世界的认识。但是老一代大猩猩死掉之后,它的孩子就要从头学起。另外,我们人类有强大的教育体系,人从幼儿园开始,小学,中学,一直进入大学,用了十几年的时间,就把几百年、几千年的知识都掌握在身上了,可以站在巨人的肩膀上继续往前走,这非常了不起。好的老师,会教出好的学生,教学相长,薪火相传。 这些人类的精髓在今天的人工智能技术里面是并没有充分体现,而没有它们我们怎么能指望深度神经网络达到人的智商呢? 前面列了很多方面,是我们对人工智能领域的一些看法,不管是从技术层面,还是方法论层面,都有很多值得进一步挖掘的点,只有这些问题真正解决了,人工智能才可能稳稳妥妥的往前走,而不只是昙花一现。 基于这些考虑,我所在的微软亚洲研究院机器学习组,对研究方向做了一个相应的布局,比如对偶学习,它解决的就是没有大规模标注数据的时候,该怎么训练一个神经网络、怎么训练一个增强学习模型。该论文发表在去年的NIPS大会上,获得了很大的反响。 还有,我们叫精深学习(Light Learning),为什么叫Light?前面提到很多模型太大,放不到GPU里,训练时间很长,我们这个研究就是去回答是否真的需要那么大的模型。我们展示了一个很有趣的深度学习算法,叫Light RNN,用该技术,只需要用一个非常小的模型在几天之内就可以把整个Clueweb数据学完,而且它得到的结果要比用大模型训练很长时间得到的结果还要好。 并行学习,之前提到并行学习有很多同步异步之间的权衡,我们发明了一个技术,它有异步并行的效率,但是能达到同步并行的精度,中间的技术解决方案其实很简单,在网上也有论文。我们用了泰勒展开,一个非常简单的数学工具,把这两者给结合在一起。 符号学习,就是想去解决黑白之间的那个灰盒子问题。 自主学习,是想去解决深度学习调参的黑科技,既然调参这么复杂,能不能用另外一个人工智能算法来调呢,能不能用增强学习的方法来调呢,所以我们做了一系列的工作来解决怎么去调各种各样的参数,怎么用另外一个机器学习来做这个机器学习。 最后一个方向,我们叫做超人类学习,我们想受大自然的启发,受人类社会发展的启发,去使得我们的人工智能技术接近人类,甚至超过人类,这背后是整个人工智能方法论的变化。