移动互联,改变了我们的日常生活状态,改变了工作状态。一个人平均每天查看手机150次。无论你管这个时代叫什么——数字时代、“互联网+”时代、移动互联网时代、CAMSS时代,形容的都是同一个现象——人类历史上从未有过的一种现象。
2009年,云计算成为热词;2012年,大数据被提出。
当初媒体、企业、分析机构都给出过的气吞山河的想象,颠覆一切的气魄:《云计算是终极的颠覆式创新》、《云分析将无处不在》、《云计算一鼓作气颠覆一切》、《云势不可挡》、《云时代,跨时代,颠覆的世界您准备好了吗?》、《云计算颠覆全球产业发展模式》、《又一次颠覆性变革,大数据!》、《大数据塑造未来IT》、《大数据是如何颠覆传统行业的?》、《大数据颠覆你的价值观》、《大数据时代,人类生活面临颠覆》……
然而几年过后,云计算、大数据究竟发展的怎么样?
2015年IBM中国,调研了中国17个行业的257家企业,发现:
互联网企业的上云率47.7% ,传统行业15.6%。
中小企业的上云率不足23%,大型企业的上云率则更低。
根据调研报告,部署和使用云计算最多的行业为:网游、手游、在线教育。在担负着国民经济、创造巨大价值的行业,云计算并没有发挥其巨大的潜能。
企业对云计算的顾虑包括:稳定性差、不能满足基础性能的需求、服务差、网络接入困难、和传统IT系统无缝整合能力差、在多个混合云环境内平滑迁移的成本高、增值服务模块不能满足需求、开发成本高、支持语言少,学习成本高……
那么“大数据”的现实呢?
移动数据、互联网、物联网、可穿戴设备带来了海量数据,过去两年产生的大数据是人类历史上产生数据的总合。但是对企业而言,大数据是难言之隐:“大数据如水漫金山,而企业却在水中干渴而死”。
一个重要的原因,有80%的数据为非结构化数据,都不能被计算机“看懂”,只能静态地存在那里,无法使用。这些“非结构化”实时数据增长飞快,占到全球数据总量中的一大部分——到2020年将问鼎44ZB大关,但它们中的60%下一秒就失去了价值。
所以数据的价值不在于体量,而是能否从中获取出洞察,并创造价值。而直到今天,能通过分析大数据、产生洞察、所能够带来的价值,微乎其微。
试想一下:
未来两年,医疗卫生数据将增长99%,其中88%的医疗卫生数据都将是非结构化数据,包括电子病历(EMR)、化验结果、医学影像、视频以及病患传感器等。
未来两年,政府和教育数据将增长94%,其中84%是非结构化数据,包括各类传感器,建筑物、道路、公共音频/视频数据。
未来两年,传媒业数据将增长97%,其中82%是非结构化数据,包括书籍、杂志、报纸和其他出版物,以及视频、影视作品、影像制品及在线游戏等。
这样海量的数据是不可能再用人工编程的方式来分析这些数据,而是要依靠机器学习。
这就是继制表计算时代、编程时代之后的“认知计算时代”!
IBM在认知计算领域耕耘了近40年,两个标志性的事件:1997年,IBM的深蓝计算机,战胜国际象棋世界冠军卡斯帕罗夫;2011年,IBM的Watson在美国智力竞赛节目《Jeopardy!》上战胜人类冠军,获得了100万美元的奖金。这是IT史上的里程碑事件。
今天,IBM的认知计算技术是两个部分结合:视觉、听觉、语言相关的感知技术,理解、推理、发现的认知技术。这和市场上普遍意义的人工智能是有区别的,很多的人工智能产品只能实现感知技术的一个部分,或几个部分,比如仿视觉的图像识别系统,仿听觉的自然语音识别系统,一问一答的对话技术(绝大多数人工智能产品是无法做到有“指示代词”的多轮对话)。
而IBM认知商业的竞争优势在于感知技术上能够实现认知的部分:理解、推理、学习。
什么叫理解:人和人的对话,有时不用字斟句酌地说得那么明白,互相都能通过词语背后的意涵、文化底蕴,把意思理解到位。这是因为,对话的双方有着类似的“语义数据储备”。相反,如果“聊不到一起”,也是因为对话双方“语义数据库”不匹配。比如有人说“我在国贸有300平米的房子”,机器识别的只是地名“国贸”,面积“300平米”,但是生活在北京的人能理解到什么?这是位土豪啊!这就是理解的差别。
什么是推理:多层逻辑关系,比如我们无法搜索出“2015国际互联网大会所在城市的气温”、“中国科技大学所在城市的人口数量”。大家可以尝试一下。人可以很轻易的理解一句话里两层以上逻辑,推理出结果,但机器做不到。《Jeopardy!》节目上的Watson是能够在进行三层逻辑推理后,快速给出答案的。
什么是深度学习:人类无法通过推理和理解,处理海量信息,也很难在海量信息里获得关联性的洞察,但认知计算通过机器学习,可以发现人类所无法发现的未知。
今天,IBM提出的“认知商业”,已经不是一个科幻想象的原型、一款用来展示的“概念车”,而是具备50种技术、28个API(未来一年将达到46个API)、五大能力的成熟产品,在五大行业——医疗、金融服务、教育、零售、法律实践,与几十家企业、机构合作,提供专业知识、创造行业价值和社会价值、解决企业问题。
比如,Watson为一个亚裔癌症患者建议治疗方案。它阅读了3,469本医学专著,将近24万8千篇期刊论文,评估了69个治疗大纲,分析了61,540个临床实验数据,以及10万6千多份临床医学报告,并根据病患的基因图谱和环境数据,最后提出了三个最优选的治疗方案——这一切用时仅17秒。
比如,Watson或许可以让人类实现“零癌”的可能。
过去的几十年经过研究人们已经发现,一种基因的蛋白,P53,与癌症的关系非常密切:如果p53保持活性,它会判断DNA变异的程度,变异较小,p53就促使细胞自我修复,若DNA变异较大,p53就诱导细胞凋亡;但如果p53与其它蛋白的相互作用,发生突变,其空间构象发生改变,失去了对细胞生长、凋亡和DNA 修复的调控作用,p53就会由抑癌基因转变为癌基因。
从1992年发现第一次发现蛋白激酶与p53之间的作用关系后,人类找到33种可能与之有关系的蛋白激酶。找到33种并不代表研究成功,需要进一步地验证这种蛋白激酶与p53如何产生作用。然而,找到每一种蛋白激酶是如何作用于p53,纯粹靠运气。更何况,未来还有400多种蛋白激酶需要逐一“靠运气”不断测试。
关于蛋白激酶的文章有24万篇,关于p53的研究论文有7万篇,如果让一位顶尖的科学家,以每天10篇论文的速度,细读并理解所有研究,大概需要85年。如果考虑到每30秒就会有一篇新的科学文章发表,那这位科学家还要再花85年,读新产生的研究著作……
而Watson用了几个星期,就根据以往的研究,把范围缩小到了7种与改变p53关系最为密切的蛋白激酶,以及如何作用于p53的。
习近平主席宣布,在今年启动了精准医疗计划,政府15年内投入600亿人民币。认知计算在医疗领域的商业应用的本质,就是精准医疗的本质——没有针对不同患者体质、基因图谱、不同病毒、不同药物的医疗,只是基于经验的概率事件。
未来,认知计算在医疗领域的价值将会表现在两方面:个性化医疗,病患的健康管理。
从走进医院开始,集中整合病患的基因数据、家族病史数据、环境数据、临床病例、研究成果、药物数据,综合考虑每一步医疗干预的风险、治愈的几率,并定制药物,所以每位病患治疗的过程应该都是独特的路径和方法。中国的医疗资源极度匮乏,相信以后Watson能够成为医生的助手,辅助临床诊断决策系统,让非三甲医院的社区医院、乡镇医院都能达到国际专家的水平。
从病患走出医院开始,要让病人管理自己的健康,Watson可以帮助决策如何锻炼、食用什么食品辅助治疗;一旦发生异常数据,如何判断是否需要就医;哪种习惯和行为可能会导致慢性病的发生。
今天,IBM的认知商业,不是谈论一种科幻想象,也并不想讨论“机器和人的关系”这类哲学问题,或是造一个陪伴聊天的机器人,而是关注认知计算所能带来的商业价值,关注整个商业世界的改变。这是后移动互联时代、后大数据时代的命题。
陈黎明
IBM大中华区董事长