文字内容来自于谢邦昌老师2015年在CDAS数据分析师行业峰会的演讲实录,时任台北医学大学教授,深耕于生技医疗大数据领域。现任职于辅仁大学副校长一职。(PS:本文完整视频链接:https://edu.cda.cn/goods/show/2925?targetId=4801&preview=0

各位嘉宾、各位先生、各位女士,大家早安!

很高兴被称为老教授,实际上也很老了。听完吴院长的一悉话,我今天所介绍的内容比较简单,在医学领域大数据的应用。我也希望能够告诉大家大数据这几年来它所发挥的作用。

图片来源于嘉宾演讲PPT

刚刚吴院长提到大数据在这方面的应用,其实有一句话很重要。其实我们知道,没有人拥有所有的数据,你怎么在既有的数据中间找到自己想要的数据,这是最重要的。刚刚我跟吴院长沟通一些事情,大家知道在大数据领域中,我们有三个领域,IaaS、SaaS、PaaS。大概占到99.99%,我们都不是IaaS、PaaS这个领域的人,但是现在很多人都在往IaaS、PaaS这里面走,我们应该是SaaS里面的人。

大家想一想我讲的这句话,在医疗大数据中间,我们看一下医疗未来的发展。其实科学精确描述这个世界,现在的生物学在越来越朝向实证科学走。现在我们越来越了解基因,为什么?我们要用大数据去解读。所以在生命语言中间,心里我们缺乏的是了解生命语言。但是我们已经有生命语言,我们不懂得生命语言的意义在哪里。

基因组定序,从植物、生物,在到微生物的定序,这方面的领域在各个方面占有很大很大的部分。现在在很多领域研究,大数据里面60%都是在做健康这方面的研究。

关于人类基因定序,对我们大数据来讲很多人都觉得是无字天书。虽然我是学这个专业的,我跟我太太看这个,我可以从统计和大数据的角度向它解释一些原因,这些是人类基因。

PM2.5跟你的健康有关系,跟你的基因有关系。甚至天气、温度会跟你的血压和相关的健康状况有关系。从Genes到Biochemical,最难的是我们怎么把数据加以整合和分析找出有用的信息。所以基因跟疾病之间的关系,有家族遗传的关系。我们不知道这个病是什么样的,我们要了解遗传,我们要知道基因。

还有基因跟环境之间的交感,我有一次到北京来流鼻涕就好了,但是到台北鼻涕一直有,你怎么把这两个因素中间的数据找出来。基因突变与癌症之间的变化,它的家族病史告诉他,他马上从一些数据中决定出他的原因。最后从大数据中间协助来做这件事情。所以在这些控制中间,我们越来越了解。


图片来源于嘉宾演讲PPT

从大数据中间我们可以产生分子级的算命家,这个已经不是天方夜谭了,他可以依照你个人特质化的基因来治疗。未来是什么样的,可不可以有干细胞产生某项器官,把你的药效带到心脏、血管任何的定位。这些东西是不是对人有用,是有用的,但是大数据怎么分析出这些东西。

有一些人研究干细胞的,结果发现干细胞存在人类身体所有的部分。尤其是第二大部分是这块,你的脂肪里面的干细胞是最多的。特别是研究心脏和肺等等,对干细胞的研究我们一直在进行,对干细胞的修复也是没有问题的。还有就是纳米技术,这里面需要太多大数据的应用了。

最后是无声的杀手人类与微生物的战争,刚刚教授讲到了流感的预测,很重要的是细菌不断的演化,演化的速度比你预测的速度还要快。

大家可以知道在医学上面的挑战刚开始,它跟大数据的结合现在如火如荼的在做,我今年2月才转到大数据,我们需要做的就是这些整合。在这个情况下,今天跟大家谈到的是所谓的大数据在医疗上的应用。

其实刚才吴教授讲过了,我请大家记住四个英文单词SMAC(Social、Mobile、Analytics和Cloud),实际上手机和任何分析速度运算来月快,请大家记住这四张图形,Science一定告诉你data,时代杂志告诉你2045年那些事情,因为人类会变成不朽,你相不相信这件事情,最后这件事情又引申了2045这件事情。


图片来源于嘉宾演讲PPT

在2012年5月做了一个,谁比较聪明,Warse最聪明,它是世界上益智赛观组的冠军。大家回想十几年前有一个深蓝,它赢了谁?赢了前俄国的棋王。告诉你,以后玩象棋游戏电脑陪你玩儿,这就叫电玩时代的来临。这个就是人工智慧时代的来临。大家手边拿着一个手机叫智能手机。你以后家里的很多都冠上智能。连大数据都可以办所谓的世界博览会,我们原董事长也在场。世界博览会,大家知道世界各大咖集中。

我想说台湾做的一件事比较好的,叫开放Data,政府在各方面的数据能公布的很多都能公布。我们所有的财政,电子发票等等这些,很有研究兴趣的。还有健保资料部能公布的都能公布,然后加以整合,但是个人隐私的都不会公布。政府愿意公布这些材料说明政府开放出来,所以这件事情也很重要。中国政府现在重要的一件事情是怎么开放数据资料,虽然做了但是还是不够。

图片来源于嘉宾演讲PPT

马云在5月的时候说的这句话,就是IT时代把人变成了机器,但是DT时代让机器越来越接近人,越来越接近人的智慧。现在DT时代来临不代表IT不重要,它、IT还很重要,我们在座的99%的人大概都不是做Iaas这块,我们是做Saas这块。速度越来越快,储存量越来越大,代表着云计算时代的来临。所以不必担心有这些种种,不见得每个人都建Data中心,该做什么的做什么,我们是要做解决方案的人。

图片来源于嘉宾演讲PPT

记得,我现在看到很多都教育教你怎么跳个层次,跳到里怎么找Data做这方面,No Data记得这些事情。我不是说这块不重要,但是这块相当成熟了,这块你让该做的人做,大数据应用很简单的一句话,就是BigData是什么。所以大忽悠麦肯锡忽悠大家,其实它之前就有了,但是忽悠的非常好。所以看大数据组织,联合国组织,看看大家都在玩了,中国政府一看,再看美国白皮书,我该玩儿大数据了,所以2012年应该是中国进入大数据的元年,当然中国跑的比谁都快,今年又办了一个大数据的峰会。所以最重要的告诉大家,它提的大数据宣言,100多个国家,40多个企业提这个宣言的意义在哪里?我要定数据的规格,记得,这是有先知灼见的。所以海峡两岸的大咖都在这里。

大家可以看到现在的智慧大概是老鼠和人脑,在未来十年电脑的智慧,现在是老鼠,未来十年大概会接近人脑。所以刚刚已经讲过这个了,就是大数据的整合,刚刚吴院长说的就是Crisp的过程。我刚刚讲过,以往来讲这些分析方法什么的要用很多算法,像oracle等等都已经把这些买下来了,这样方法都有了,而且很简单很快速。我刚才讲了C、R等等都有了,现在是解决方案的天下。我很快可以找到这个结果,我电脑之所以这样我是要证明给大家看,我简单秀一下,大家就明白了。

这一张可以处理几百万的资料,假设在座的中小企业大概一两百万的资料,你用Excel就可以处理掉了。我刚才说做Guesting,我们这里有数据挖掘的预测,你要做预测,突然就是下一步、下一步这样下来,我就不一一讲了。我要预测这三个地方的销售量,我直接完成,完成之后,我们模型就直接出来了。大家可以看到,这是它的预测值就出来了,当然它有它的模型。以这个来讲,我们刚才讲的也一样。我想这些东西大家也都会。首先我就可以很快的做这些,刚刚吴院长讲到的这些观念。

图片来源于嘉宾演讲PPT

很重要的是,我要看销售的预测,我要看它之间的关联性,找到你买它们之间的关系。以这个来讲一样,我可以很快的找到,你今天购买的行为中间你会有哪些之间的结构关系,然后你可以找到你买它们之间的结构关系。刚才是十几万的资料,买这个就可以知道其中的结构关系。开始的秀只是为了证明,是你怎么找到这些资料,这些资料你能不能得到,你不能得到的话,你在做分析资料,我刚才说NoData、NoMoney,你有再好的Spark技术、hadoop技术都是空有,但是现在大家都在卖产值给你,你没有Data,什么都是枉费的。所以百度因为有Data可以做世界杯和任何的预测,所以未来是以Data为核心的生活。

图片来源于嘉宾演讲PPT

我们现在以大数据做一个毒品分析,因为两岸现在青少年拉开越来越严重,我们警察局结合了教育部,结合它们的很多大数据分析,第一个,先分析青少年常上网站的增量,然后找到之间的关联性,找到这些关联性之后就是语义分析,然后找出它的主题。我们看这些主题的药品监管的知识,我们要做哪些事情?埋电子足迹,跟踪这些,去辅导这些青少年。所以建议这些电子足迹。

图片来源于嘉宾演讲PPT

所以大家看到台湾的青少年网站是PTT和Facebook等,我们很快找到这些人气网站,可以知道哪些要投,还有领头的意见领袖是谁,这其中就能看到相关性种种的,然后协助他们做毒品辅导之类的。电子足迹进去后锁定,然后找出毒品的来源,还有建立毒品的DNA,再建立大的数据库。

图片来源于嘉宾演讲PPT

这个跟我们五年前我们跟调查局做的一件事情,大家看这也是杂七杂八的,我们调查一个人,那个是毒犯判了进了牢里后的记录,这个记录很复杂,这就是一个购买行为,这是他跟各类人的联络,马上就清楚的勾勒出来,勾勒出来之后结合两岸的刑事警察局破获了东南亚一个毒网,这就是大数据的简单应用。没有这些数据,更多的应用也没用。

图片来源于嘉宾演讲PPT

资料还可以用在治安,用在暴力犯罪预测,哪里的暴力犯罪最多,这个美国已经在做了,这个可以用在大数据的数据的整合。台湾有一个总体的资料库,大家了解台湾进总体资料库有很多是开放的,你可以看一看整个结构。大陆我们协助过统计局做数据平台,国家数据。我们协助这个,再加一些顾问我们做的事情,但是这些数据的开放性还不够,同时也怀疑这些数据的准确性,这些都是值得加强的,我就不一一加强了。


图片来源于嘉宾演讲PPT

现在数据的整合越来越重要,DataTime已经上新三板了,数据模仿。我们现在在做哪些事情?我在北医,我们原来做的有点像这件事情,这个我已经向各位报告过了。我们现在做了三个:医疗云、健康云,照顾云,走在大数据上。这三个云最重要的,台湾叫健康保险,这里叫医保数据库。医保数据库,假如有信息化,你们可以进去,因为这是开放的,但是需要申请,这里有不同的申请,它会教你怎么开放。这些东西怎么去串这些数据库。所以你要有串数据库,整合数据库的能力,你就不要想到海杜丝什么的,你要想怎么用Saas把这些数据库整合出来,了解心脏病到底用什么药。

 

图片来源于嘉宾演讲PPT

像刚刚讲的乳癌,这个人家怎么做的,都可以清清楚楚知道,然后再来重大伤病,还有住院,医疗这些,清清楚楚的这些资料都可以开放,但是个人资料都没有开放。

图片来源于嘉宾演讲PPT

我们现在做的一件事情,我们有五家医院,还有这些大数据中心,我们将医保、健保数据库加以整合,能不能跟生活形态,跟你的运动,跟人类的生活形态,甚至基因等加以整合,数据加以3000篇整合完以后数据处理,数据分析,它会产生什么样的价值向各位报告,台湾15年下来产生了有顶级影响力的研究报告。所以造就了这两年来,你可以看到很多数据,经济学人在今年公布了台湾是宜居城市,台湾的医疗在全世界是第三,亚洲第一,健保数据库的公开和研究,造就了台湾医疗水准在这十几年来突飞猛进。

我经常讲因为一个数据库带动了一个领域的成长,这个成长是关于到自己的健康。对于这个来讲,台湾现在跟大数据地理信息和影像方面的结合。我们公布区域资料之间的整合和人口结构,我们可以知道这个区域的医疗水准够不够,医疗资源够不够。我们还可以知道遗传病,台湾最流行的疾病是台南的登革热,我们可以知道它的散布聚集情况,当年没有大数据所以蔓延非常广。我们可以知道疾病的蔓延跟疾病的防治,这些都很清楚。

所以在疾病的预防中,早期预防,早期医疗。我们跟上海的医院合作,我们把台湾的管理技术移植到上海、厦门、北京,目前在做这些事情。在医疗感知上有小米手环,现在的小米手环就是看你睡的好不好而已。用台湾的电脑数据库建立一个模型,用来判断睡眠状况可能跟高血压、抑郁症这些都有关系,来看你整个睡眠状态来判断这些症状,现在我们在做这方面的模型,这样的话戴小米手环的价值就更高了。小米手环的价格可能是一百块,我的APP你咨询一下可能就两三块,所以这是医疗云、健康云,用大数据平台衔接起来,连门诊、急诊这些都在做。

现在很多人都在玩这个,当然你要进来也可以。我们玩的是这一块,最重要的是有数据,有数据进来以后才能有价值。所以大数据越来越重要,未来收集资料、整理资料、分析资料,你把这些资料放在手机里面,未来最重要的是数据。大家都有服务,你把服务放在手机里面就是智能型的手机。我刚开始只是用模型,我们有太多的模型可以放在手机和电脑里面,我们医疗的价值就在这里,这才是商业智慧。图片    在这个过程中,我们产生的智慧在这里,产生的云在这里。你用手机,你用不同的设备跟它接触,这是一个革命时代的来临。所以请大家注意,还是用台湾的医疗大数据来告诉大家这是十年来的奇迹。大家到台湾走一走,台湾的医疗我不敢说是全世界第一,但是我至少敢说是世界领先的,台湾的医疗水准通过这个结构带动了台湾的医生在全世界是相当有名的,所以医疗大数据是非常重要的。

图片来源于嘉宾演讲PPT

科技风云,再辉煌十年,别人都在说为什么十年。到2015年希望我们在座的每一个,你所在的行业、企业或者是研究单位,如果你没有在这个领域。就像马云说的不参与这个一定埋怨,但是我加了一句话,不参与这个一定会后悔,一定会被淘汰。诺基亚说了一句话,我没有做错任何一件事情,我只是告诉你世界变化的太快了,我赶不上,我没有找到那个定位。我们放一个未来的智慧城市和智慧医疗。希望我们一起努力迈向大数据时代,我也希望跟大家工作在一起,研究在一起,合作在一起,谢谢大家。