大数据平台建设与基因研究的分享和探讨
演讲嘉宾:金鑫
速记整理:王振飞
各位朋友下午好,感谢主办方能给我们这样的一个机会,请华大基因做一个跨界的选手来Hadoop大会上面,我叫金鑫,来自华大股份研发中心,研发中心副总监,我现在主要负责的就是两个事儿,一个叫做BGI Online, 这样一个生物信息云计算平台的构建;第二个事儿就是我们的基因大数据的挖掘。那今天呢,我来到这里实质上我心里是没底的,因为我来到了一个对大数据和云计算这块有很多高手,高手云集的这样一个大会场。那我想呢,我不如从不同的这样一个切入点来考虑报告里面来讲什么内容。因为说起基因呢,大家心里都觉得这样事情可能离我们很遥远,很神秘,就是它可能还是个科学、科研的东西。那是不是我们今天去提基因这个数据,尤其是基因大数据和云计算为时尚早呢?那从我们真实的感受来说,其实根本不是这个样子。因为给大家简单的回顾去想一想我们每个人,可能今天大家来这个会场的时候,有的同志可能是坐地铁来的,有的同志可能是打车或者自己来车来的,当你在这个车里面的时候, 你会看到这个车的仪表盘上有很多的信息的数据,它会显示你的车现在的车速是多少、油量是多少、谁想的这个水温是多少,如果你还要GPS的话,它会告诉你你在哪个位置,你在什么方向,以多少的这个速度在开,但是对于这个坐在车里面价值远大于这个车的人来说,我们对自己本身的数据并没有那么的关注,或者是之前甚至缺乏合适的合理的途径去获取,那其实这个数据中间最重要的数据就是我们的基因数据,21世纪的三大科学成就,曼哈顿计划、阿波罗登月计划和人类基因组计划想必大家都知道。那华大基因是怎么回事儿呢,我们作为一个跨界生,首先简单介绍一下我们,当年,1999年9月9号,华大基因为了去承接中国所承担的那百分之一的人类基因组计划而成立在北京,那整个人类基因组计划,是耗时13年,花费了30亿美金,可以看到当时获取这个数据的成本是多么的高,我们要花十多年的时间,集合了全世界最顶级的科学家,然后花了30亿美金才完成了一个个人的基因组,这大概是十几年前的事情,那么到了今天呢,实际上华大基因本身我们在做介绍的时候我们都是一句话这么来讲的,我们是全球第一的基因组研究中心,这个不是我们自己说的,是美国前副总统格兰在他的一本关于未来的一本专注里面提到的,它里面提到说华大基因的数据产出量,超过了全球的总和,大概在2013年我们真的是部分超过了,因为我们当时做了很大规模的采购,买断了当时全世界最先进的做基因测序仪的一家公司的一年的产量,所以我们在那一年真的是有超越美国的所有的基因数据的产出,然后我们整个数据产出量大概占到了全世界的50%左右,那这个,当然华大一直是在北京,后来其实我们在07年的时候我们做了一次比较大的调整,我们是搬到了深圳去,跟当时的产业环境和整个产业的发展环境有关系。这里就需要跟大家分享一下,因为我们的基因行业是生命科学的一个行业跟互联网相比来说它是一个慢行业。华大基因99年成立,开始做人类基因组计划,这几年前几年是怎么活下来的呢,基本上就是靠承接国家的大项目,然后大项目做完了,文章发表了,然后国家拨一点儿钱,然后活下来了。但是从07年开始,因为我们在基因组的测序的技术上,基因组分析技术上有一定的质的突破,当时我们的领导人汪健老师等等,他们觉得这个一个很好的产业机会,所以呢,南下深圳,到深圳以后呢,就开展了全球化的布局,包括我们把我们的中心建到了广州、武汉和东京,然后我们在美国的费城和优思达维斯都有我们的实验室,然后最重要的是还收购了美国mountain view一家专门做测序仪的公司,叫做complete genomics,这是三年前发生的事情。现在的华大呢,是这样子,全球布局,这里就不再去多说了。那科研上呢,实质上是从做人类基因组计划开始,做了第一个亚洲人的基因组,也就是第一个亚洲人的基因组是华大基因做的。然后我们又发起了千人基因组,当时就是在大概五年前的时候,所有的科学家发起说我们要做一个一千个人的基因组,测亚洲的、非洲的、欧洲的最重要的人的代表人群,我们把这个数据拿出来,我们来进一步的了解人这个大概跟他的基因是什么关系,那刚刚在下面的时候,我们的主持人问到我,我要是现在测一个全基因组,你能告诉我什么呢,你能解释百分之多少的东西呢,这其实就是我们当时发起千人基因组计划当时中间的这么一个考虑。因为我们今天对于基因数据的了解,我们大概能够解释的,也就不到百分之一。就是这个基因组里面真正跟你这个生老病死等个人健康有关系的还不到百分之一。剩下的百分之九十九其实我们说不清楚它究竟是什么功能,或者说大约知道,但是不能定量的知道它的影响的。所以这个时候我们要做的最重要的事情就是我们想办法去获取更多的基因数据,然后把它跟更多的临床的表型数据给联系起来,通过这个各种各样的办法,不管是机器学习,还是各种各样的办法,找到它们之间的规律。这是一些背景和历史,
那除了做人相关的,我们也做很多的动物和植物,像可爱的熊猫啊,有用的水稻啊之类的,这其实是告诉大家什么呢,并不是说我们文章发的多啊,主要是说,当然文字发的当然是多啊,这个人是很重要的。我们当然关心自己,但是跟我们息息相关的整个这个世界,这个地球上有很多其他的物种,尤其是跟我们生命、生活密切相关的这些动植物的这些作物,你看像我们当时做的一篇关于水稻的基因组,当时中国跟日本去竞争,看谁能先完成水稻的基因组,最后是华大抢先把它完成了。还有玉米的,还有大豆的,所以这些东西做完之后呢,对于我们的育种都有很大的帮助,大家现在不都担心转基因嘛,那大家都担心转,那我们就需要更深刻的去了解这些基因,这些基因组本身,这样我们可以去进行更好地选育。包括我们的这个家鸡啊家蚕都是很重要的动物作物。然后呢,整个这些事情都不去展开说,回到我们今天要去讲的基因数据本身。
这个其实跟大家是一个简单的回顾啊,高中生物学。这个基因数据是怎么回事儿。我们所谓的测基因或者是读基因到底是干什么的。这件事情其实很简单,如果用一句话来描述,就是基因测序的过程就是把生命本是数字化的一个过程。我们就要做数字化,把生命本身数字化。我们身上有上亿的细胞,然后每个细胞里面,除了成熟的红细胞没有细胞核,每个细胞都有细胞核, 细胞核里面就保存了我们的所有的生命的信息。大家可以想象自己的生命信息是压缩的多么的致密,因为当精卵细胞结合之后,两个细胞在一起就有发育成完整的生命体的潜能。所有这些细胞其实经过不断地压缩进行变成了一个致密的结构,那我们要做的就是把它这个最后变成序列的信息,它最后其实就变成了ATCG, 四种碱基构成的序列的信息。这个想起来也跟我们的计算机科学有非常紧密的联系啊,ATCG四种碱基嘛,我们用这个00,01,10,11就可以代表完了。就是把一个生命的信息通过一个序列化的过程转换成了序列化的信息。把它数字化了之后呢,事实上我们所有的可以用来做解决目前的数据问题的这些工具和方法都可以用来解决这个问题,这也是为什么最近几年慢慢的大家感觉到生命科学领域的进步会非常的快。因为以前生命科学都是像大家坐着船出去岛上看,这个海龟长这样,那个海龟长那样,通过观察实验,最后去推导出一些可能的理论。那这个里面生命科学其实一直就没有非常完备的数学和物理学理论的基础去支撑它,那这里面也是因为我们的数据量不够,但是今天我们有越来越多的数据之后呢,其实生命科学已经越来越变成一个数据科学了,这就是我们整个事情的起点。
那既然整个事情变成了我们今天这个样子,我们有这么多生命科学的数据,那我们可以拿它去做一些什么样子的事情,那我们会面临什么样的额困难和挑战呢。那这个其实就是我们今天所面临的大数据的困难和挑战。刚刚大家可能提起大数据的时候,通常不会马上想到说跟生命科学跟基因有什么关系,但是我必须在这里跟大家分享的是,生命科学的数据必将成为整个大数据领域里面非常重要的一个数据的来源,大家可以简单的想象,我们每个人我们每一年,我们每一年会有1600w的新生儿来到这个世界上, 在中国啊,这仅仅是在中国,然后呢,我们每一个人每个时刻我们的基因都在发生的变化,然后正常的人健康的人有肿瘤的人和有感染的人我们的基因数据是不一样的。这个基因数据不光是我们的量大,而且是动态的实时的。我们一开始可能把这个定接线的,我们以后可能会把我们每一个小孩的基因组都要给他测出来,来指导它的健康管理,来指导它的用药。那更重要的是我们每个人的健康管理,每个人的用药指导其实都需要实时地,不断地去监测我们的大数据,那这样子的话呢。这个数据呢,其实就是旧的,是华大呢2012年产出的数据是20PB, 就是当时我们只是产出原始数据的数据量,这几年这个速度是越来越快,所以确切数据我还没有拿到,但是我等一会儿可以去展示,大家可以去想象一下为什么它会更加的大。这是几个非常非常简单的例子,去跟大家说这个数据的体量大概是有多大,我们的基因组就是每个,编码我们每一个人的基因组,它的大小大概是3个GB, 大约是1万九千个基因,然后我们在中间所能够理解的也就是百分之一百分之二的样子。因为我们现在分析技术的一个困难或者说是挑战,我们为了说获取一个更准确的数据我们会去测它好多遍,至少要测30到50遍,那这个3GB的数据就变成了90GB,100GB, 这就是获得一个人的基因组的最原始的数据。那这个其实还没有完,我们一个人的基因组如果是100GB, 如果我们想要去真正地深刻的理解这个基因跟疾病跟表型之间的关系,我们至少需要100w人,对于中国人来说,我们可能需要更多,因为我们现在这个国家有14亿以上的人口,这些人,他们有不同的民族,不同的历史,因为整个历史迁徙过程中,人类走出非洲,又多次进入亚洲,北方又打南方,我们又被这个蒙古和满族又进行了几次大规模的迁徙,所以我们整个人群的历史我们要去了解是需要非常大规模的工作的。而且呢,这个数字也不是我们一家想出来的猜出来的,为什么呢,最近的时候大家可能看到各种十三五的规划出来,其中跟生命科学和医学的相关的一项叫做精准医学的重点项目,这个项目里面,国家就提到了在接下来五年的时间里,我们就会投入40亿以上的经费去完成这样一个100万人的基因组的数据的大队列,这样,这个数据的产出其实我们是可以预见的,在预期的几年之内,就会大量的产生。但大家可能会觉得你这个东西看起来也不是很大,就像我刚刚说的,基因的数据它不是一个单纯的维度,它是一个多维的,这个多维度的表现就是除了我们刚刚提到的简单的基因,那基因它上面一层它还有修饰,这个修饰因为它是不断变化的,就明显会大很多。那除了这个之外还有基因的表达,我们知道我们的身体有这么多的细胞,有皮肤的,有肌肉的,有骨骼的,这些每个细胞它都是一样的基因,但最后表现出来不一样,那实质上是代表着他们是不断地变化的,这一万九千多个基因它并不是每时每刻它都是一样的状态的在每个细胞里。这其实也是一个大量的数据。另外呢,就是昨天晚上在吃饭的时候有一位老师问道说我很关注中医。以前说中医吃了中药以后是不是会影响你的基因的表达,那在我们看来可能并不是那么的简单,因为这个涂鸦看起来是一个很有意思的图,因为腹中有江湖嘛。如果我们来看这个数字,大家可能会很吃惊,我们人呢,大概是有30亿个碱基,就是30乘以10的九次方,3GB左右的大小,这个是G的数量级,我们有100万亿个细胞,这个是我们人的细胞,但是呢,我们的体内,我们的肠道里面的微生物,就是那些细菌啊等等的它们的细胞的数目,是我们身体细胞的十倍,我不知道大家听说这个是什么概念,就是我们身体内细菌的细胞的数目比我们身体本身的细胞还要多,那这个数量级呢,就会变成P级。那这个人体的细菌也是数据的来源。我们不管是通过饮食或者是服药等等很多,都是调控我们的微生物,这是另外一个数据的来源。那简单来看呢,这张图实际上也不是我们自己做的,是这个生命科学领域最权威的细胞的杂志上面发表的一篇,它是把这个东西叫做真正的生命大数据,大家可以看到这里面有很多层啊,我们真正能够感知到真实的物理层,就是我们现在所看到的每个人,那这里有社交网络的这一层,然后就是生物传感器的这一层,大家前两天炒得很热的,什么手环啊之类的,这些都是传感器所带来的运动的信息所代表的数据,脉搏等等,是传感器,然后还有更重要的就是image,就是图像的数据。因为大家去医院看病肯定是要做这个B超、CT各种扫描的这些影像学的数据;然后就是到了基因组,基因组是在这个承前启后中间,因为它是从分子层面真实到细胞层面、物理层面一个媒介。然后再往下我们刚刚讲到的,这个转录组,蛋白组、代谢组,我们的微生物肠道基因组等等。这些数据都是在这个基因组之下汇聚成一个生命大数据的洪流。那在这样子的生命大数据的挑战之下呢,我们会遇到什么样子的问题呢。大家会看到一个人的数据,这些基因组啊,转录组啊这些加起来可能至少会到十个TB,这只是一个人一生的数据。当然了我们很可能是低估了,因为未来可能大家会每天都会去测自己的基因,为了去监控我们身体的健康状况。然后呢,如果我们是要拿100万人的数据,就是10EB了,而这100w就是我们未来五年国家的战略要去做的这个人群的基建。所以大家看到这个生命科学的大数据其实是一个扑面而来的马上就会来到我们身边的这么一个数据的形态。那今天在座的可能很多的同事,很多的朋友,都是在IT领域,互联网领域,大数据领域,有很多的专业技能的同志,可能你们会发现你们的很多的技能在这个生命大数据领域有非常大的用武之地。这里呢,其实就会讲为什么我们会预判这个数据的增长会远超我们的想象。因为数据量的增长和我们获取数据的便捷程度和它的成本是有关系的。大家很清楚的可以看到上面这条线是我们熟知的摩尔定律,两年三番这个数据处理器的速度和它的成本,但是下面这条线是基因测序它的成本在06,07年的时候也就是华大决定搬到深圳去的那一年,这个成本有了一个断崖式的下降,然后一直到前两年,降到,这个图不对啊,这个图其实只是11年的,到前两年时候这个线已经降到1000美金了。也就是基本上你现在去获取自己的基因组的成本,就是你今天说我要测我自己的基因组,然后我交给你来测,交给华大来测,多少钱,大概在1w人民币之内你就可以拿到你的这个数据,100GB原始数据。但是拿到这个数据之后你只是看到一堆的序列,它只是一堆的ATCG的组合,还要有大量的工具去帮助你解读它后面有什么指的东西。那另外一个就是我们自己的国产基因测序仪的诞生,因为大家都知道包括像在医疗器械领域我们有了自己的CT,有了自己的核磁共振仪以后整个的成本都下降了很多,这个也是一样的,我们收购了美国那家专门做测序仪的上市公司之后,那家公司就在硅谷,在那个LinkedIn的旁边,然后呢我们把那个公司的技术进行了吸收和整合,然后借助了一下我们自己的国产的技术最后呢,是在去年的十月份推出了这样一款BGI Seq 500这样一款国产测序仪。它的特点是什么呢,它的特点是通量高、成本很低,成本大约相当于同类型的国外厂商的三分之一。所以大家依然可以去畅想一下就是我们这个测序仪量产之后对于这个数据产出所带来的巨大的推动作用。那第二部分呢就是实质上随着我们获得数据的成本不断地降低,这个基因的这个技术已经不是高高在上的说是去帮助科学家、科研工作者、药厂什么的去做研究。那实质上呢,它已经很大量的进入了我们的临床的应用里面。这个临床应用进入之后数据量的增长肯定是显而易见的,对于分析的需求也是有它独特的特性的。我们需要去开发新的工具,需要去开发新的软件,然后我们对这个数据共享也是有更多的需求。这里其实就有个例子,今天没有放到这个ppt里面来,我可以给大家分享一下就是我们呢,有一次收到了一个医院的专家给我们的独特的病例,这个病例呢,就是这个小孩它生下来之后,一开始是没有问题的,它是过了一段时间之后,它的听力开始急速的下降,那这个听力的下降的趋势就是明显的从临床上判断它可能是在很短的时间内可能是几个月之内就会完全的丧失它的听力。你想作为一个新生儿的家长来说,听到这样的消息打击是非常的大。那我们自己去分析了这个小孩的所有基因,然后因为基因组的这个整个的维度太大了,我们有3乘以10的九次方这样多的位置,任何一个位置发生了这个奇怪的变异都可能影响这个小孩它有这样的表型。那我们最后是通过各种各样的分析,最后定位了十个之内的基因,但是我们在这十个之内再也找不到哪个基因有问题了。就在这个时候,我们在美国费城儿童医院的实验室也接到了一个类似表现这样的,也是这样一个小孩,一开始生下来,听力是正常的,但是过了一段时间它的听力就开始急剧的下降,我们也分析,拿它的数据过来一对,然后马上,那边也是大概分析完剩下大概不到十个基因,这两边一对,是在同一个基因上,在不同位置的同一个基因上有这样一个突变。这样子呢,也就是帮助这两个家庭都对这两个孩子获得了明确的诊断,然后这个明确的诊断呢,实质上是对这个家庭整个后续的这个孩子的照顾和治疗都有非常非常多的指导和帮助作用。这个其实就是基因数据的共享的一个重要性的一个简单的例子。那另外呢这个事情其实也不是我们自己想的。这位是美国总统奥巴马,这个新闻是一年前的旧闻,当时奥巴马是在美国白宫,在他的年度的国情咨文上发布说美国要启动这个精准医学计划。精准医学就是它要对每个不同的个体因个体的特征去施药,那这里面呢,核心环节呢大家会在这里看到,其实就是要去完成100w人的全景全时的生命大数据的收集,包括基因数据,临床数据。那在此之上呢,实质上这几个东西,都是推动我们整个生命科学大数据时代来临的基础。
这里实质上我会用一张非常有意思的图来跟大家展示我们这个基因技术能做什么样的应用,跟大家有什么关系。这个大家都可以看到最简单的生命过程,就是从一对couple开始,他们去孕育一个新的生命,那实质上在孕育生命之前呢,我们知道在两广地区,有一种很高发的疾病,叫地中海贫血,它当然最早是在地中海那边被发现被命名。那这种地中海贫血会到来的问题就是,这个小孩,在这个成长的过程中需要不断地去输血才能够维持它的生命,如果是中型或者重型的话。还有包括像这种先天性的耳聋等等这些遗传病,如果能够在孕前呢,能够进行父母双方的筛查,其实我们是有办法可以去预防的。那再往这个后面呢,大家会看到其实因为现在有非常大量的不孕不育这样子的患者,那这个中间是要用到试管婴儿的技术,试管婴儿呢,我不是随便的拿几个胚胎来去给它做试管婴儿,实质上,我们是要对它的胚胎进行分析的,分析完了之后呢,拿最好的胚胎,去植入。然后还有在孕的部分,还有习惯性流产等等的原因,这个里面我也可以去对它查因。然后呢,这里呢这个无创产前检测实质上是我们现在做的最广泛的一个基因检测,等一下我会再简单的介绍。然后这个之后是新生儿的基因检测。然后在孩子长大之后呢,它会怀孕,又回到这个生命周期去了。这是整个生育健康方向基因技术的应用。那实质上这个只是其中的一个部分,在整个人的生老病死成长过程中会遇到各种各样的问题,肿瘤是很重要的一个问题,感染是很重要的一个问题,包括肿瘤的早筛早诊,在发现肿瘤之后的个体化用药,然后在感染过程中的病原的检测,然后相关的用药的指导。这都是在每个不同的环节都是在产生基因数据。那这些数据呢实质上都是我们接下来要去面对的问题。那这中间呢无创产前基因检测是我们现在做的最多的一项应用。如果说大家有亲戚朋友,或者说自己的家人正好到了婚育的年龄的话,我相信多多少少都会接触到这个东西,因为现在呢基本上我的同学什么,初中高中同学,多年不联系突然找我的基本上就只会有一个可能性就是问我说我老婆在你们华大基因做了基因检测,能不能帮我先看一下结果,就是这么个事儿。这个检测是干什么的呢,这个检测实质上是通过检测抽母亲的血来检测胎儿是不是有一个很严重的遗传病叫二十一三体综合症,也叫唐氏综合征,但是传统的方法它去做的时候,准确性很低,它只有百分之七十到八十,很多人都是做了传统方法说,你是高危,但是他又很担心,她去怕做那个羊穿,羊穿就是用一根钢针穿到母亲的子宫里面去做抽羊水,拿抽出来的羊水去做检查,那这个时候其实对母亲有很大的风险。那在这种情况下呢,我们这个技术就带来了大量的数据,我们这个检测在明天,今天是19号,明天是20号,3月20号的时候我们在深圳会有一个盛大的发布会。我们做这样一个检测,现在的人群已经达到100w。这只是从2011年到现在短短的四五年的时间,而这其中的百分之五十以上都是在过去的一年做的。Ok,这是另外一个例子,就是试管婴儿,这是个卢光琇展示试管婴儿,是湘雅医学院的老专家。我们合作去做了中国的第一例试管婴儿的基因检测。
那整个说完前面的东西,其实都是科普,其实都是为了让大家能够在我讲后面的东西之前呢有这样一个基本了解,我们为什么会请一个生命科学和做基因数据这样一个机构来这个Hadoop大会上来跟大家讨论云计算和高性能计算和Hadoop的事情。大家会看到刚刚已经提到了这个数据产生的成本其实已经变得越来越低,大概2000年的时候是这样子一个比例,然后这个现在呢其实已经是比2000年的时候大概是减少了百分之七十到八十的成本。那再往后,这个基因测序的成本趋向于免费,就甚至我们今天会觉得你要去做一个基因可能还要1万人民币,过了一两年可能就只要一千人民币,再过几年可能就要一百人民币,再过几年这个基因测序的成本可能真的就趋向于零。这个减缩的趋势不是我们瞎拍的,这真实我们根据技术的发展的一个预判。那这个带来的问题就是我们每个人都会有这样的基因检测需求,那这个带来的就是我们不断地要求这样的机器来处理和分析这个数据。那对于医院来讲,对于有一些临床机构来讲,它从来都没有搞过这种事情,他们现在有一些影响的数据都是靠专家在看,当然也有一些创业公司做这个图像处理方面的创业,也是非常有意思的领域。那像基因数据就更是了,医生基本上是看不懂你这些基因数据是干嘛的,就肯定要对这些数据进行处理。然后对于医院来说呢,他们一没有这样的能力,二没有这样的人员,第三是没有这样的文化嘛。然后整个就是一个完全的错配。那另外一个问题呢,就是现在整个大家来看基因的测序的成本会越来越低,那整个对这个数据分析的要求它所产出的价值会越来越高。就像刚刚跟大家分享的,现在去获得自己的基因组就需要1w人民币,但是呢,你真正去解读自己的基因组,可能要花费比这个大得多的成本。可能要花到两万、三万甚至更多的钱去获得你现阶段能得到的最全的基因组的解读。这个时候呢,对于大家在数据这个行业的同志们就会看到这样的机会,是对于数据领域这样一个新的机会。那这个时候就来到我们的痛点了,就是痛点是什么呢,就是大家看这个图其实拍得像一个元素周期表,这个图是什么意思呢,这个每一个方块都是一个软件,这些软件都是用来分析基因数据的。然后每一种颜色都是代表每一种类型的分析工具,比如说这个黄色的,最左边代表的是我们测完数据之后跟人类基因组数据进行比对的一个程序。中间这个部分可能是用来比对完之后,去进行这个有突变在哪里这个变异检测的一个工具。那另外一个颜色去代表怎么样去注释这样一个工具。然后有些是工具箱,有些是数据库,有些是浏览器,这些都是免费的,这些都是科研免费商用收费,这些是本来商用都是收费的。大家看这里面千差万别,尤其是作为这里面生命科学这样子的从科学到技术到产业正在走的这个过程中我们远没有我们的IT领域、互联网领域这么的成熟。所以呢大家可以看到很多用来分析基因数据的工具呢,它实质上还是在沿用着学术圈的一些特点。大家在学校里面都有这种感觉,学术圈什么特点呢,今天我高兴了我用C或者C++写这个东西,明天我就又换了一个其他的Java的版本,然后过两天处理文本,我觉得可能还是Python好,然后就等等的这些东西,就各种各样的东西就出来了。大家一不考虑效率二不考虑这个便捷性,然后这带来的就是如果一个机构它去获取这样的分析能力,它去部署这样的分析工具的话呢,它就面临非常复杂和晦涩的软件安装,然后这个需要背景知识,然后这些软件之间互相有包依赖,尤其是用Perl或者Python写的东西,又是一个包调一个包,一个包嵌套一个包,不能用的这个包依赖就搞不定了。那这个图呢,是一个动态可交互的东西,在下面这个网站上就可以看到实时的最新的东西。这是分析工具方面我们面临的痛点。那分析流程方面其实也是有这样的问题,因为这个基因数据本身呢,它下面从测序仪上出来其实是一个很原始的数据。它其实是一个图形学数据,把它激发之后发荧光然后产生的图形转换成的数据,我们就不在继续往下解释了。这个数据出来之后呢,我们要进行过滤,然后又进行比对又进行分析,进行注释,有很多很多的步骤。就每一步每一步呢,可能又会包含了不同的分析工具和脚本,然后有的是又调用了系统的命令或者外部工具,就比如说你做完比对之后,你个人的全基因组它可能从第一个位置到最后一个位置,你要把这些测序所得的基因片段去进行排序,就是很多东西嵌套在这个流程里面,是它变得很繁杂,然后呢维护起来很不便。这些工具,我们在线下呢,在华大都是在部署到自己的集群上面去,这些工具都放在一个统一的地方由专人去维护。但是呢,这也可能只有像华大或者是类似一些商业机构,我们专业的机构,才能去做这些事情。对于医院或者是小型的他想用这个基因组去解决它的问题的机构来说,这个就太困难了,这是分析流程方面的问题。那这个方面呢,就是我们这个叫做BGI Online这个平台,就是我们想要去解决的一些问题的一个尝试。那基本的逻辑呢就是我们希望这些基因的数据,很多的数据能够通过云,能够使用到云端的基础设施包括存储,包括计算,包括传输,包括安全。然后能够使用我们帮它定制好的一些很好的,标准的,规范化的Demo的应用,它也可以去定制它自己想要的一些应用。大家看到那么多的工具,那么多的流程,很多人说我要工具ABC, 有人说我要工具ACD。好,以前的这些东西都要所谓的做生物信息的同事自己在命令行那里搞来搞去,然后弄半天,那现在就好了。现在这些东西就可以它自己去做部署,前端有比较有好的图形化界面。通过拖拽,定义好输入输出就可以去解决这个问题,然后做完发现之后呢,大家还可以比较好的去分享,最后还有这个图形化的展示,这个图形化的展示其实是终端的用户最喜欢的一个东西,前面这对序列的数据没有人喜欢看,说实话真的没人喜欢看。那如果用一句话来说BGI Online是干什么的,就是上面这句话,就是analysis and store and share your genomics data security。就是分析、存储和分享你的基因组数据,能够相对安全地去干一些事情。这是它所设计的一个初衷。那我们目前已经做了什么事情呢,实际上这个事情在华大内部已经做了两年了,第一年的时候就是做一些比较基础的开发,然后直到2015年4月份去年的时候,一年前,我们在欧美地区上线,当时我们是在亚马逊的这个云上面。然后呢,我们在2016年的10月份,也就是半年前我们发布了一体机的解决方案,是跟Intel一起,现在可能还有华为一起去合作。这个合作的方式呢就是把我刚刚讲的这个BIG OnIine这个平台不光它是在公有云上面能去做,我们还可以把它作为这个一体机。这个一体机包含了硬件,也包含了软件,它还可以一起跟公有云进行互动,然后把最新最好的流程能够同步下来。然后在我们的海外,在今年的一月份,我们跟丹麦的科技大学,我们进行了一个私有云的部署,其实就是把我们这个平台给它部署到了丹麦的这个超算中心上。因为这里其实就是涉及到基因数据的一个特点,基因数据大家都觉得它很重要,然后隐私也很重要,就是感觉基因数据就跟定位数据一样,相比可能还更要隐私一点儿。我不知道大家为什么会这么觉得,但是普遍我有这种感觉,那如果是这样子的话,很多的国家包括中国在内,中国科技部有一个专门的办公室,叫做中国人类遗传资源管理办公室,就是防止你的遗传、各种基因数据被没有管控的传到国外。然后呢,对于很多的欧美国家,它有很多的类似的规范,所以说你这个时候如果都架在公有云上面,有时候他们并不是很喜欢用这种方案,他们还是喜欢本地他们自己的超算集群上有这样的解决方案。那我们最近做的事情就是亚马逊上的那个版本在国内去进行访问的时候,不是特别的好,肯定很多还是跟网络环境有关系,然后也跟服务器的位置有关系,所以我们在国内跟阿里合作,然后把它部署到阿里云上,大概就在几个星期之前,就在过完年大概真月十六号那天,我们一起发了新闻我们已经把这个BIG Online的平台已经部署到了阿里云上。那个新闻里面如果大家有留意,有看到的话呢,会发现它里面有几个有意思的点,第一个就是说这个是华大基因跟阿里云的一个战略合作,去把这个基因数据的分析能力去放到云端。第二个其实它提了一个概念,叫做基因行业的APPstore,其实就像刚刚李总提到的一个概念一样,就是说我们在云端去部了这样一个平台之后呢,我们不可能去把所有的工具和应用都自己去部上去,即便是华大基因作为行业的翘楚,我们也没有足够的资源去把所有的应用都部署上去。我们更多的还是希望它这个开发者的环境能够做好。我们自己能够去做冷启动,能够有很多的标准的,基本的流程在上面。但是能有更多的开发者的环境,开发者的奖励,能有更多的开发者来上来做。那整体看来那这个事情就比较明白了,我们这个云上面就有两个东西,一个是基因组的数据,另外一个就是分析和解读这些数据的工具。这些工具呢,都运行在云上,不管是在公有云、还是私有云还是本地化的一个一体机的虚拟机上。那整个这样子的一个解决方案,就带来我们今天比较的一个情况,他们几个地方其实部署的是同一个东西。那这个BGI Online这个平台做完之后呢,实质上带来了几个改变,第一个呢,就是让我们处理大规模的基因组的数据分析的能力变得简单了,它也便于去投放到不同的使用者那里去。然后同时我们这个数据和知识的共享也变得比较方便了。这里当然是我们用了这个云之后啊,对大家来说一个非常非常通俗的一个优势,但是对于我们来说,确实是迈进了一步。因为以前其实我们是很土的,我们多土呢,就是我们的客户把他们的样本,一般是血液啊,或者是组织或者是已经提取好的DNA, 把这个样本快递给我们,我们收到样本,对样本进行处理,让它呢能够在基因测序仪上进行分析,然后我们进行测序,然后获得数据,这个数据在我们的集群上进行分析,分析之后拷到硬盘上,然后硬盘寄给客户,客户把硬盘里面的数据再拷到他们自己的集群上,再来看他们的结果,这是最好的情况。客户拿到硬盘之后一看,好这是我想要的数据,那么这个事情就结束了,就数据交付就完成了。如果用户一看,诶,我明明想要那个软件A,你为什么要用软件B给我跑,你给我重跑。这个时候我们就只能让我们的生物信息的同事再重新给用软件B给跑一遍,再把数据给他,所以经常会出现这样的情况,或者看软件B跑的结果,看这个结果跑的不好,能不能再给我换一个参数跑一下,就是我们经常会遇到这样的问题。那现在这个问题就是有比较好的解决方案了,就是我们的数据下机之后可以直接推到云上,推到云上之后,我们可以用我们这个经典的流程进行分析,也可以用用户定制的流程来进行分析,然后它也可以告诉我们怎样来定制,我们可以帮他来定制,但这样呢,我们的成本相对原来也已经降低很多了。然后这个数据做完之后可以直接从云端推送给它,它只需要去下载分析好的数据,那个数据通常就比较小了,这样的话,大量的数据它可以留在云端,如果说他想要再来分析的话,它直接去设置新的流程去跑就可以了,不需要去来回去捣鼓这个数据。而且和好的好处是,比如说我们遇到过有一个客户,两周之内接来了2w个样本,我们实验室的工作人员就崩溃了,然后作分析的同学也崩溃了,因为这个任务要排队嘛,我们自己集群上SGE调度系统就排呗,一个一个跑呗,但是当时那个项目又特别着急,那对于现在来说,我们就已经有更好的办法,因为我们可以借助外部的这个基础设施,阿里云和亚马逊这样的公有云。然后呢,我们已经做过这样一个测试,当初是拿3000株水稻,水稻啊,大家应该还记得我们一开始做过这个方面的研究,那个3000株水稻我们全都放到云上面,一天之内就全都跑完了,全都做完了所有的分析,最后有结果。这是我们当初在亚马逊的云上做过的一个demo。我们也很快会在阿里云上做类似的demo。这里就是刚刚跟大家提到的,大家看这里面的,这里面就是真正的到了跟今天的题目跟docker有关的部分。为什么我们会喜欢要用docker呢,是因为像刚刚李总提到的,这里各种各样的配置的运行环境非常的麻烦,尤其是对生物信息一些工具,又是乱七八糟,学术范儿,一点都不工业化,一点都不标准,那这个时候我们把它们分装成一个一个的小工具,我们叫app, 然后这个小工具其实就是用docker来安装的。它定义清楚了输入输出,然后设置了所有的运行环境,然后这个是输入文件,进来之后,我们就可以去做,然后是输出结果在这里一步一步的出来。这个变成一个图形化的东西,以前那个东西都在那儿,都在这个Perl、shell或者是Python的脚本里面,维护起来很烦很烦,然后要去改动也很麻烦,那这个里面每个地方都变得更加清晰,它也可以更加的可复用,再比如说,分析第一个老师的项目是这样分析的,分析第二个老师的项目可能在这个地方换两个模块,那就拖一拖把它换掉就可以了。这个时候这个事情就变得更加的便利。当然我们自己有非常丰富经验的生物信息的开发团队,我们自己会做一些流程和工具,我们也提供SDK的工具,然后可以给其他的开发者,这样的话,用户就不需要去配置这些软件的环境,只需要去想我要解决什么样的问题,使用什么样的工具就可以了。另外就是在协作和分享上面,我这里也有一个例子,就是我们跟某个药厂,国外的某个药厂合作。他们的需求其实也很简单,就是他们的总部是在纽约,但是他们在圣地亚哥有个办公室,所以呢,他们的数据,总部需要有全部的权限,但是圣地亚哥的这个中心只能有部分的权限。我们以前的解决办法呢,就是把全部的数据快递到纽约去,纽约的人拷完了,他们再把他们觉得能够给圣地亚哥的人的数据发到圣地亚哥去。这个事情他们就不爽了很久。那现在呢,就变得很简单了,我们这边有一个非常非常详细的一个用户权限的管理,就轻易的解决了这个问题。当然这个直观的事情就是依赖各种各样的工具,我们只做了简单的demo。如果这个事情想做的更好,我们相信这个群众的力量,当然会有更好地工具会上来。能够让大家能够更加清晰、明了的看到自己的基因数据到底是怎么回事儿。那最后这个安全的部分也是非常非常的重要的,可能大家各自的传输啊,各自的加密的技术都听过很多,但是这个HIPAA可能听得不是太多,因为这个是对健康领域的数据,尤其是医疗健康领域的数据一个国际上的规范,这个是我们去遵守的一个东西。我们在公有云上也是,阿里云和亚马逊上也是用了他们最好的安全产品。这个设计上其实是简单的架构在这里,比如说我们欧洲的测序中心,就可以把数据传到不管是哪里的阿里云的这个存储上,然后呢,我们这里有一个一个的虚拟机,各种各样docker封装好了的应用,这个作者呢可以写出各种各样的标准应用,然后这些用户他们直接去把这些job给定义好,就去跑,然后就可以见到的把几个系统做出来,然后这就是这样一个非常简单的一个架构的设计,然后再往右边这个呢,我就不再展开去说了,因为这个里面说起来有很多任务调度的东西,这个我觉得我们做的不是特别的好,就不要班门弄斧的去讲了。如果就现在这个图,就看来我们有很多问题的同志,我很希望有机会的话我们下来能够聊一聊,我们也很想找到对计算这块比较有办法的同志们来跟我们一起来把这个事情做得更好。对这里就是对docker的应用,基本上呢,就是把各种各样可执行的工具给封装成为docker,然后减小复杂性,然后这样一个环境呢,也使得他们的可复用性更高了,然后又中心化了版本,便于共享,也便于去维护,这个版本控制,尤其是对于生物信息的同学来讲呢,确实是解决了一个痛点。那剩下呢就是我们在阿里云亚马逊上做的,基本上呢就是多租户,运行的安全的隔离,轻量级这样的docker,然后无环境依赖,可以弹性拓展,然后也可以各种模块化,方便去升级替换。我们去选择docker其实也是考虑docker ecosystem现在变得越来越丰富,我们有很多的选择,我们有很多的技术解决方案,但是我觉得可能这个关键还是在于人和在于对技术的理解。我们也非常希望能找到对这些docker的生态系统里面的架构有清晰理解的这个同志们来帮我们。这是我们现在在用的技术栈,大家会看到,这个就是大家熟悉的领域了,有很多的熟悉的东西在这里。
然后,最后小广告。其实这个会我们是在一个比较忐忑的心情来组织这个会,因为我们自己作为基因行业的机构,我们还联合了一些基因行业的创业公司,包括GeneDock, 这是一家我们的友商,我们关系也非常密切,你看他们的名字里面也有docker,所以大家可以想象docker技术在生物信息学领域是多么的受欢迎。那还有wegene, 做个人基因组的一个公司。阿里云,百度云和华为都是我们这个会议的共同发起方。这个会会在4月10号在深圳举行。
那最后这个小广告,我们请大家帮我们推荐人才。推荐成功送个人基因组啊。(编者按:华大基因招聘信息参见这里。)
金鑫的演讲音频请戳这里。
- 本文版权由China HADOOP大数据资讯网与演讲者共同拥有,转载请保留原文来源链接及公众号信息,违者必究。
- China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
征集但不限于下列内容:
- 大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
- 大数据与工业4.0 电力、电网、能源、炼钢等;
- 大数据与电子商务 国内互联网主流电商企业应用与架构分享
- 金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
- 智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
- 计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、Storm、Fafka等
- 大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
- NewSQL/NoSQL HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
- 数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
- 数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
- 大数据创业与融投资 分享大数据领域的创业团队和故事