深圳国家基因库:生命时代的“诺亚方舟”

您当前的位置:环亚科技网新闻正文
放大字体  缩小字体 2017-09-13 11:03:52  阅读:9504+ 来源:新浪科技 作者:夏颖

 文章来源:三联生活周刊 “在生命时代,拥有更多的基因资源,对这些基因资源进行认知和利用,在这样一个新时代中就拥有了自己...

 文章来源:三联生活周刊

 “在生命时代,拥有更多的基因资源,对这些基因资源进行认知和利用,在这样一个新时代中就拥有了自己的优势。”

  大鹏半岛的“哈尼梯田”

  在深圳华大基因总部的会议室里,投影仪在白板上映出一张海底世界的照片,一簇簇不同颜色、不同形态的珊瑚在海水中摇晃,其间并没有鱼儿以及其他动物。华大基因生物多样性基因组研究专家张国捷问大家:“你们猜猜图里大概有多少个物种?是千是万还是百万级别?”

  不同背景、不同学科的人给出了不同的答案。张国捷说:“如果我们把这一块区域所有生物加起来的话,有上百万的物种在这里生存。”

  “生物不是一个单独存在的个体,任何个体都要和其他个体以及物种结合在一起,共同组成大的生态系统,这个系统经常会受到气候、环境的影响,改变整个地球物种分布的格局。研究生物多样性要理解自然界中生物是什么样的组成,它是一个很古老的学科。”张国捷说。他是华大基因生物多样性基因组学研究带头人,也是丹麦哥本哈根大学副教授。定义上来说,生物多样性是指在一定时间和一定地区所有生物(动物、植物、微生物)物种及其遗传变异和生态系统的复杂性总称。它主要包括遗传多样性、物种多样性、生态系统多样性三个层次。

张国捷

  如果把历史追溯到文艺复兴时期,研究生物多样性的人当时被称作博物学家、自然历史学家或者自然科学家,他们的主要工作是采集、收集各种有趣、珍奇的标本。最初这样做更多出于猎奇,之后逐渐形成了系统的调查研究,出现了很多大家耳熟能详的名字,比如林奈、洪堡、梭罗、拉马克、达尔文等等。

  地球上的生命让人眼花缭乱。放眼炙热沙漠,冰冻雪山以及马里亚纳海沟,生命无处不在。细菌、蚊子、鲸、蘑菇、暴龙的共同之处在于它们都由DNA组成,DNA掌握着造就地球上每一个生命的密码。在人类基因组计划完成之时,人类终于读到生命之书,开始学习上帝创造生命所使用的语言。继而,人类着手揭开其他物种的基因密码。在过去若干年里,华大基因测序研究的对象包括:大熊猫、水稻、桑蚕、大豆、牦牛、藏羚羊、兰花、黄瓜、家鸡、人类肠道微生物,还有在格陵兰发现的一个4000年以前的古人等成千上万个不同的物种。

2010年,华大基因领衔的熊猫基因组测序成果登上了《自然》杂志封面

  华大基因的目标似乎是穷尽世间万物,掌握所有生物的基因。在深圳东南部大鹏新区下沙片区禾塘仔的一座白色阶梯状建筑里,华大基因正准备朝这一目标奋进。这里将会储存各种生物样本,进而进行测序,建立一个数字化的生物王国,这是深圳国家基因库之所在。深圳国家基因库于2011年由国家发改委等部委批复,依托华大基因组建、运营,存储管理我国特有遗传资源、基因数据和生物信息,于今年9月22日正式开库。

  “基因库是真正的国库,比银行的金库还要宝贵。在农业时代拥有更多的耕地,就意味着你拥有了优势;在工业时代拥有更多的能源,你也具有了相应的优势;在生命时代,拥有更多的基因资源,对这些基因资源进行认知和利用,你在这样一个新时代中就拥有了自己的优势。”国家基因库主任、华大农业集团董事长兼总裁梅永红说。

国家基因库外景

  大鹏新区位于深圳东南部,东西临海,南北环山,遥望香港新界,是深圳的“黄金海岸”。这里山地多平地少,森林覆盖率超过76%,整个大鹏半岛被称为深圳最后的“桃花源”。

  国家基因库从外形上看成台阶形,这样的造型是有来历的。2002年4月5日,《科学》杂志以14页的篇幅发表了华大基因《水稻(籼稻)基因组的工作框架序列图》,封面是秀美的云南红河哈尼梯田,国家基因库建筑的外形基本就是参照庞大的哈尼梯田设计的。据华大基因研究院院长、国家基因库执行主任徐讯介绍,基因库倚靠山体的自然坡度进行建设,每一层都相当于是第一层,有山体结构的支撑,稳固性非常好,可以摆放一些较重的设备。

  从国家基因库6楼的露台望去,对面是茂密的青山,远处能看见海。基因库选址大鹏还有一个考虑,因为山后面是LNG(液化天然气)码头,液化天然气运输到此的时候是液态,要变成气态输送至千家万户,这个过程需要汽化,汽化会产生大量的冷能。如果冷能直接释放到海里将导致海洋温度改变,引起生态系统的变化。“如果把冷能直接输送到国家基因库用于冷却样品,每年能节约三分之二的电费。”徐讯说。

  此外,深圳正在全力推进“东进战略”,将在深圳东部沿海大鹏半岛规划建设国际生物谷,并将其打造成为国际领先的生物科技创新中心,国家基因库是大鹏新区的重要产业基础设施。

  据徐讯介绍,国家基因库一期的目标存储规模是3000万份样本,二期目标准备动工,打算在对面山里打一个隧道用于储存样本,把储存能力提高到3亿。“山区地形推平盖楼成本太高,而且山洞保藏样品的能量耗散低。”他们前期做了很多调研,认为这种方式是最有价值的。比如挪威的末日种子库建设在挪威永冻土的山洞里,基本不需要外来的能量就能保持低温0~4摄氏度,利于保存种子。

  解答疾病

  在国家基因库里,你还看不到琳琅满目的动植物标本,基因库里保存的样本是组织、血液、尿液等。动植物标本、石蜡切片等在常温下保存;唾液、脱落细胞需保持于4摄氏度环境中;干血片、种子、DNA(中短期保存)需在-20摄氏度环境保存;微生物、血浆/清、蛋白、DNA、RNA等保存温度要达到-80摄氏度。保存温度最苛刻的是细胞和组织,需要-200摄氏度的液氮或气相液氮环境。

  在这里,能看到的绝大部分是专业仪器和密封仓库,比如基因库3楼摆放着华大基因自主研发的150台BGISEQ-500基因测序仪,以及一台造价2000万美元的Revolocity超级测序仪。这些价值数亿元的设备,未来将每天产生大量的数据,通过4楼的数据中心以及与基因库合作的云平台,面向全球的科研机构、企业。这一切都将以一种肉眼看不到的方式,静悄悄地进行。

科研人员正在操作华大基因测序仪BGISEQ-500

  一个巨大的数据库将会生成。深圳国家基因库是继美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)、日本DNA数据库(DDBJ)之后世界上第四个国家级基因库,其他三个数据库的主要功能是保存数据,而深圳国家数据库不仅会源源不断地产生数据,而且更加注重对于数据的研发和利用。“我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌。”徐讯说。

  国家基因库已实现对基因信息数据总量达60PB的访问支持,在9月22日正式营业当天,将有5PB的数据正式对外发布,提供数据检索和查询功能。数字化中心一年会有5PB左右的产量,这意味着一人一天看一部电影大概要看1万年。“我们的目标要做成10PB的年产量,以最高通量来算,一年要产生100万人的数据。”

  第一批入库样本基本以疾病和物种多样性为主。徐讯介绍了三个和疾病相关的重要数据库。第一是罕见病数据库,华大基因已经测了将近3000个罕见病家庭,新发现了400种罕见病基因。“很多药物最早都是针对罕见病基因开始的,而基因和基因之间通过网络和通路相互作用,后来发现针对罕见病基因的药物能治疗的疾病越来越多。”他相信,基因库的数据库公开之后,访问最多的会是研究药物和疾病的研究机构。

徐讯

  第二个是癌症数据库。癌症是基因病,细胞的基因突变促使癌症产生。“我们一直以来都是国际癌症组织联盟的成员,现在国际癌症组织所有的数据信息也存在于即将开业的基因库里,开业之后我们会提供全球的癌症数据,癌症数据库里存储了近上万份的不同类型和系统的癌症数据,这对未来疾病的诊断和治疗也有很大的意义。”他预计,癌症数据库会是未来访问最频繁的一个数据库。

  第三是大规模人群队列的数据库。“因为不同民族、不同区域的人群基因背景不一样,这意味着疾病发病的情况也不相同,用药情况会有差别,所以这种区域性的队列数据不管是对技术科研还是应用来讲都有很大意义。”

  科学家通过测序可以了解到疾病与特定基因的关系,最为人熟知的例子是美国影星安吉丽娜·朱莉。她有癌症家族遗传史,她的母亲、外婆和姨妈都因癌症去世。朱莉通过基因检测知道自己有87%的可能性患上乳腺癌,50%的可能性患卵巢癌,从而选择提前预防,切除了自己的乳腺和卵巢。

  梅永红说:“目前我们国家提倡精准医学,精准医学恰恰建立在对人和与人相关的外源性生物物种认知的基础上,我们要通过基因测序来了解遗传规律、医学范式,这时能否拥有更多的基因资源、能否掌握更多的遗传规律就非常关键,未来精准医学的发展和竞争在某种程度上取决于我们具有的基因资源,以及认知基因资源的能力。”

梅永红

  国家基因库的主要功能是“三库两平台”,三库即生物信息数据库、生物样本资源库、生物活体库,两平台即数字化平台、合成与基因编辑平台,这是国家基因库作为一个国际级平台应当具备的功能。梅永红说:“我国国家基因库的建设虽晚于发达国家,但它相当于国外多个样本库和基因库的集合,既有保存动植物、微生物和人类组织细胞等样本的‘湿库’,也有汇集人类各种生物信息的‘干库’,还引入了‘活库’,即活体生物库,是全球最大的综合性基因库。”

  至于为什么把这样一个规模庞大的国家基因库交给华大基因进行建设,梅永红说他曾经思考过这个问题。“我们国家有那么多的科研机构,那么多大学,那么多做得好的国有企业,为什么要把这样一个国家级的平台建设交给华大?”在他看来有几个原因:第一,华大基因是全球最大的基因研发机构,建国家基因库并不仅仅是收集和保存基因资源,更要得到应用,需要有数字化的过程,华大在解读基因遗传密码方面是全球领先的。第二,华大基因从1999年创立以来,通过参与人类基因组计划到今天,已经成为全球拥有基因数据量最大的机构,产出的人类基因组数据一度占到全球的47%,而且产出超过70%的全球农业基因组数据,华大所获得的这些数据对国家基因库特别是数据库来说,是非常重要的资源。第三,华大基因作为一个民办官助的新型研究机构,在利用这个资源方面可能比我们体制内的机构具有更好的条件。

  解答生命之树

  对于研究生物多样性的张国捷来说,深圳国家基因库还有自己的特殊之处。“全世界的基因组研究机构中,只有华大基因提出将生物多样性研究作为重要方向,所以可以说这是世界上唯一一个以生物多样性研究为最主要研究目的的大型基因组中心。”通过方向性的战略规划,他们已经和全世界200多个博物馆、动物园、动物保护区建立了长期稳定的合作关系。

  “我们要研究生物,研究基因组学,其中一个最核心的问题就是生命之树什么样。这不光要解释人类从哪里来,还要回答生命从哪里来,究竟是如何产生这个多姿多彩的世界。过去科学家主要通过肉眼去观察化石、标本,如今我们用一种更新的技术——基因组学去揭示物种之间更深刻的联系,了解物种如何适应环境,在基因组层面解答众多基础的生物学问题。”张国捷说。他穿着一件黑色的短袖T恤,前面的图案是达尔文的进化树,后面印着《物种起源》最后一句话的英文原文。

  “我们没办法一下子把全世界的物种都数字化,但我们可以根据我们的目的,针对所要回答的科学问题,侧重性地选取一些物种进行研究。”他说。

  2014年,他和国际鸟类基因组联盟的研究人员通过基因组研究揭示了鸟类的秘密。当年12月,美国《科学》及其他杂志以专刊的形式,公布了迄今为止最可靠、最全面的鸟类“生命之树”。张国捷等人从分子生物学角度揭示了“鸟是如何成为鸟的”。为回答这些问题,他领导的国际鸟类基因组联盟对48个鸟类物种进行基因组测序、组装和全基因组比较分析,这些鸟类物种包括乌鸦、鸭、隼、鹦鹉、企鹅、朱鹮、啄木鸟和鹰等,囊括了现代鸟类的主要分支。

朱鹮

  结果表明,鸟类是6500万年前白垩纪物种大灭绝事件中的幸存者,那次事件灭绝了地球上的恐龙,只有部分鸟类的祖先存活了下来。而基于基因组数据的新研究表明,恐龙灭绝后1000万年至1500万年间,鸟类经历了一次“超级物种大爆发”,后来逐渐演化出了1万多种被称为新鸟纲的鸟类,95%的现存鸟类来自这一新鸟纲鸟类。

  研究还发现,与其他脊椎动物相比,鸟类的基因组要小很多,大约只有哺乳类平均大小的30%~40%,而且相比哺乳动物,鸟类基因组也更加稳定,基因组重排现象要少得多。同时研究人员还发现,鸟类的祖先从爬行动物中分化出来后丢失了成百上千的基因,比如牙齿相关基因的丢失解释了为何现存所有鸟类都没有牙齿,卵巢发育相关基因的丢失解释了为何鸟类只有单一功能的卵巢。“这是非常有趣的发现。人们通常认为,生物演化出新特征依靠的是产生新的遗传物质,而不是基因的丢失。”张国捷说。

  目前,他们和世界众多博物馆合作,计划把全世界所有的鸟类,以及过去400年内灭绝的鸟类基因组信息及其他各种生物学信息进行数字化。这个项目推行得比较顺利,保存在美国自然历史博物馆和各种博物馆的鸟类已经达到8000多种,测序技术的进步为实现他们的目标提供了强大的保障。

  基因组可以回答很多问题。“比如,不同鸟类之间有什么关系?为什么很多鸟在不停地迁徙?为什么有些鸟可以飞,有些不能?为什么有些鸟类一感染禽流感马上就死亡,有些鸟类却可以抵御禽流感?鸟类祖先进化到现在有1.5亿多年的历史,如此长的历史过程中,地球发生的历史事件如何影响到鸟类的分布和分化?气候变化对鸟类的分布格局有什么影响?”

  正如同人类刚刚拥有几台计算机时,无法想象数字技术能够引发怎样的社会、经济和科学领域的变革一样,当人们确定最初几个基因组时,也没有想象到未来会发生什么样的变化,要如何期待、如何迎接这样的变化。如今,随着测序技术的发展,这个前景越来越清晰,基因测序将和每一个人发生关系,深圳国家基因库将成为真正意义上的“国库”。