“数据封禁”倒逼国内加快科研数据库建设

作者: 周游

“数据封禁”倒逼国内加快科研数据库建设0
本文图/AI制图

“数据库账号突然登不进去了?”

4月6日一早,在北京某研究机构做博士后的遗传学博士韦川收到审稿人来信,要求他补充此前一篇投稿中的数据分析。韦川打开SEER数据库终端,想要搜寻数据,发现自己的账号已经无法登录。导师告诉他,SEER等多个生命科学和医学领域数据库已被封禁。

SEER即美国国立癌症研究所(NCI)管理的“监测、流行病学和结果数据库”,是全球最具代表性的大型肿瘤登记注册数据库之一,收集了大量循证医学数据,一直以来向全球研究者开放。而SEER只是被切断的数据库之一。NCI隶属美国国立卫生研究院(NIH)。4月2日,NIH发文,称从2025年4月4日起,禁止包括中国在内的“受关注国家”访问其管理的21个受控访问数据库。

韦川原本还要参与对研究生的SEER数据库使用培训,如今也暂时搁置。个人学业之外,中国国内科研整体可能面临研究受阻、研发推迟等问题。美国数据“断供”下,国内生命医学领域研究该如何应对?

依赖受控数据的研究受到冲击

NIH对受控数据库的访问限制看似突然,实则早有铺垫。

去年2月,美国拜登政府颁布第14117号行政令,旨在限制部分国家获取美国个人敏感信息以及美国政府信息。基于该行政令,包含个人基因组信息在内的一些生物学数据被列为敏感信息,源于美国境内的数据不能传到包括中国在内的部分国家。

此后,为了实施该行政令,去年12月,美国司法部发布一项最终规则,要求“防止受关注国家获取美国敏感个人信息和政府相关数据”,以及“禁止和限制与某些国家或个人的某些数据交易”,今年4月8日起正式生效。

已公布的21个受控数据库均由NIH直接或间接管理。NIH是全美最高水平医学与行为学研究机构,也是全球最大的生物医学研究公共自主机构,下设 27 个研究所和中心,聚焦不同疾病领域。受控数据库汇集了全球最核心的人类基因组、表型信息和疾病研究数据,其中最受关注的是人类基因型-表型数据库dbGaP和大型基因组分析云平台AnVIL。

北京某高校生物信息学教授周卓向《中国新闻周刊》介绍,数据“断供”对大多数生命科学和医学领域影响不大,主要影响基因组学、癌症研究领域。dbGaP存储的基因组与疾病数据来自全球研究者提交的数据,研究对象覆盖全球数百万人,是癌症治疗、罕见病研究等领域的重要数据源。而AnVIL是跨机构协作的重要平台,支撑着全球三成以上的基因数据分析项目。

多位受访者表示,在癌症、基因组学研究领域,NIH旗下数据库非常重要,特别是在罕见病研究方面,由于单一国家难以独立获得足够样本,NIH各平台几乎是不可或缺的。韦川对SEER最熟悉,他认为,SEER的优势在于样本量非常大,目前已覆盖48%的美国人口,人种分布也很均衡,其癌症发病率和生存率数据很可能支撑着全球超过70%的癌症机制研究。

此外,一项研究可能需要多类别数据,而NIH对基因组和癌症研究领域数据库的封禁很全面。周卓表示,以癌症研究为例,研究者可能需要访问癌症基因组计划(TCGA),以寻找某种癌症类型的基因组学证据,同时也需要访问基因型-组织表达(GTEx),以获得健康组织的对比数据。而TCGA是基因数据共享平台(GDC)的一部分,后者很大程度上依赖dbGaP收集的研究数据。申请GTEx数据也需通过dbGaP进行。dbGaP“断供”,相当于阻断了这部分研究的数据源头。

值得注意的是,部分NIH数据库包含受控和开放数据库两个部分。前者由于具有个人基因组信息等敏感内容,原本就需要注册使用,在获得数据库官方授权后才能访问。后者目前仍保持开放。韦川指出,TCGA、GDC等数据库的开放数据如基因表达矩阵目前仍可下载,但原始基因测序数据属于受控数据,原来研究者只要申请大都能下载,只是时间长短问题。但4月8日之后,中国申请者的申请都将被拒。

一位在上海某高校医学院研究胸部肿瘤的三年级博士生向《中国新闻周刊》表示,对于普通临床研究,开放数据库基本够用,但当研究进入到筛选癌变点位、寻找药物靶点等前沿领域,基因层面的数据不可或缺。直观来说,受到冲击最大的是那些已经依赖受控数据的研究。同时,与数据挖掘同时进行的实验室生物组织培养等配套研究,也都成了“沉没成本”。“数据基础没了,养的细胞可能都要扔掉。如果重新寻找基因位点,整个课题可能都要重新设计。”该博士生说。

在韦川看来,尽可能完整翔实的数据是研究的根基,尤其是罕见病研究,如果靠个人或单位去零散的医疗机构收集发病率万分之一以下的病例,将十分困难。很多团队用公共数据筛选基因位点,如果转回实验室从头开始一个个位点进行试错,课题成本将飙升2—3倍。

周卓指出,寻找替代数据或自行收集大规模样本,将显著增加科研成本和不确定性。对癌症研究来说,如果无法获取相关基因突变数据,就无法筛选患者入组,试验周期将无限拉长,甚至陷入停滞。依赖NIH数据验证疗效的药物研发也将显著受阻。

此外,周卓分析说,在NIH数据已成为“标配”的研究领域,替代数据的权威性会受到审稿人质疑,向《自然》《科学》等国际顶刊投稿的道路将更加坎坷,寻求国际合作也将更困难。“领域内学术竞争力的下降,可能是国内相关团队要面临的最大挑战。”

多位高校教师向《中国新闻周刊》表示,未来,随着欧美政府向着国家安全、隐私保护的政策方向倾斜,针对中国学术界的访问限制只会越来越多。周卓分析,原本开源的基因分析工具包GATK也跟随数据平台被封禁,国产测序工具的兼容性和效能还很难完全匹敌。PubMed这样的工具也难免有风险,但不太可能全线封禁,更可能会添加数据分级、进行有针对性的搜索权限发放和审批。

“数据封禁”倒逼国内加快科研数据库建设1

应打造深度数据共享平台

为应对“数据危机”,国内研究者已开始自救,调整科研策略。韦川发现,生物信息学专业的学生相对而言更好转向,因为他们的研究受到的限制更小,可以使用NIH旗下依然开放访问的功能基因组学数据库GEO,或者转向欧洲的UK bioBank数据库。后者相比于dbGaP和TCGA拥有更多用户。

但基因组学等前沿领域研究者的转型就没那么容易了,因为他们迫切需要特定领域的数据。韦川指出,数据库会记录研究者获取数据的时间,即使想方设法在4月4日后获取到了受控数据,也会被质疑数据源的合法性,以致无法公开使用。“但总会有绕过限制的手段,比如转向海外联合研究项目,以及寻找海外合作者共同署名。”

多位受访者认为,数据封禁很可能倒逼国内加快生物医学数据基础设施建设,减少对外依赖。

2019年,国家生物信息中心(CNCB)和国家基因组科学数据中心(NGDC)相继成立。目前,NGDC数据库覆盖DNA、RNA、宏基因组、单细胞等多类数据,同时也备份了十余个NCBI数据库。CNCB-NGDC主要任务是构建档案平台和信息系统,开发算法和工具,在周卓看来,这是一套技术逻辑完整、标准逐步完善的“国家级数据中枢”,对标NCBI生态。去年11月,CNCB还成功研发了DNA数据存储系统“毕昇一号”,大大降低了存储成本。

此外,越来越多医院和科研所开始构建自己的样本库和数据库,例如北京协和医院的罕见病基因库、上海瑞金医院的肿瘤表观组学平台等。周卓分析说,对使用者而言,国内数据基于中国本土人群,在东亚人遗传变异、罕见病等领域具有独特优势。

但问题也显而易见。据相应官网信息,CNCB目前归档的国内数据为70.4PB,国外数据为7.75PB,而NIH下属NCBI的归档数据就超过100PB。总体而言,国内自主数据库的数据量约为美国的1/3,且国际认可度尚待建立。周卓指出,以CNCB为代表的国内数据库存储的数据总量可能超过400PB,可供科研调用的结构化数据只有一小部分。数据清洗、标准化存储的工作还有待持续推进。

此外,前述癌症中心研究员表示,国内仍存在大量“数据孤岛”,估计有超过90%的肿瘤样本数据分散在各地医疗和科研机构之中,共享程度很低,未来还需要系统性整合。但目前,国内仍缺乏肿瘤生物样本的大数据平台。

CNCB每日更新数据共享排行榜,截至发稿前,榜上共有3829组数据。以审核周期、处理率和通过率进行共享度评分,满分5分,超过4分的数据有260余条,仅占6.2%。

多位受访者指出,要从根源上提升学术竞争力,就需要构建国家层面的深度共享数据库。周卓认为,国内数据库应聚焦中国高发癌种,如肺癌、结肠直肠癌等,优先建立本土化研究队列。同时,通过国家战略统筹方式,设立专项、成立相应领域的数据管理中心,将“孤岛”数据整合,形成大平台。这可能需要进一步的立法保障,明确数据所有权、使用权、安全分级和收益分配机制。

“更多的数据还没被分享出来。”韦川说,“愿意分享辛苦做出的数据的团队还是少数,毕竟有好的数据在手,都希望自己先分析、出成果、发论文。如果没有有竞争力的分享激励机制,数据共享从何谈起呢?”

(文中韦川、周卓为化名)

经典小说推荐

杂志订阅

友情链接