蛋白组学数据如何分析(3分钟了解蛋白组学数据)

研究简介

蛋白组学数据如何分析(3分钟了解蛋白组学数据)

研究背景

结合临床和分子数据的更细粒度的疾病定义可以更深入地了解个体的疾病表型,并揭示预后或治疗的候选标志物。此外,多组学数据可以产生新的假设,最终转化为临床可操作的结果。生物医学研究界早就认识到收集、组织和构建相关数据的必要性,导致整个社区采用多个生物医学数据库。然而,协调和集成仍然具有挑战性,因为它通常是多样化的、异构的,并且分布在多个平台上。此外,许多科学数据和知识仅“存储”在数百万非标准化的期刊出版物中。

在过去的十年中,基于质谱(MS)的蛋白质组学取得了长足的进步。然而,目前使用的基于MS的蛋白质组学工作流程是十多年前设计的,快速增长的数据量对该领域提出了新的挑战。高通量蛋白质组学中一个更大且不断增长的瓶颈是难以解释定量结果以制定生物学或临床假设。只有少数工具旨在缓解这个问题,亟需一种集成多种数据类型的解决方案,同时捕获分子实体与由此产生的疾病表型之间的关系。此外,我们看到越来越需要更具包容性的解决方案,为那些缺乏专业知识的人提供工具,以更用户友好的方式从蛋白质组学数据中提取高质量信息。因此,将一系列数据库和科学文献信息与组学数据集成到易于使用的工作流程中的基于知识的平台将增强发现科学和临床实践的能力。

研究方法

研究结果

R1 CKG架构概述

CKG包括几个独立的功能模块:

⑴ 格式化和分析蛋白质组学数据(analytics core);

⑵ 通过整合来自一系列可公开访问的数据库、用户进行的实验、现有本体和科学出版物的可用数据,构建一个图形数据库(graphdb_builder);

⑶ 连接和查询这个图形数据库(graphdb_connector);

⑷ 通过报告管理器(report manager)和Jupyter notebooks促进数据可视化、存储和分析(图1 a,b)。这个架构无缝地协调和整合了数据以及用户提供的分析。它还促进了数据共享和可视化,以及基于详细的生物医学知识注释的统计报告的解释,产生了临床相关的结果。

图1临床知识图谱架构

R2 蛋白组学框架核心分析模块

蛋白质组学数据下游分析的第一步需要一个全面的、多功能的统计、机器学习和可视化方法的集合。该工作组选择了Python及其相关的科学堆栈,在分析核心中实现的功能以统计和视觉数据表示为中心,涵盖所有主要的计算领域,如表达、相互作用和翻译后、基于修饰的蛋白质组学(图1b)。

其设计的分析核心包括数据科学管道的主要步骤:数据准备(过滤、规范化、估算和数据格式化)、数据探索(汇总统计、排名和分布)、数据分析(降维、假设检验和相关性)和可视化。

R3 图形数据库构建

为了实现蛋白质组学数据与其他实验或文献信息的无缝注释和整合,该工作构建了一个能自然连接大型异质数据的图形数据库。为了构建知识图谱,该工作首先编写了一个解析器库(graphdb_builder),为每个本体、数据库和实验类型提供相关配置。这些解析器从在线资源中下载数据,提取信息并生成实体和关系,两者在蛋白质节点中都可以有属性,如名称或描述。解析器使用配对的配置文件,指定需要如何解释本体、数据库或实验。

一旦本体、数据库和实验文件被标准化、格式化和导入,graphdb_builder模块就会用Cypher查询将它们加载到图数据库中,从而创建相应的节点和关系。

R4 CKG包含数百万个节点和关系

CKG数据库不断增长,目前使用10个本体从26个生物医学数据库中收集注释,并将这些信息组织到由2.2亿个关系连接的近2000万个节点中(图1a)。这些关系中有超过5000万个涉及“出版物”节点,这些节点将有关人类系统研究的科学出版物(使用PubMed标识符编码)与蛋白质、药物、疾病、功能区域和组织联系起来(图3a)。它们来自对近700万篇摘要和全文文章的命名实体识别,从而将积累的生物医学知识的各个方面封装在同行评审的出版物中。

CKG框架提供了一个基础设施,有助于利用图中的现有连接以及 Neo4j和Python库中已经实现和优化的图算法。此外,CKG为网络分析和机器学习算法的应用提供了框架。

R5 提取可操作知识的框架

CKG的主要目标是将分析模块的功能与集成到图形数据库中的大量先验信息相结合,以最好地解释基于MS的蛋白质组学或其他组学实验。这些异构但连接的数据源的协调使标准分析管道能够自动报告结果,以更一致的格式取代数周的手动工作。这些标准报告提供了对生成数据质量的初步评估,突出显示相关命中并将这些命中与图表中的不同生物医学组件相关联。报告管理器组件(report_manager)协调实验项目的创建和更新以及自动分析、可视化和知识提取(图2)。

图2自动统计报告

R6 用于肝病生物标志物发现的自动CKG分析

为了展示CKG如何加速和扩展数据的分析和解释,我们将其默认管道用于非酒精性脂肪性肝病(NAFLD)的蛋白质组学研究。

图3非酒精性脂肪肝的默认分析

数据分析使用主成分分析来降低特征的维度,以便对数据进行概述。然后,使用事后检验进行方差分析,确定所有研究组之间以及特定组对之间的统计显著性差异。事后测试以交互火山图的形式呈现,带有关于具有预定义显著性阈值的上调和下调蛋白质的信息(图3a)。CKG自动复制了之前的结果,显示参与免疫系统调节和炎症的蛋白质失调。此外,CKG强调,与健康人群相比,肝硬化患者的TTR-RBP复合物(TTR和RBP4)表达下调。此外,该报告还揭示了CD5L的调节作用与肝硬化、肝细胞癌和其他肝脏疾病之间的文献和数据库关联。这些代谢上有趣的发现在我们的手动分析中被忽略了,但CKG的自动管道优先考虑了这些发现,该管道在不同条件下提取了显著受调节的蛋白质。

为了将相关的蛋白质变化可视化为一个网络,默认分析将具有显著关联的蛋白质连接起来。使用Louvain算法检测高度相关的蛋白群揭示了潜在的临床相关联系。对数百万蛋白质相互作用的背景知识使CKG能够识别六个主要集群,将细胞外基质重塑物、互补成分和炎症标记物分组,它们连接了两个候选生物标记物(PIGR和JCHAIN)。将差异调节蛋白与药物、疾病和出版物以及丰富的生物过程和途径联系起来,发现了NAFLD中其他失调的途径,这些途径在之前的分析中被忽视。CKG还使用WGCNA获得共表达蛋白模块,而不是与临床变量相关的单个蛋白(图3c)。

最后,自动化分析管道将所有临床、蛋白质组学和多组学分析总结为一个图表,其中包含所有受调节的蛋白质,以及从知识图表(如疾病、药物、相互作用和途径)中提取的关系,并优先排序和减少呈现的节点数量(图3d)。整个默认管道只花了不到5分钟的时间,但基本上捕获了从我们之前的手动分析中收集到的所有见解。

R7 CKG支持多种蛋白质组学数据集成,支撑癌症生物标志物的发现和验证

为了探索CKG的多重分析能力,我们重新分析了最近的一项研究,其中我们将癌症/睾丸抗原家族45(CT45)确定为卵巢浆液腺癌长期存活的生物标志物,并描述了其作用方式。多维蛋白质组学、磷酸蛋白质组学和相互作用组学在CKG中被建模为不同的连接项目,并使用适用于每种数据类型(蛋白质组学、相互作用组学和磷酸蛋白质组学)的默认分析进行独立分析。CKG再现CT45,在化疗后长期缓解的患者中表达显著更高(图4a,b)。CKG 还证实,以前几乎没有关于CT45的细胞作用和功能的知识,但产生了24个CT45的潜在相互作用物,其中4个属于PP4复合物,并由人类相互作用图贡献(图4c)。

图4多层次临床蛋白的CKG分析

R8 使用CKG来确定疑难病例的治疗方案的优先次序

在我们之前对一个尿道癌转移病例的蛋白质组学研究中,我们提出赖氨酸特异性组蛋白去甲基化酶(LSD1/KDM1A)是一个可能的可药用目标。在这里,我们用一个扩大的默认分析来扩展该研究,并辅以Jupyter notebooks,在一个可重复使用的管道中基于先前的知识实施再利用,可应用于其他研究(图5)。对比肺部肿瘤和非癌性组织,发现有数百个明显受调控的蛋白质;因此,有必要采取一种源于知识的优先排序策略,如文本挖掘和疾病及药物关联。CKG通过挖掘图谱来识别文献中共同提到的药物-靶点-疾病关系(330万篇出版物提到的);列举与药物相关的副作用(72,000个关联);根据副作用、适应症和靶点寻找类似药物;并将药物与功能通路联系起来。

图5 CKG有助于优先考虑替代治疗

在328种差异调节的蛋白质中,188种被上调,69种已知与肺癌相关。CKG不仅自动将LSD1/KDM1A连接到肿瘤委员会批准用于我们患者的药物反苯环丙胺,而且指示反式-2-苯基环丙胺,一种已知的强效去甲基化酶抑制剂,作为另一种治疗选择。我们确定了针对19种优先蛋白质的60种潜在药物。在检索到与使用的化疗方案和已确定的抑制剂相关的已报告副作用后,CKG 根据不同的副作用(Jaccard指数)对剩余药物进行了重新排序。

研究总结

本文描述了CKG,这是一个开放、强大的知识图谱框架,用于对蛋白质组学和多级组学数据进行透明、自动化和综合分析。CKG集成了大型网络中的先验知识、实验数据和识别的临床患者信息。它使用图形结构将蛋白质组学数据与所有这些信息相协调,该结构自然地提供与已识别蛋白质的直接连接。它的自动化、瞬时和迭代性质有助于揭示相关的生物学背景,以便更好地理解和产生新的假设。此外,图结构提供了一个灵活的数据模型,可以很容易地扩展到新的节点和关系。尽管CKG是专门为回答临床相关问题而设计的,但它同样适用于其他生物体和任何生物学研究。

撰写:程闯(北京交通大学周雪忠课题组)

校阅:周雪忠、杨扩

网络药理学读书会介绍

网络药理学是人工智能和大数据时代药物系统性研究的新兴、交叉、前沿学科,强调从系统层次和生物网络的整体角度出发,解析药物及治疗对象之间的分子关联规律。网络药理学在国际上被认为是“下一代药物发现模式”,同时,网络药理学与中医药整体观念高度契合,中医药在网络药理学的起源和发展中也起到了重要作用。目前网络药理学被广泛应用于药物和中药活性化合物发现、整体作用机制阐释、药物组合和方剂配伍规律解析等方面,为中医药复杂体系研究提供了新思路,为中医药科学原理阐释、中药研发与创新发展等提供了新的科技支撑。

最近清华大学李梢教授联合北京大学叶敏教授、中国中医科学院许海玉教授、北京交通大学周雪忠教授、澳门大学胡元佳教授、天津中医药大学于海洋教授等专家,发起了“网络药理学读书会”。读书会旨在介绍国际上网络药理学领域的重要研究进展,为推动网络药理学计算、实验、临床的研究提供参考和借鉴。希望更多同道积极参与,共同促进网络药理学学科规范、健康与有序发展。

往期推荐

【读书~6】Cell Systems | 结合可解释机器学习与网络分析模型的癌症联合治疗研究

【读书~5】Nature Cancer|基于网络的系统药理学揭示白血病LCK和BCL2信号通路的异质性和治疗敏感性

【读书~4】Trends Pharmacol Sci|网络药理学:从治标到治本

【读书】Nature Communications | 通过多尺度相互作用组识别疾病治疗机制

【读书】Nature Food|网络接近度预测多酚的作用机制

【读书】PNAS|从单靶标到协同靶标的网络药理学预测方法

发表评论

登录后才能评论