《张江科技评论》是由上海科学技术出版社与上海市张江高科技园区管理委员联合创办的一本科技评论类杂志。该刊报道评价国内外创新性科学技术的发展趋势及其商业价值,介绍上海在建设全球领先科创中心进程中的制度成果、技术成果、创业成果,推动产学研密切协作,促进科技成果转化,服务经济转型发展。
多组学数据之间的整合不仅为基础研究及临床应用提供可供参考的数据信息,还可以为人们提供更为广阔的视野,加深人们对生物现象及疾病发生发展的全面认知。
在人类生命组学研究中,随着基因组学、转录组学、表观组学、蛋白质组学及代谢组学等的不断发展,它们为生物基础研究与医药研发提供了有利的先决条件,为探讨人类健康或者相关疾病提供了不同形式、不同层次的生命组学数据。与单一组学数据分析相比,多组学大数据整合分析为人类更深刻地理解疾病的致病机理以及有针对性的药物研发工作提供了坚实的基础。
在生命组学中,出现的第一个组学是基因组学。它指的是对生物体所有基因进行集体表征、定量研究,并比较不同基因之间的差异,为目前最为成熟的生命组学领域。基因组学所关注的是整个基因组的研究,而不是传统遗传学领域所关注的少数或单个基因。基因组学为破译遗传信息、研究复杂疾病和特定的遗传变异提供了可靠的保证。基因经过转录、翻译等过程成为生命的体现者——蛋白质,它与细胞内的各种生化反应过程都密切相关。因此,在基因组学之后,蛋白质组学受到了研究人员的广泛关注。蛋白质组学是研究蛋白质表达水平、翻译后修饰以及蛋白质相互作用的学科。中的蛋白质会经历动态变化过程,具有天然的复杂性,解析蛋白质组学中所包含的信息对理解生命活动过程具有至关重要的作用。然而,人们仅仅通过基因组学、蛋白质组学解密人类生命密码是不够的。例如,同一种基因型可能表现出不同的特征,这是由遗传因素和环境因素两方面导致的。对疾病而言,疾病的发生可能与某个基因的突变有关,也可能与基因在转录、翻译或者其他过程中出现的错误有关。因此,其他生命组学在中的作用不容忽视。转录组学对全基因组转录情况以及转录调控规律进行研究;表观组学对基因组DNA或DNA结合蛋白质的修饰特征进行整体研究;代谢组学对生物体内所有代谢产物(如氨基酸、脂肪酸、碳水化合物等)进行定量分析,并将代谢产物与对应疾病进行关联。
单一组学数据分析通常用来解释某种特征性的生化指标与某些疾病之间的关联,但无法说明其中复杂的因果关系。例如,研究人员发现阿尔茨海默病患者体内某种生化分子的表达水平比健康人群高,这只能说明这种特定的生化分子与此种疾病存在统计学上的关联,而不能说明这种生化分子在此种疾病中隐藏的复杂机制。倘若研究人员将基因组学、转录组学、蛋白质组学、代谢组学等数据信息进行整合分析,不仅可以阐明这种特定的生化分子与该疾病存在的潜在因果关系,还可以寻找这些数据背后起决定性作用的生物学原因,这也会加速人们解密这种疾病的发展过程。通过多组学大数据整合分析,人们可以对疾病的发生发展过程有更好的理解,而这一点也会帮助人们提出更好的预防或干预手段。
多组学数据之间的整合不仅为基础研究及临床应用提供可供参考的数据信息,还可以为人们提供更为广阔的视野,加深人们对生物现象及疾病发生发展的全面认知。
前驱糖尿病是指在患有高血糖症和低血糖症的患者中存在的葡萄糖代谢障碍。由于它未达到II型糖尿病的诊断标准,通常不易被诊断为II型糖尿病,但它发展为II型糖尿病的风险很大,高达70%的前驱糖尿病患者最终患上糖尿病。因此,研究前驱糖尿病有助于人们理解II型糖尿病的发病机制。
早期研究揭示了II型糖尿病患者与健康人群在肠道微生物特征、疾病标志物上都表现出明显的差异,但是对前驱糖尿病发病早期的认识还不够全面。为了能够更好地理解II型糖尿病早期发病过程在正常人群以及患者中的生物学差异,2019年5月,美国斯坦福大学的迈克尔?斯奈德(Michael Snyder)及合作团队在《自然》(Nature)杂志上刊登了一篇关于前驱糖尿病研究的突破性进展。研究人员对106名受试者进行了长达4年的跟踪研究,每3个月进行1次采样:每次采样对受试者的肠道微生物菌群、鼻腔微生物菌群以及血液样本进行检测,对外周血单核细胞中13 379种转录产物、血浆样本中722种代谢物以及302种蛋白质、血清中的62种细胞因子以及生长因子进行测序。同时,他们借助其他临床试验检测手段建立了前驱糖尿病的庞大数据库。研究人员通过比较呼吸道病毒感染在不同受试者体内分子通路的影响,发现呼吸道病毒感染可能增加胰岛素抵抗受试者发生II型糖尿病的风险。此外,研究人员还比较了肠道微生物与宿主代谢物之间的关系,结果表明,对胰岛素抵抗的受试者及对胰岛素敏感的受试者而言,肠道微生物与宿主免疫及代谢具有不同的协调作用。多组学大数据整合分析可以让研究人员更好地筛选出呼吸道病毒感染或疫苗接种等时间点,相比单一组学数据分析,前者获取了更多的数据信息。
该项研究不仅揭示了健康人群与前驱糖尿病患者之间的差异,还发现了可以定义早期糖尿病发展的规律。通过对数千个分子进行关联分析,研究人员确定了II型糖尿病发病之前的早期分子特征,在某些情况下,这有助于及早检测出II型糖尿病。
中国肝癌新发患者几乎占世界新发肝癌患者的一半,同时肝癌也成为男性第三大高发癌症,为此,研究中国肝癌患者发病机制尤为必要。2019年10月,中国科学院院士、复旦大学附属中山医院院长樊嘉及合作团队在《细胞》(Cell)杂志上报道了利用多组学大数据整合分析手段获得最大规模的全景式肝癌队列的多组学图谱。该项研究收集了159例乙肝病毒阳性的肝癌和癌旁样本,运用先进的生命组学技术测定了外显子组、转录组、蛋白质组、磷酸化蛋白质组数据,对肝癌患者进行了组学研究,通过对庞大基因和蛋白质数据的大规模扫描,多层次、度地揭示了从基因突变到转录以及蛋白质翻译的整个过程,全面解析了肝癌分子的特征及肝癌发生发展的机制。该项研究不仅揭示了中国肝癌患者突变图谱与国外的不同,还揭示了一个新的发现——超过1/3的肝癌样本含有马兜铃酸引起的“突变特征图谱”。此外,研究人员对患者来源的蛋白质组数据进行了分型,得到3种不同的亚型,为肝癌的临床预后判别以及个性化医疗起到了指导作用。同时,该项研究提示了代谢异常在肝癌发生发展中的重要作用,其中,代谢相关的蛋白质变化是肝癌组织和非肝癌组织最大的差异。
总之,该项研究体现了多组学大数据整合分析的优势,即通过这种方式获取相关疾病的信息更为全面,能够有效弥补单一组学数据的片面性,使人们更加全面地认识肝癌发生发展的过程,为发现潜在的治疗靶点、个性化医疗提供了条件。因此,该研究在中国具有重要的科研及临床意义。
虽然多组学大数据为人类提供了有关健康发展的愿景,但就目前的研究现状来看,仍存在以下几个方面的挑战。
数据收集成本过高。虽然收集各种组学数据的方式在不断地更新,但仍需要降低数据采集及分析的经济成本。例如:目前蛋白质组学以及代谢组学常用的高通量质谱仪仅在大型医院或科研院所可见,不论对科研团队还是医院来说,想要获取某种疾病的大批量数据需要大量经费;对个人健康检测来说,想要获取个人的组学数据则需要支付很高的费用。因此,适当降低数据收集的成本不仅可以加速多组学数据应用于医疗服务之中,还可以为患者减轻支付负担,让精准的医疗服务面向更多的病患群体。
整合多组学大数据困难。从疾病研究来说,多组学大数据整合常用的方法是比较法。例如,研究人员对健康人群和患病人群进行比较时,基本的假设是疾病导致了健康人群和患病人群的差异。然而,这种方法存在一定的问题,对一些复杂的表型而言,差异性不仅源自疾病,还可能源自其他因素,如样本间的差异。虽然研究人员在同一批次的实验中会控制这些因素,但多组学大数据结果通常来源于多批次实验的结果整合。因此,对一个更为庞大的多组学数据库而言,如何整合多组学数据是一个关键性的问题。此外,将不同组学数据的不同格式在统一的信息化平台上进行展现,以及如何关联多组学数据并分析不同组学数据的差异性,仍是目前面临的难点之一。为此,研究人员需要建立全面的多组学大数据整合的方法,建立庞大和多样性的生物样本数据库。
分析方法仍需改进。大规模的组学数据在被收集之后会因各种分析方法的不同而产生不同的分析结果。新的分析方在原有数据上产生更多的发现。因此,获取更多种的分析方法是整合多组学大数据的重要环节。此外,每一种组学数据分析也面临不同的挑战。以大规模蛋白质组学数据分析为例,仅从分析流程上来说,目前就存在文件过大(存储成本高)、缺乏易用的一站式分析平台以及准确鉴定蛋白质种类的方法等问题。因此,不断完善的分析方法是人们建立更为标准的多组学数据库的保障,从而对数据进行精确解读。
以上是多组学大数据整合分析目前面临的困难,也可能是未来若干年人们要持续面对的挑战。从另一个角度来说,解决这些问题不仅能推动多组学基础研究的发展,还会加速多组学技术走向临床应用。总之,多组学技术会在医生的携手推动下,更早地实现多组学数据产业的落地,推动人类健康的发展,创造精准的医学未来。
京ICP备11000850号京公网安备8号信息网络传播视听节目许可证0111611号国家科技基础条件平台
国家科技基础条件平台多组学数据之间的整合不仅为基础研究及临床应用提供可供参考的数据信息,还可以为人们提供更为广阔的视野。>
米乐m6官网登录
上一篇:大数据应用技术就业前景如何?2020中国大数据应用
下一篇:2023年大数据发展现状分析前景预测