随着蛋白质组学的飞速发展,其在生命科学和生物医药领域的重要作用和应用前景已经日益明晰。由此产生出的海量蛋白质组数据为蛋白质组解析和分析提出了更高的要求。然而,当今领域内蛋白质组产出大数据的实时、全面分析和知识挖掘能力成为了制约蛋白质组技术应用的瓶颈。遗憾的是,目前尚无平台能够完成从质谱原始文件收集、数据处理、生物信息学分析、知识挖掘的一站式综合分析。5月9日,国家蛋白质科学中心(北京)秦钧教授课题组、华东师范大学石铁流教授课题组、复旦大学丁琛教授课题组联合在Nature Biotechnology杂志上发表了题为“Firmiana: towards a one-stop proteomic cloud platform for data processing and analysis”的文章,建立国际首个一站式蛋白质组数据分析云系统Firmiana(梧桐树),大大方便了无生物信息学基础的科研人员也可以无障碍的使用。
Firmiana支持包括来自Thermo,AB Sciex,Agilent等不同厂商的质谱原始数据格式,整合了多种现有的蛋白质组学分析工具(ProteoWizard,Mascot,X!Tandem,InterProphet等等),开发了多种定量和质量控制算法,并提供了多种生物信息学分析(聚类分析,差异蛋白分析,通路富集分析等)以及数据挖掘功能。为了验证Firmiana平台数据处理的能力,研究人员测试了1.5TB(约2000个原始文件)的数据集,进行了全局质量控制并在短内完成处理。Firmiana平台所提供的数十种在线的生物信息学工具有很好的兼容性、持续可开发性和易用性,无生物信息学基础的科研人员也可以无障碍的使用。截止到2017年5月10日,Firmiana已存储并处理了来自十一个物种的3282份实验的数据。
为了进一步提升Firmiana的数据存储、数据处理、知识挖掘能力,在目前推出的Firmiana 1.0版本基础上,研究人员正将Firmiana移植到超算系统上(Firmiana 1.5)。经测试,在超算系统上运行的Frmiana可提升两百倍的分析速度。科研人员分别在北京和上海的超算上建立了主站和镜像备份系统,确保数据的安全和高效分析。
据悉,秦钧教授,石铁流教授,丁琛教授为本文的通讯作者。博士生冯晋文、裘乃麒、倪晓天、占冬冬为本文共同第一作者。