新的深度学习方法从氨基酸序列预测蛋白质结构

作者:admin 来源:未知 点击数: 发布时间:2019年06月15日

  生命所必需的几乎所有根基生物过程都是由卵白质完成的。它们缔造并连结细胞和组织的外形;形成催化维持生命的化学反映的酶;充任分子工场,运输东西和电机;用作蜂窝通信的信号和领受器;以及更多。

  卵白质由长链氨基酸构成,通过将本身折叠成切确的3D布局来节制它们与其他分子的彼此感化,从而完成这些无数的使命。因为卵白质的外形决定了它的功能及其在疾病中的功能妨碍程度,因而阐明卵白质布局的勤奋是所有分子生物学的焦点 - 出格是医治科学以及解救生命和改变生命的药物的成长。

  近年来,计较方式在基于其氨基酸序列的学问预测卵白质若何折叠方面取得了严重进展。若是完全实现,这些方式有可能改变生物医学研究的几乎所无方面。然而,目前的方式在能够确定的卵白质的规模和范畴方面遭到限制。

  此刻,哈佛医学院的一位科学家利用了一种称为深度进修的人工智能来预测基于其氨基酸序列的任何卵白质的三维布局。

  系统生物学家Mohammed AlQuraishi于4月17日在Cell Systems上在线报道,细致引见了一种计较确定卵白质布局的新方式 - 实现与当前最先辈方式相当的切确度,但速度提高了一百万倍。

  “在过去的半个世纪里,卵白质折叠不断是生物化学家最主要的问题之一,这种方式代表了应对这一挑战的一种全新体例,”AlQuraishi说,他是HMS Blavatnik研究所系统生物学讲师,同时也是系统药理学尝试室。“我们此刻有一个全新的近景来摸索卵白质折叠,我想我们方才起头划伤概况。”

  虽然很是成功,但利用物理东西识别卵白质布局的过程既高贵又耗时,即便利用低温电子显微镜等现代手艺也是如斯。因而,绝大大都卵白质布局 - 以及惹起疾病的突变对这些布局的影响 - 仍然在很大程度上是未知的。

  计较卵白质折叠体例的计较方式有可能光鲜明显降低确定布局所需的成本和时间。可是,颠末近四十年的严重勤奋,这个问题很难处理。

  卵白质由20种分歧氨基酸的文库建立。这些行为像字母表中的字母,组合成单词,句子和段落,以发生天文数字的可能文本。然而,与字母分歧,氨基酸是位于3D空间中的物理对象。凡是,卵白质的部门将在物理上接近,但在序列方面间隔很远,由于其氨基酸链构成环,螺旋,片和扭曲。

  “这个问题惹人瞩目的是它很容易陈述:采纳一个序列并找出外形,”AlQuraishi说。“一种卵白质发源于一种非布局化的细胞系,必需具有三维外形,一根细绳能够折叠成可能外形的外形是庞大的。很多卵白质长达数千个氨基酸,而且复杂性很快跨越了人类直觉以至是最强大的计较机。“

  为了应对这一挑战,科学家操纵氨基酸按照物理定律彼此感化的现实,寻找能量有益的形态,如滚球下坡到山谷底部。

  最先辈的算法通过在超等计较机上运转来计较卵白质布局 - 或者在Rosetta @ Home和Folding @ Home等项目中操纵众包计较能力来模仿氨基酸彼此感化的复杂物理通过蛮力。为了削减大量的计较需求,这些项目依赖于将新序列映照到预定义的模板上,这些模板是先前通过尝试确定的卵白质布局。

  其他项目,如谷歌的AlphaFold,通过操纵人工智能的前进来预测卵白质的布局,比来发生了庞大的兴奋。为此,这些方式解析了大量的基因组数据,此中包含卵白质序列的蓝图。他们寻找可能一路进化的很多物种的序列,利用如许的序列作为与指点布局组件慎密物理接近的指示物。

  然而,这些AI方式不克不及仅基于卵白质的氨基酸序列预测布局。因而,它们对于没有先验学问的卵白质,进化奇特卵白质某人类设想的新卵白质具有无限的功能。

  为了开辟新方式,AlQuraishi使用了所谓的端到端可微分深度进修。人工智能的这一分支极大地降低领会决图像和语音识别等问题所需的计较能力和时间,从而实现了Apple的Siri和Google Translate等使用法式。

  素质上,可微分进修涉及单一的,庞大的数学函数 - 高中微积分方程的更复杂版本 - 被放置为神经收集,收集的每个构成部门向前和向后馈送消息。

  该功能能够在不可思议的复杂程度上频频调整和调整本身,以便“切确地”进修卵白质序列在数学上与其布局的关系。

  AlQuraishi开辟了一种深度进修模子,称为复发几何收集,偏重于卵白质折叠的环节特征。但在它能够进行新的预测之前,必需利用先前确定的序列和布局进行锻炼。

  对于每种氨基酸,该模子预测将氨基酸与其邻人毗连的化学键的最可能角度。它还预测环绕这些键的扭转角度,这会影响卵白质的任何局部区域与整个布局的几何干系。

  这是反复进行的,每次计较都通过每个其他氨基酸的相对位置进行通知和改良。一旦整个布局完成,模子通过将其与卵白质的“根本现实”布局进行比力来查抄其预测的精确性。

  对于数千种已知卵白质,反复整个过程,模子进修并在每次迭代时提高其精确性。

  一旦他的模子被锻炼,AlQuraishi测试了它的预测能力。他将其机能与比来几年卵白质布局预测的环节评估中的其他方式进行了比力 - 这是一项年度尝试,测试计较方式能否可以或许利用曾经确定但未公开辟布的卵白质布局进行预测。

  他发觉新模子在预测卵白质布局方面优于所有其他方式,此中没有事后具有的模板,包罗利用配合进化数据的方式。当事后具有的模板可用于进行预测时,它也优于除最佳方式之外的所无方法。

  虽然这些精确度的提高相对较小,但AlQuraishi指出,这些测试最高端的任何改良都难以实现。而且由于这种方式代表了一种全新的卵白质折叠方式,它能够弥补现有的计较和物理方式,以确定比以前更普遍的布局。

  惹人瞩目的是,新模子的预测速度比现有的计较方式快6到7个数量级。锻炼模子可能需要数月,但一旦锻炼,它能够在几毫秒内进行预测,与利用其他方式所破费的时间比拟。这种光鲜明显的改良部门是因为它所基于的单一数学函数,只需要几千行计较机代码而不是数百万。

  AlQuraishi说,这种模子预测的快速速度使得以前迟缓或难以实现的新使用成为可能,例如预测卵白质在与其他分子彼此感化时若何改变其外形。

  “深度进修方式,不只仅是我的方式,将继续加强其预测能力和普及性,由于它们代表了一种简单,简单的典范,能够比现有的复杂模子更容易地整合新思惟,”他弥补道。

  AlQuraishi说,新模子还没有当即用于药物发觉或设想,由于它的精确度目前大约在6埃摆布 - 距离处理完整原子布局所需的1到2埃还有一段距离。一种卵白质。但他说,有良多机遇能够优化这种方式,包罗进一步整合化学和物理学的法则。

  “精确无效地预测卵白质折叠不断是该范畴的圣杯,我但愿并期望这种方式与已开辟的所有其他杰出方式相连系,可以或许在不久的未来实现这一方针, “AlQuraishi说。“我们很快就能够处理这个问题,并且我认为五年前没有人会这么说。这长短常令人兴奋的,同时也是令人惊讶的。”

  为了协助其他人参与方式开辟,AlQuraishi通过GitHub软件共享平台免费供给他的软件和成果。

  “AlQuraishi工作的一个光鲜明显特点是,嵌入哈佛医学院和波士顿生物医学界丰硕的研究生态系统的单一研究人员能够与谷歌等公司在计较机科学最抢手的范畴合作,”彼得说。 Sorger,HMS Otto Krayer HMS Blavatnik研究所系统药理学传授,HMS系统药理学尝试室主任和AlQuraishi的学术导师。

  “低估像AlQuraishi如许的优良研究员在公共范畴利用开源软件的粉碎性影响是不明智的,”Sorger说。

(编辑:admin)
http://tocotrim.com/dbz/637/