环球动态:“从0到1”的原始创新？从基于AI神经网络的蛋白质从头设计说起

微信微博 QQ空间 MORE

“从0到1”的原始创新？从基于AI神经网络的蛋白质从头设计说起

2020年底，AlphaFold2在高精度蛋白质结构预测上取得了革命性进展。在这个后AlphaFold时代，大家自然而然地想要解决一个实用的反问题：根据某个功能的结构，设计出相应的、能够折叠成这样结构的蛋白质序列。蛋白质从头设计已经有二十年的历史，长期以来，研究人员是通过设计和改进能量函数来搜索、优化可折叠成指定结构的序列，虽然有相当一部分成功的例子，但是总体来看成功率不高，使得这类蛋白质设计方法无法被广泛地使用(Li et al, 2013，Liang et al, 2022)。AlphaFold2采用AI深度神经网络成功地预测了高精度的蛋白质结构，使基于AI的蛋白质从头设计这个反问题成为一个新热点。现在，几乎每隔一小段时间就有一篇AI蛋白质设计的预印论文出现。

在如此强大的AI深度学习方法出现之前，我们课题组率先想到用神经网络来进行蛋白质设计（Li et al, 2014)。这个“从0到1”的原创工作是我在印第安纳大学的博士生李职秀，与杨跃东（博士后，现为中山大学国家超算广州中心教授）、Eshel Faraggi（博士后）和詹剑（博士后）合作完成的。这个设想起源于我们的一项发现：一个蛋白结构相对应的可能序列谱（sequence profile）与该结构的短片段（short fragment）在蛋白质结构库中相似结构短片段的序列相关。而这个短结构片段所导出的序列谱可以用来改进蛋白质基于模板的预测（Zhou & Zhou, 2005）和蛋白质设计（Dai et al, 2010）。

(资料图)

既然这样的短结构片段导出的序列有用，为什么不直接使用整个结构来预测序列呢？这在当时是一个比较大胆的设想，因为要实现这一设想需要同时预测20个氨基酸的可能性，对训练的要求极高，结果不一定会好，而且容易过度训练。于是，我们设计了一个当时所能做到的、最多只有两层隐藏层的神经网络，把短结构序列谱和DFIRE预测的统计能量作为输入特征，小心地设计训练集和测试集。我们把这一方法称为SPIN（Sequence Profiles by Integrated Neural Network），并用已知结构进行了测试，证明它能够恢复30%原序列的氨基酸类型。而30%的序列相似性往往就足够折叠成同样的结构了，和当时基于能量函数的RosettaDesign方法所能获得的序列相似性一样。

2013年，我来到澳大利亚格里菲斯大学，我们组有幸与格里菲斯大学的机器学习名家Kuldip Paliwal教授组合作，开始利用深度学习（增加到三层隐藏层），并使用了距离和角度作为新特征，改进了SPIN这个方法，实现了34%原序列氨基酸的恢复率（O’Connell et al, 2018）。但是，基于AI神经网络的蛋白质设计，作为一个研究方向，一直是冷冷清清的。从2015到2017年间，我们这篇论文（Li et al, 2014）在谷歌学术上没有任何人引用，到了2018、2019年也仅仅有2-3篇引用，2020年才开始以每年10篇以上的引用量逐渐递增。从这里可以看出，走新路往往是孤独的，而且孤独有可能是持久的。在没有强大的AI深度学习出现之前，这个方向并不被看好，因此没有人有兴趣。在强大的AI深度学习和AlphaFold出现之后，这个方向才开始被追捧。现在，强大超深的神经网络在日新月异地提高原序列氨基酸的恢复率。根据一些预印本文章，目前已经到了40-50%，基本解决蛋白质设计这个问题似乎指日可待。

我们SPIN这个方法的意义和影响，在当时并不能马上看出其前景，因为没有人知道AI深度学习在不久的将来会变得如此强大，所以相关成果也只能发表在低影响因子的专业杂志上（如Proteins《蛋白质》，目前影响因子为3.756）。由此可见，一个原创的设想在刚开始的时候很可能是一只丑小鸭，因为另类而难以被人欣赏，也许需要多年的成长才知道最后会变成什么。正如很多诺贝尔奖的获奖工作，最初也没有能够发在CNS这些杂志上一样。在这个过程中，很有可能得不到同行的认可和基金的资助，我在这个方向并没有获得任何经费资助，完全是凭兴趣，靠其他经费实现的。

现在全国上下都在推动“从0到1”原始创新的基础研究，但是并没有神奇妙法可以判断出哪个是丑小鸭，哪个是假天鹅。如果可以判断，那一定是因为已经可以初步看出天鹅的样子了，也就是说不是“从0到1”（从无到有），而很可能是“从1到N”（从有一点点像到更像天鹅）的基础研究。因为可行性（有苗头）是一个申请经费的标准，所以大多数项目的基金实质上都在资助从1到N的研究。

那应该怎样来促进从0到1的基础研究呢？我认为可以从四个方面着手：

1）像天使轮投融资一样，广种薄收，强调新颖性和多样性。新方法即使没有目前最好的方法好，但谁能知道新生儿未来的发展呢？只要多生多养，其中一定会有奇才能将的。

2）放宽项目经费的管理。允许20%的经费用在研究者感兴趣的其它项目，容许去试错。研究经费在国外常常被称为Grant（赠予），而在国内多数是需要满足条条框框的Contract（合同)。条条框框减少竞争，限制创新。有远见的公司（例如Google）允许每个人一周有一天做自己想做的事情，而不是做公司的项目。需要赢利的私人企业都能让员工去自由发挥，体制内主导的科研项目是不是可以做得更好？

3）支持敢于试错的、有原创能力的人，而不是具体的科研项目。现在国内各级政府的人才项目还真不少，但是国家级的人才项目的成功率太低，僧多粥少，并且常常一人多帽，集中在少数、同一批人的手里，资源越集中，创新会越少，原创需要许多人从不同角度去尝试！

4）原创评审应该从新颖性和多样性出发。怎样判断一个人的过去和未来的原创能力，是一个亟需解决的大问题。从上述故事以及过往诸多原创突破性工作例子可以看出，在高影响因子的CNS上发表文章不是一个判断“从0到1”原创的好标准。应该让评判方法从方法新颖性和多样性出发，让更多的、真正做原创的、不同类型的研究人才有更多的机会去做他们想做的事情。

最后，如果你希望想别人没有想过的，做别人没有做过的事，探索具有原创的基础研究和应用前沿，我们组张开双臂欢迎你！无论是分子生物、细胞生物、软件、硬件、AI生物计算还是化学合成方向，我们需要博士后、助理研究员、和副研究员的各级优秀人才，关于我们在深圳湾实验室的交叉学科团队，详细可见http://zhouyq-lab.szbl.ac.cn。

【感谢】感谢密苏里大学许东教授、昆士兰科技大学李职秀研究员、中山大学杨跃东教授的阅读和建议。

关键词：神经网络蛋白质设计基础研究

责任编辑：zN_0657

环球观点：浦银安盛基金蒋佳良：聚焦新能源、消费、科技、医药、制造升级五大核心赛道
蒋佳良称，2023年投资曙光已现，市场表现或好于去年。未来将重点聚焦新能源、消费、科技、医药、制造升级五大核心赛道。
前沿资讯!香港交易所与沙特证交所签订合作协议
香港交易所宣布与沙特证交所集团签署合作备忘录，探讨在多个领域展开合作，以推动双方金融市场互惠互利。
世界短讯！【环球财经】东京股市6日继续上扬日经指数涨0.67%
东京股市两大股指6日继续上扬。日经225种股票平均价格指数收盘上涨0 67%，东京证券交易所股票价格指数上涨0 45%。
同济大学教授黄运成：2022年新增市值30亿元以下上市公司175家，数量呈阶梯式增长，助推经济提质增效
同济大学教授黄运成表示，2022年制造业上市公司数量有了较大增长，在质量上向智能制造、绿色制造等先进方向升级取得了一定成绩。
午评：两市震荡回调创指跌近2% 权重萎靡ChatGPT概念继续热炒
截至午间收盘，沪指报3230 52点，跌1 01%，成交额2245 2亿元；深成指报11863 18点，跌1 59%，成交额3443 1亿元；创业板指报2529 54点，跌1 96%