近日,国内AI场景应用再次取得重要成果。来自同济大学生物信息系的刘琦教授课题组与微众银行杨强教授AI团队合作,首次通过联邦学习来进行本地药物隐私数据的保障以及模拟多个制药机构(用户)之间的药物协同开发,助力制药机构在保障自身药物数据隐私安全的前提下进行协同药物发现。
该成果已发表在生物信息学领域著名期刊《Bioinformatics》上,题为《FL-QSAR: a federated learning based QSAR prototype for collaborative drug discovery》。该项目首次探索了应用联邦学习进行协同药物开发的可行性,并提出了一种基于联邦学习的协同药物定量构效原型系统FL-QSAR。
联邦学习是近年提出的一种新的合法连接数据孤岛进行数据共享计算的协作范式。全球范围内,由谷歌和杨强教授团队分别在to C和to B场景率先提出。相比于传统数据加密共享方法,联邦学习基于数据“可用不可见”的理念,通过聚合所有用户的加密模型参数,在数据不出本地的情况下进行模型协同训练,能够更好地面对数据共享领域出现的新的问题和法律法规约束。
联邦学习在金融等领域已获得广泛关注,但是在药物研发及生物计算领域尚未有所应用,制药领域对于数据不出本地进行共享普遍有着强烈需求,迫切需要探索联邦学习在该领域的应用。本次微众银行AI团队和同济大学的合作项目,是联邦学习在药物研发领域首次应用探索。
同济大学与微众银行AI团队在这项产学研协同中,尝试解决传统药物领域的“顽疾”——即不同的制药机构之间可以通过数据共享来提高QSAR建模预测的准确率,然而该领域的知识产权和相关的经济利益不利于制药机构之间进行数据的直接共享和合作。通过在药物小分子领域探索使用联邦学习范式进行药物协同开发的可行性,结合微众银行的联邦学习开源平台FATE, FL-QSAR可以在保护药物小分子结构隐私的前提条件下,获得与直接整合多用户小分子数据进行QSAR建模相同或者类似的模型预测效果。
这是一种有效的药物协同发现的解决方案,打破了传统QSAR建模时不同制药机构之间的数据无法直接共享的壁垒,有助于在隐私保护的前提条件下进行协同药物发现,并适合于推广和应用到生物医学隐私计算的其他相关领域。
联邦学习技术目前正逐步成为解决数据孤岛和数据隐私保护问题的有效方案,在生物健康及药物研发领域也将具备广泛的应用场景。该研究成果同时也得到国家重大研究与发展计划、国家自然科学基金项目、上海市自然科学基金项目、上海市人工智能标准专项项目等基金的资助。
从全球来看,AI产业化进入深水区,近日谷歌AI团队DeepMind所研究的AlphaFold算法在生物学领域也取得了重要突破,在此算法下,可通过蛋白质的氨基酸序列高精度地确定其3D结构。AI与生物医学的密切结合将推进人类健康事业的发展与探索进入新的阶段,多位业界专家纷纷表态,称“AI将改变生物学”,而联邦学习等新技术的加入将从隐私保护等伦理道德层面为探索之路保驾护航。