当下的我们,无疑都享受着科技的福利,感受着科技的魅力,陶醉其中……生活在科技时代的幸福指数不言而喻。
然而,科技是把双刃剑,用好了,推动的是社会进步,用不好,刺伤的便是人类自己。
近年来,就有这样一伙不法分子,滥用科技推动毒品的升级换代。被联合国禁毒署定性为“新精神活性物质”(NPS, New psychoactive substances)的第三代毒品就大量的出现在非法市场上,其化学物质多样性、高蔓延性、互联网化等特征,给禁毒工作带来了极大的冲击和困难。
那么,随着机器学习(ML, Machine Learning)的不断发展,对这项重任而言,能否助其一臂之力呢?
就在近日,Nature 旗下的专业学术期刊 Nature Machine Intelligence 发表了一项计算生物学的重要突破,论文标题为“A deep generative model enables automated structure elucidation of novel psychoactive substances”。主要团队是加拿大英属哥伦比亚大学(UBC, University of British Columbia)的一个小组。
在这项成果中,研究团队研发了一种自动化、生成式的 ML 方法,实现了仅利用质谱就确定未知的 NPS 的化学结构。
人类的公共卫生事业,有望迎来新的得力助手。
阻止 NPS 进入“灰色市场”已迫在眉睫今年早些时候,欧盟刑事司法合作署(Eurojust)发布了一份报告,讨论了“人造毒品”生产的急剧增长,给欧洲各地的检察官所带来的法律挑战。
报告列举了仅由该机构处理的 562 起跨境毒品贩运案件,强调了合成和其他设计毒品便占了近三分之一。
在 COVID-19 的大流行期间,这一现象更是有所增加。比如,美国因非法麻醉药过量致死的人数增加了 6 倍。
因此,世界各地的执法部门都在探索一些具备前瞻性的方案,必须在这些药物上市之前就有所准备。
NPS 又称为策划药或实验室毒品,通常是在现有毒品的化学结构上稍加修改而产生的,是不法分子为逃避打击和规避监管而对管制毒品进行化学结构修饰而得到的毒品类似物,具有与管制毒品相似或更强的兴奋、致幻、麻醉等效果,诸如合成大麻素(“香料”)、合成卡西酮(“浴盐”)、迷幻色胺和苯乙胺、合成阿片类药物等。
最可怕的是,NPS 是个十足的“伪装者”,给人一种无害的假象,在传播过程中往往被“包装”成无害、无成瘾性,目的是打消接触者的警惕,尤其是针对充满好奇心的青少年群体。
因此,NPS 不仅对个人的神经系统的损害特别大,还会造成严重的社会问题和公共卫生问题。
显然,采取必要措施识别、监管、阻断已刻不容缓。
图丨此次研究的高可信度结构解析
UBC 的研究人员训练计算机在下一种设计药物上市前就对其进行预测,以最大限度挽救生命。执法机构也在冲破重重阻碍,竞相识别和监管危险精神活性药物的新版本。
从被查封的药片或粉末中确定这些所谓的“合法兴奋剂”可能需要几个月的时间,然而在此期间,成千上万的人可能已经使用了一种新的特制药物,所以,其危害之大可想而知。
Skinnider 表示,“这是全世界急诊部门关注的一个主要公共健康问题” 。由于毒品制造者不断琢磨出新的物质,而且难以监管到,新毒品大约以每周一种的速度进入“灰色市场”。
好在新的研究已帮助世界各地的执法机构有效的缩短了鉴定时间,这对鉴定和监管 NPS 至关重要。
一批科学家将目光聚焦到了 AI 身上。
图丨新型精神活性物质的深度生成模型
在这篇论文中,UBC 研究团队研发了一种名为 DarkNPS 的工具,这是一款支持深度学习的系统。通过 AI 工具进行简单的分析,以快速提取 NPS 中化学结构的可能分子结构。
该工具可以完成两件事。其一,预测不久的将来,可能出现在非法市场上的未知的新型毒品的化学结构;其二,使用质谱技术,阐明刚出现在非法市场上的新型毒品的完整化学结构。
Skinnider 和同事使用世界各地法医实验室众包的保密数据,以训练 ML 模型,产生结构和性质类似于近期人造毒品的分子,其灵感源自人类大脑的结构和功能。
其中,训练集包括每种药物的串联质谱结果,即翻译并分析部门重组蛋白数据,可以获得有关分子质量以及包含元素的信息。显然,AI 便能够识别出串联质谱数据和化学结构间的模式信息。
随后,该模型产生了一个包含十亿种潜在新型精神药物的结构数据库。
然后,这些分子与 196 种新的设计药物进行测试,这些药物是在模型经过训练后出现在非法市场上的。研究人员发现,在生成的样本中,有超过 90% 的样本真实存在。
最后研究团队得出结论,利用模型训练结束后新收集的数据测试该模型发现,该方法可以仅用质谱就确定未知人造毒品。此外,在准确结构难以精确确定的实例中,该模型所建议的结构,与未知的人造毒品非常相似。
正如主要研究者之一的 Skinnider 所表示的,“借助 AI 技术,我们的方法可以把识别新设计的毒品所需的时间从数周或数月,缩减到数小时,帮助法医实验室更快地识别新人造毒品,以帮助挽救生命。”
现在,还有一个问题:这个模型能否从零开始识别完全未知的物质,而不是根据一组数据进行预测?
Leonard Foster 博士表示:“我们想知道,是否可以利用这种可能性来确定一种未知的药物是什么,仅仅基于它的质量——化学家很容易用质谱法来测量任何药片或粉末。”
因此,研究人员利用 196 种新型合成药物的数据集来验证这一假设。
仅使用质量,该模型就能以 72% 的准确率列出了十大最受欢迎药物的化学结构。给定一种先前未知的 NPS 的串联质谱数据,DarkNPS 可以猜测其分子结构,准确率约为 51%,如果 AI 能够对其分子结构的前 10 项进行预测,那么,准确率会提升至 86%!可以说,该模型能够预测几乎所有新发现的药物。
除此之外,研究人员发现,该模型还可以了解到哪些毒品更可能出现在市场上,哪些则不太可能出现。
Skinnider 表示,“该模型如此出色的表现着实令我们为之震惊。因为仅通过精确的质量测量来阐明整个化学结构,往常被认为是一个遥不可及的问题。将数十亿个结构的列表缩小到 10 个候选结构,可以大大加快化学家识别新设计药物的速度。”
资深研究者、阿尔伯塔大学计算科学教授 David Wishart 博士表示,“事实上,我们可以在设计毒品真正出现之前就预测它们可能会出现在市场上,这有点类似于 2002 年的科幻电影《少数派报告》(Minority Report)。在该影片中,正是因为对即将发生的犯罪活动的预见,从而帮助显著减少了未来世界的犯罪。”
他还说道,“从本质上讲,这一研究成果让执法机构和公共卫生项目对秘密化学家提供了一个所谓的‘先机’,让他们知道应该注意什么。”
同样让人兴奋的是,虽然这一次该技术被用于鉴定药物,但它完全可以扩展到其他分子结构的研究。
据 Skinnider 表示,用其他数据集训练的类似生成方法,也可以帮助识别其他特定领域未知分子的结构,例如识别新型兴奋剂或者环境污染物等。
并且,他总结道:“现在,存在着一个化学‘暗物质’的世界,就存在于我们的指尖之外……我认为,正确的 AI 工具埋藏着巨大的潜力,以照亮这个未知的化学世界。”
参考资料: Nature Machine Intelligence