扫描隧道显微镜(STM)是制备传统合成方法难以获得的低维碳基材料的关键手段,其可编程自动化操控为实现表面合成过程的自动化提供了可能。然而,实现自动化仍面临一个重要挑战:如何在STM图像中精准识别相似度高、缺乏超结构、呈稀疏分布或多类分子共存的情况。现有机器学习框架,如两阶段Faster R-CNN或单阶段YOLO模型,在体系组分简单、具有超结构等特定场景中表现良好,却难以适用于复杂的STM图像识别。其局限性在于:首先,对于高度相似、景深单一的STM图像反而会造成分类的极大混淆;其次,分子的分布缺乏超结构具有的周期性、准周期性或旋转对称性;可用的图像数据量有限,分辨率不足,构成典型的小样本学习问题。
近期,中国科学院物理研究所/北京凝聚态物理国家研究中心纳米物理与器件重点实验室N11课题组和苏州大学迟力峰院士团队合作,开发设计了一种基于识别框归一化的两阶段分子机器视觉识别框架ReSTOLO。该框架在数据有限、缺乏超结构信息的条件下,成功实现了6类相似分子体系STM图像的精确定位与分类,其单类平均精度和召回率均超过85%(图1),在另外两个分子体系STM图像识别中的表现也进一步验证了其有效性与泛化能力。
ReSTOLO通过将检测分解为定位和分类两个独立阶段,使每个模型能够专注于其特定任务,从而最大限度地发挥YOLO在定位与ResNet-101在分类方面的优势。该设计有效避免了YOLO在执行联合检测和分类时存在的不精确性和冗余计算问题,同时也消除了因输入图像尺寸差异对ResNet-101分类性能带来的干扰。为此,研究团队在YOLO完成初步定位后,引入了检测框归一化处理:基于原始图像和YOLO输出的检测框信息,对框体尺寸进行归一化和调整,保证检测框大小统一,以增强后续分类阶段的准确性与一致性。该策略的实现依赖于以下几个事实依据:多数分子尺寸相近;STM图像整体景深几乎一致,以及实验采集STM图像时的分辨率/放大倍数是已知参数。此外,研究团队还采用了融合物理先验和实验信息的数据增强方法,充分考虑了体系的对称性以及实验条件变化。该方法在有效扩充训练数据、缓解小样本问题的同时,避免了无效冗余信息的引入,进一步提升了模型的识别性能与鲁棒性。
ReSTOLO的提出揭示了现有机器视觉分子识别系统在复杂任务中表现不佳的根本原因,为设计契合表面科学研究特点的专用机器视觉系统提供了重要参考,同时,它作为一个高效的工具,将直接推动分子的自动化检测、现象观察、精准自动合成和性质分析等研究进程。相关成果以“A Two-stage Machine Learning Framework for Accurate Discrimination of Isomers and Very-similar Molecules on Surfaces”为题发表在Journal of the American Chemical Society上,中国科学院物理研究所N11组博士生魏子轩为第一作者,杜世萱研究员、苏州大学迟力峰院士和仲启刚教授为共同通讯作者,该项研究得到了国家自然科学基金、中国科学院和北京自然科学基金的资助。论文信息:https://pubs.acs.org/doi/abs/10.1021/jacs.5c03730

图1. 研究体系、ReSTOLO的两阶段分子图像识别过程及优异的识别性能。YOLO v5.m和ResNet-101分别专注于定位、分类任务,并通过框归一化相互连接,极大减少了检测框的易变性带来的干扰,取得了理想的检测效果。图片来源:J. Am. Chem. Soc.