• SMILES (用ASCII字符串明确描述分子结构的规范)


    SMILES(Simplified molecular input line entry specification),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILES由Arthur Weininger和David Weininger于20世纪80年代晚期开发,并由其他人,尤其是日光化学信息系统有限公司(Daylight Chemical Information Systems Inc.),修改和扩展。

    由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。
    SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。转换成二维图形可以使用Helson的“结构图生成算法”(Structure Diagram Generation algorithms)。

    典范SMILES

    编辑
    典范SMILES保证每个化学分子只有一个SMILES表达式。典范SMILES常用于分子数据库的索引。
    记法:
    1.原子用在方括号内的化学元素符号表示。
    例如[Au]表示“金”,氢氧根离子是[OH-]。
    有机物中的CNOPSBrClI等原子可以省略方括号,其他元素必须包括在方括号之内。
    2.氢原子常被省略。
    对于省略了方括号的原子,用原子补足价数。
    例如,的SMILES就是O,乙醇是CCO
    3.双键用“=”表示;三键用“#”表示。
    含有双键的二氧化碳则表示为O=C=O,含有三键的氰化氢表示为C#N
    4.如果结构中有环,则要打开。断开处的两个原子用同一个数字标记,表示原子间有键相连。
    环己烷(C6H12)表示为C1CCCCC1。需要注意,标志应该是数字(在此例中为1)而不是“C1”这个组合。扩展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1)。
    5.芳环中的COSN原子分别用小写字母c,o,s,n表示。
    6.碳链上的分支用圆括号表示。
    比如丙酸表示为CCC(=O)OFC(F)F或者C(F)(F)F表示三氟甲烷

    异构SMILES

    编辑
    异构SMILES是指扩展的,可以表示同位素手性和双键结构的SMILES版本。它的一个显著特征是可以精确地说明局部手性。
    双键两侧的结构分别用符号/表示,例如,F/C=C/F表示反二氟乙烯,它的两个氟原子位于双键的两侧。
    F/C=CF表示顺二氟乙烯,它的两个氟原子位于双键的同一侧。

    发展

    SMARTS是SMILES基础之上的改进版。SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。这种搜索的机理是先通过输入的SMILES式重构化学式,再搜索子图的同形;而不是直接通过SMILES式的对比完成的。

    其他记法及比较

    其他著名的线性记法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近国际纯粹与应用化学联合会推荐国际化合物标识(InChI)作为标准的分子式表达式。
    然而普遍认为,SMILES与InChI相比更具有可读性;而且很多软件都支持SMILES,其中不少软件都具有图论等方面的理论基础。
     
     

    欢迎各位同学学习

    python机器学习生物信息学,博主录制,2k超清
    腾讯课堂报名入口

    网易云课堂报名入口

    (腾讯课堂新营业,报名可领取20元优惠券)

    (原创课程,版权所有,项目合作QQ:231469242,微信公众号:pythonEducation)

    作者Toby:持牌照消费金融模型专家,曾任职国内最大医药数据中心数据,和重庆儿科医院,中科院教授保持慢病数据挖掘项目合作!管理过欧美日中印巴西等国外药典数据库,马丁代尔数据库,FDA溶解度数据库,临床试验数据库,WHO药物预警等数据库。

  • 相关阅读:
    docker 容器简单使用
    C++ | 程序编译连接原理
    C++ | 虚拟地址空间
    python学习笔记(十)——进程间通信
    菜鸟教程-c
    现代操作系统-第三版-疑问
    小米C++面经
    面经积累-杂
    哈希表相关题目-leetcode简单
    字符串相关题目-leetcode简单(6-10/共51道)
  • 原文地址:https://www.cnblogs.com/webRobot/p/14154266.html
Copyright © 2020-2023  润新知