定量结构活性关系
定量结构活性关系(quantitativestructure-activityrelationship,QSAR)研究是化学计量学中的一个重要分支,是应用最为广泛的药物设计方法,旨在通过合理的数理统计方法建立起一系列化合物的生理活性或某种性质(如药物的毒性、药效学性质、药物代谢动力学参数与生物利用度等)与其理化性质参数或者结构参数(包括二维分子结构参数、三维分子结构参数等)之间的定量关系。然后通过这些定量关系猜测化合物的相应特性,指导设计者有目的性地对生理活性物质进行结构改造,从而大大缩短高性能化合物的研发周期,节约研发成本。
定量构效关系是在传统结构关系的基础上,结合物理化学中常用的经验方程数学方法出现的,其理论历史可以追溯到1868年Crum-Brown和Fraser提出的Crum-Brown方程。该方程认为化合物的生理活性可以用化学结构的函数来表示,但是并没有建立明确的函数模型。1900年前后,Overton和Meyer等提出了麻醉作用的类脂学说,即化学结构各异的麻醉剂其活性随着脂-水分配系数增加而增加的现象,这可能是最早提出的化合物生理活性和物理化学性质之间的定量分配关系模型。但是,最早可以实施的定量构效关系方法是Hansch等人在哈密顿方程(Hammetfunction,计算取代苯甲酸解离常数的经验方程)以及改进的塔夫托方程(Taftequation,计算脂肪族酯类化合物水解反应速度常数的经验方程)的基础上于1962年提出的Hansch方程。随着之后计算机技术的发展和多变量解析技术的引入,定量构效关系研究迅速发展起来。目前,它已经在药物化学、生物化学、环境化学以及化学生物等众多领域得到了广泛的应用。尤其是在药物化学领域,二维定量构效关系的出现,使人们对构效关系的认识从传统的定性水平上升到定量水平。在Hansch方法的指导下,人们成功地设计了诺氟沙星等喹诺酮类抗菌药。而近年来化学计量学在其理论与方法学方面的发展,又将定量构效关系带入了更高水平的研究阶段1。
计算和选择分子结构描述计算和选择分子结构描述符是定量构效关系研究的重要组成部分。近年来,随着计算机硬件及软件的高速发展,我们已经很容易通过计算机辅助分子设计(computer-aidedmoleculardesign,CAMD)软件得到化合物的分子结构描述符,例如结构和统计分析的全面描述符(comprehensivedescriptorsforstructuralandstatisticalanalysis,CODESSA),MaterialStudio,Cerius2软件等等,均能在短时间内提供大量的关于分子电性的、立体的、拓扑的、几何的、理化性质的等较为全面的参数。尽管我们能轻松获得众多的分子结构描述符,但并不是所有的描述变量都能提供与化合物的活性相关的信息。当描述变量包含了相同或者是类似的信息时,将可能引起变量的共线性问题。多余的变量(无信息变量和高相关性变量)将严重影响QSAR模型的预测能力。变量选择可以在一定程度上解决以上问题。依据变量选择的标准,化学计量学的许多传统算法可用于QSAR的变量选择。但近年来,QSAR的变量选择中备受关注的还是众多新发展起来的优化算法,例如:逐步回归(stepwiseregression),广义模拟退火(generalizedsimulatedannealing),遗传算法(geneticalgorithms,GAs)[56-60],进化算法(evolutionaryalgorithms,EAs),粒子群优化算法(particleswarmoptimization,PSO)及蚁群算法(antcolonyoptimization,ACO)等。其中,GAs,EAs,PSO和ACO是模拟生物体系的优化算法。这些不同的优化搜索算法与不同的回归算法相结合可用来解决各种变量选择问题。依据分子描述符与已知的化合物活性建立合理、适用的回归预测模型是QSAR研究的另一重点。QSAR的回归建模方法主要包括线性建模与非线性建模两大类。其中多元线性回归(multiplelinearregression,MLR)和偏最小二乘回归(partialleastsquaresregression,PLSR)是普遍采用的两种线性回归方法。因为化合物的活性高低是由多种因素促成的,很多情况下,各种因素又相互作用,使得分子结构与活性之间的相关关系在简单线性描述时达不到理想的效果。因此,很多非线性算法也被用于QSAR研究。典型的非线性算法应属人工神经网络(artificialneuralnetwork,ANN)。ANN因为具有很强的非线性拟合能力而在很多领域备受青睐。但ANN的局限性在于极其容易陷入过拟合以及局部最优,在某种程度上限制了它的实际使用。支持向量机(SVM)[12,13]是继模式识别和神经网络研究之后机器学习领域的研究新热点2。由于该方法既能用于解决线性问题,也能用于解决非线性问题,且具有较好的推广能力,能够有效的避免ANN常出现的过拟合、局部最优现象。近年来SVM引起了化学计量学家的注意并广泛应用于QSAR研究中。相对于ANN和SVM,分类与回归树(classficationandregressiontrees,CARTs)所建模型更易被理解和接受。该方法同样也被广泛用于QSAR研究。各种回归建模方法在QSAR领域的研究和应用在丰富QSAR的基础理论体系的同时,也极大地提高了QSAR研究在各个领域中的应用价值。