下载此文档

附件化学计量学指导原则草案公示稿(第一次).pdf


文档分类:论文 | 页数:约33页 举报非法文档有奖
1/33
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/33 下载此文档
文档列表 文档介绍
该【附件化学计量学指导原则草案公示稿(第一次) 】是由【fwang2】上传分享,文档一共【33】页,该文档可以免费在线阅读,需要了解更多关于【附件化学计量学指导原则草案公示稿(第一次) 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..2023年12月附件:化学计量学指导原则草案公示稿(第一次)1化学计量学指导原则2化学计量学是一门化学分支的交叉学科,它应用数学和统计学方法并借助3计算机技术,设计和选择最优的测量方法和实验,通过解释分析数据,以最优4的方式获取关于物质系统的有关信息。化学计量学方法具有通用性,已广泛应5用于药物研发、药品质量控制、药品打假、中药材产地和属性的识别等领域。6本指导原则介绍化学计量学方法在数据处理和分析中的应用,简化了化学计量7学方法的原理与算法,着重阐述化学计量学方法的选择和使用;同时提供了化8学计量学方法模型全生命周期管理的基本原则及关键内容。9化学计量学基于多变量数据对研究对象进行表征,建立数学模型,通过模10型参数理解研究对象的特征,实现复杂信号的分辨、类属的判别以及定量信息11的校正等,进而完成表征、鉴别或定量等分析任务。12化学计量学方法与传统数据分析方法的显著区别在于“多变量分析”。当传13统数据分析方法不适用时,可尝试采用化学计量学方法获得解决方案。多变量14数据X一般是指同时利用多个样品的多个测量属性或变量的数据,用m×n的数15据表或矩阵表示(m是样品数,n是每个样品测量数据的变量数),如X是m16个样品在n个波长(或波数)的近红外光谱数据。样品的性质参数(组分的含17量、类别等)一般用向量表示,把某一性质按照样品的顺序排列,形成一个向18量或m×1的矩阵y。化学计量学利用数学和统计学方法对X进行分析,或者建19立y与X之间的定量关系,实现定性或定量分析。20化学计量学定性分析是通过多个变量的数学变换和统计分析得到样本的类21别和特征,或者建立判别模型进行类别的判断和鉴别。化学计量学定性分析方22法分为无监督方法和有监督方法。无监督方法在处理数据时无需样本性质参数23y,通过多变量数据X来衡量样本间的相似性从而对各样本进行类别划分,得到24样品的类别信息和每类样本的特征信息。常用的无监督方法为聚类分析方法,25如系统聚类法、k-均值算法等,能够识别不同样本之间的共性及差异,可应用26于药物发现、质量控制等。有监督方法是利用一组已知样品性质信息的样本,1/330001:..2023年12月27建立多变量数据X和样本性质参数y之间的模型,最后将未知样品的多变量数28据代入所建模型实现判别。常用的有监督方法为判别分析方法,如线性判别分29析(LDA)、偏最小二乘-判别分析(PLS-DA)、支持向量机(SVM)等,可30应用于产品的类别判定,如质量筛查、假药识别等。31化学计量学定量分析采用多元校正方法,同时使用多变量数据X中的多个32自变量建立与性质参数y之间的数学关系,通过不同自变量以线性或非线性形33式的组合实现对未知样品性质参数y的预测。化学计量学定量分析方法均为有34监督方法,常用的多元校正方法包括多元线性回归(MLR)、偏最小二乘回归35(PLSR)、支持向量回归(SVR)、人工神经网络(ANN)、深度学****DL)36等,可应用于日常检验或过程分析技术中特定组分含量的快速预测,如药物活37性成分、水分含量等。38无论是化学计量学定性分析方法还是定量分析方法,模型的建立与使用都39需要遵照一定的流程和规范,即进行模型全生命周期管理,包括数据质量保证、40建模方法、模型评估与验证、日常使用中的模型监控等。2/330002:..2023年12月41一、化学计量学方法421数据预处理技术43原始测量数据往往包含噪声、背景等与样品性质无关的信息。采用数据预44处理技术可有效地滤除噪声、扣除背景、校正光谱基线等,消除干扰并增强数45据与样品性质的相关性。常用的数据处理技术包括尺度调整、平滑滤噪、背景46扣除、散射校正、变量选择等。47尺度调整48包括中心化、标准化、归一化等三种基本方法。在建立模型时,通常采用49中心化增加样品光谱之间的差异,从而提高模型的预测能力(灵敏度);采用50标准化处理差异较大甚至具有不同量纲的数据,使自变量之间具有相同的权重;51采用归一化消除变量之间的相对大小对后续分析带来的影响,如向量归一化、52面积归一化、最大归一化、平均归一化等。尺度调整会损失一定程度的某些信53息,如中心化会损失信号强度信息,标准化会损失部分差异信息。54平滑滤噪55平滑是指去除信号中无规律的随机干扰信号或周期性的高频干扰信号。滤56噪是指去除与分析物无关或者不随分析物浓度改变而变化的信号。平滑和滤噪57通常被联合使用,使用时不做区分。常用的平滑滤噪方法有移动窗口平均58(MWA)法、Savitzky-Golay(SG)平滑和小波变换(WT)技术等。这些方59法都需要对信号两端的数据点做特殊处理(如插值法),以消除边缘效应带来60的计算失真。61背景扣除62背景是指与分析物无直接关系的响应信号。背景的扣除方法一般根据分析63的原理、检测器的响应性能、样品的性质等确定。除采用空白实验外,还可根64据响应曲线的形状估算信号中的背景成分,或对背景信号进行计算扣除,如在65色谱分析中采用多项式拟合估计背景成分,在光谱分析中采用导数计算扣除光66谱中的背景信息等。常用的导数计算方法包括直接差分法、傅里叶变换方法、67SG导数和WT法等。68散射校正69漫反射和透反射光谱中由样品的颗粒度、厚度、装样量等因素导致的光谱70背景畸变,即为散射效应,覆盖整个谱区且与波长相关,对化学计量学模型的3/330003:..2023年12月71影响较大。一般需对整体光谱进行散射校正。它仅对背景校正,不改变光谱形72状。73多元散射校正(MSC)利用散射校正系数对光谱进行校正,适用于消除颗74粒大小及分布不均匀产生的散射效应,广泛应用于固体的漫反射光谱和半固体、75混悬液、乳浊液的透(反)射光谱。76标准正态变换(SNV)对每一条光谱独立地进行校正,适用于消除固体颗77粒大小、表面散射以及光程变化对漫反射光谱的影响,不需要使用平均光谱,78计算过程更为简单。79变量选择80通过选择有信息的变量、消除无信息的变量,有效去除干扰,增强模型的81稳健性和可解释性,达到精简模型和提高模型质量的目的。光谱分析方法的变82量选择分为波长选择和波段选择。83波长选择是将光谱中的每一个波长变量作为基本单位,通过波长变量重要84性判据选择相对重要的变量。通常首先采用不考虑波长变量之间的相互作用的85变量选择方法,如根据所建立模型的质量评价波长变量的重要性,或利用模型86参数判断各单波长对模型的贡献大小。常用方法包括相关系数法、模型系数法、87迭代预测加权(IPW)法、变量重要性投影(VIP)方法、竞争自适应加权重采88样(CARS)方法等。89当这些方法无法得到理想的结果时,应考虑变量之间的相互作用,可采用90以下三类方法:①基于统计学参数的变量选择方法,包括有无信息变量删除91(UVE)法、蒙特卡洛-无信息变量删除(MC-UVE)法、随机检验(RT)法、92C值法等;②基于变量响应值之间关系的变量选择方法包括正交投影(SPA)算93法、互信息(MI)算法等;③基于优化算法的变量选择方法,包括遗传算法94(GA)、模拟退火算法(SA)、蚁群优化(CO)、粒子群优化(PSO)算法95等,适用于变量排列组合的数目过于庞大的情况。96波段选择是将相邻的多个波长变量作为选择的基本单位,选出建模效果较97好的波段组合。分为波段划分和波段优选两个步骤,先将整体光谱划分为几个98波段,再优化波段的组合,常用方法有区间偏最小二乘(iPLS)法和移动窗口99偏最小二乘回归(MWPLSR)法。100虽然好的变量选择可以精简模型,甚至能提升模型的预测能力,但通常由4/330004:..2023年12月101于波长变量较多且光谱变量之间具有相关性,变量选择具有一定难度,目前尚102没有得到广泛共识的标准方法。不同变量选择方法所选出的波长(波段)可以103不同,但模型预测结果的差异不应太大,否则应考虑样本量和样本代表性问题。104当样本数足够多代表性足够强时,变量选择对模型预测结果的影响会有所降低。105强相关变量连续分布(相邻波长相关性较高)时,波段选择效果较好;而强相106关变量分布较为分散(相邻波长相关性较低)时,波长选择效果较好。1072多元统计方法108多元统计分析是研究多个变量(或多个因素)之间相互依赖关系的一种综109合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计110规律。多元统计方法是化学计量学实现定性、判别、分类和定量分析的基础,111最常用的主要包括相关分析、多元回归分析和主成分分析。112相关分析113用于研究两个或多个变量间相互变化关系,分为直接相关和间接相关。直114接相关反映了变量之间真实的因果关系,间接相关则反映因受到其他因素的共115同影响而呈现出对应的变化趋势。利用间接相关通过对趋势的研究获得有效信116息更为常见。117应根据研究对象的统计学分布特点选择合适的相关分析方法。如果研究对118象的分布服从正态分布,可用协方差或相关系数描述两个变量的线性相关关系,119用偏相关系数或复相关系数描述多个变量之间的多元相关关系。如果研究对象120的分布不服从正态分布,则应采用非参数方法,如适用于两个变量的Spearman121秩相关系数或Kendall秩相关系数,适用于多元非正态分布的多元Kendall非参122数方法等。除此之外,A)研究两组变量间的相关123关系。124多元回归分析125是将一个或多个因变量表述为多个自变量的函数,通过函数关系由已知自126变量估计或预测因变量的方法,其中研究一个或多个因变量和多个自变量之间127的线性关系的多元线性回归(MLR)最为常用。MLR在制药领域主要应用于两128个方面:(1)建立模型来解释多种因素对响应变量影响的重要性或大小,用于129实验设计(DoE)筛选或响应分析;(2)建立预测模型来进行定量分析,通常130用于过程分析。5/330005:..2023年12月131MLR的基本模型是y=Xb+e,其中y是因变量(向量),由观测值构成,X132是自变量(矩阵),表示对应于每个观测值的影响因素,b是回归系数,e是预133测值与观测值之间的残差。因此,MLR模型描述了一个因变量(观测值)与多134个自变量(影响因素)之间的相关关系。当有一组已知的y和X时,通过最小135二乘等方法可以通过使残差e最小确定模型的回归系数b;而模型系数b则定量136地表达了因变量与自变量之间的相关关系。137MLR可以扩展到多个因变量,即将一个因变量的y向量扩展到多个因变量138的Y矩阵(每列表示一个因变量yi)。当MLR应用于具有多个响应的DoE数139据时,可利用相同的X矩阵针对每个yi变量建立独立的MLR模型。计算时,可140以采用yi=Xbi+e独立计算每一个模型,也可以采用Y=XB+E同时计算多个模型,141其中B为回归系数矩阵,E为残差矩阵。一般来说,独立计算模型的结果较好。142在光谱等分析测试数据的定量分析中,用X表示光谱响应矩阵,Y表示样143品属性矩阵,当分析信号的基本模型是X=YB+E,即光谱响应矩阵是多组分纯144光谱按样品属性的加和,利用此基本模型求得各组份的纯光谱对未知混合物的145各组份的浓度进行定量分析,称为K矩阵法;而利用Y=XB+E作为基本模型进146行计算时,即直接用样品属性矩阵作为预测目标,由多组分混合物光谱响应矩147阵求得回归系数矩阵B的方法,则称为P矩阵法。148由于药品组分较多,药品质量的影响因素也较多。各组分的相互作用或影149响因素之间的相互影响对建模的效果会有不同程度的影响,所以选择合适的变150量是关键。例如,当X中各变量之间存在共线性时,这些变量的线性不具有独151立性,则会影响MLR模型的稳健性,甚至导致无法建立有效的模型。因此,应152尽量选择独立性较强的X变量进行建模,以避免变量共线性引起的b系数不可153靠或模型不稳定。MLR建模对样本数量(y和X的行数)的要求为独立的样本154数必须大于或等于变量的个数,否则无法求解模型的b系数,即无法得到有意155义的模型。156主成分分析157主成分分析(PCA)是用于发现变量之间关系的多变量分析方法,通过数158学变换,将由线性相关变量表示的多变量数据转化为少数几个线性无关的新变159量(主成分),同时保证尽可能多地保留原变量的数据特征而不丢失信息,达160到简化数据结构(数据降维)的目的。6/330006:..2023年12月161在数学上,主成分分析可理解为一种数学变换或投影方法,通过寻找x坐162标系到x’坐标系最小信息损失的变换或投影。如图1,通过寻找解释最大方差163的方向(x’坐标轴)将原数据投影到新的空间,更高效地表达数据之间的相互164关系。这个过程产生的正交向量(x’坐标轴)称为载荷,原数据在新空间的投165影称为得分。因此,主成分分析本质上是将相同的数据在一个新空间中显示,166通过它们的投影来揭示样品之间的关系。167168图1主成分分析169寻找新空间方向(坐标轴)可通过多种数学方法得以实现,其基本模型是170X=TPT+E。式中,X是m行(样品数)n列(变量数)的原始数据矩阵,T和171PT分别是得分和载荷矩阵,当有p个主成分时,T和PT分别是n行p列和p行172m列的矩阵,E表示残差,T表示转置。主成分数(p)又称为因子数、潜变量173数等。通过主成分分析,原始数据(X矩阵)被转换成一个新的、重新排列的174矩阵,新矩阵构成了原始数据的解释部分,残差则是原始数据中无法解释的部175分。计算中,新空间的坐标轴由原数据确定,即原数据的线性组合,p个方向相176互正交且按照所解释方差的大小排列,因此,当原数据的变量数较多时,p会远177远小于n,达到数据压缩或降维的目的。主成分分析的核心是用一个维数更少178的矩阵替代复杂的原始数据矩阵,而信息量仍然与原始数据保持接近,并且从179原始数据中提取特征信息,如样本之间的差异。从空间角度来看,一个样本的180多个测量值(变量)定义了一个多维空间中的一个点,变量数即空间的维数。181因此,相似样品将位于多维空间中的相同区域。通过使用主成分分析,可以在182减少维数的同时使相似的样本彼此接近,不同的样本彼此分离。183从统计学的角度,主成分分析的原理是在数据空间中找到描述数据集最大184变异的方向,即数据点相距最远的方向,每个方向都是对样本间实际变异贡献7/330007:..2023年12月185最大的初始变量的线性组合。主成分是相互正交的,通过构建和排序,按包含186的信息由多到少对主成分排序。因此应用中会优先对第一主成分进行解释,它187包含最大的变异。通常,只有前几个主成分包含有效信息,其他主成分则可能188是干扰信息。在实践中,应通过交叉验证或载荷评估等方法建立特定的判断准189则来区分噪声和信息,以确定用于分析的主成分数量。残差E保存了模型中没190有包含的变异,可作为样本或变量与模型拟合程度的度量。主成分分析模型中191最终保留的主成分数需综合考虑模型的精简程度、稳健性、拟合度以及性能等。192样本之间的关系可以在一个或几个得分图中得以显示,通常采用前两个主193成分的得分,如图2(A)。载荷是新空间的方向或坐标轴,通过载荷构成分析194可以得到载荷与原变量之间的(线性组合)关系,如图2(B),而原变量之间195的关系则可以通过载荷在不同主成分空间的关系得到展现,如图2(C)。同时,196通过得分-载荷双重图,如图2(D),还可以看出样品与原变量之间的关系,197或者描述样品特征的主要变量。198199图2主成分分析得分图(A)、载荷图构成图(B)、载荷关系图(C)和200得分-载荷双重图(第一主成分和第二主成分)(D)201主成分分析是一种无监督的方法,是探索性数据分析的有力工具。通过主202成分分析可以显示不同样本的差异,各变量对差异的影响程度,变量之间的相203互关系以及样品的特征变量等。值得注意的是,主成分分析捕捉的是数据集中8/330008:..2023年12月204的主要变化,而相对较小的变化可能无法区分。2053多元分辨方法206多元分辨(MR)方法是用于处理仪器分析方法(如光谱、色谱、成像技术207等)产生的多变量信号的有效工具。多组分体系的测量信号通常可用一个简单208的模型来描述,即D=CST,其中C为浓度矩阵,ST为响应系数矩阵。模型的基209本假定是每个组分的测量信号正比于组分的含量,总体测量信号是各组分信号210之和。多元分辨技术可从原始测量信号中提取单组分的信息,例如,从HPLD-211DAD测量数据中提取混合物各组分的光谱和色谱信号,从GC-MS测量数据中212提取混合物各组分的质谱和色谱信号等。常用的多元分辨方法包括化学因子分213析、多元曲线分辨等。214化学因子分析215是通过对数据矩阵进行特征分析、旋转变换等操作,获取混合物体系中各216组分的响应信号的MR技术。其中,特征分解是所有因子分析法的共通步骤,217得到不具有明确的物理或化学意义的抽象解,再根据数据的特点,通过变换得218到各组分的浓度、光谱等有实际意义的解。化学因子分析(CFA)在解决多变219量问题时具有显著的优点。例如,可处理多因素相互影响的复杂体系,能快速220地对大量数据进行处理,可压缩数据,提高数据质量,能研究多种类型的问题。221在对原始数据了解甚少甚至对数据的本质一无所知的情况下,仍然可应用化学222因子分析方法。更重要的是可获得对测量数据的解释。通过因子分析可对样品223或变量进行分类,能够为体系建立完整的有物理意义的模型并以此来预测新的224数据点。225化学因子分析已广泛用于色谱、光谱、质谱和化学成像等数据的处理,对226待测体系进行定性定量分析。化学因子分析还可用于研究平衡及动力学问题,227以及许多其他化学计量学问题,如曲线分辨、数据校正、模式识别等。当分析228数据与理论模型(D=CST)有所偏离,如测量数据中存在较严重的基线漂移、229较大的噪声干扰、组分信号受实验条件变动较大或者组分之间存在明显相互作230用时,CFA方法的计算结果会存在偏差甚至完全失效。此时,建议对分析测试231方案进行调整,或者采用其他的多元分辨方法。232多元曲线分辨233又称为自模型曲线分辨或端元提取,是一种基于测量数据基本模型进行重9/330009:..2023年12月234叠信号解析的多元分辨技术。多元曲线分辨(MCR)的求解常采用交替最小二235乘(ALS)算法,从测量数据D得到具有化学意义的单个组分的信号C和ST,236实现多元分辨,因此也称为MCR-ALS方法。与主成分分析寻找最大方差和相237互正交的方向相比,多元曲线分辨的目标是发现组分的真实信号C和ST,分别238被称为MCR得分和MCR载荷。239MCR-ALS适用于具有良好的线性或可转变为线性的测量数据。当被分析组240分的测量响应之间具有选择性时,该方法优势在于每个被分析组分只需要1个241标准样的测量信号作为初始估值。而当测量数据的线性和被分析组分的选择性242存在问题时,则每个被分析组分可能需要更多的标准样来校准。243通常,MCR-ALS的计算结果存在不确定性,且只能得到MCR载荷的归一244化结果,MCR得分只是组分之间的相对大小。因此需要使用简单的线性回归方245法将MCR得分转换为真实的物理量,如药物制剂中有效活性成分和辅料的含量,246此时至少一个组分的实际含量应为已知。当两个或两个以上的化学成分变化在247某种程度上相互关联时,会出现亏秩现象,例如消耗一种组分而形成另一种组248分。在这种情况下,同时分析不同条件下的独立实验数据,或使用两种测量技249术的联合测量,通常会获得更好的结果。2504多元校正方法251多元校正是化学计量学定量分析技术的统称,目的是建立物质浓度(或其252他物化性质)与分析数据之间的数学关系,即定量校正模型。对于复杂体系,253无法获取与定量目标相关的选择性信号时,必须采用多元校正技术进行定量分254析。常见的多元校正方法有多元线性回归、主成分回归、偏最小二乘回归、支255持向量机、人工神经网络等,其中主成分回归和偏最小二乘回归是在多元线性256回归的基础上发展而来的方法。257主成分回归258实际应用中,通常因变量数较多而达不到MLR模型“样品数必须大于变量259数”的要求。主成分回归采用PCA对自变量矩阵X进行降维,利用主成分得分260建立MLR模型,不仅保留了原数据中大部分的信息,也科学地解决了MLR模261型对样品数的要求。262主成分回归建模的关键是选择合适的主成分数。尽管存在一些方法确定主263成分数,主成分数的物理意义也很清楚,但数据中存在的噪声、背景、组分间10/330010:..2023年12月264的相互作用等干扰因素有时会给主成分数的确定带来困难。因此在实际应用中,265一般通过观察残差E随主成分数的变化,将残差最小(或较小)时对应的主成266分数确定为合适的主成分数。主成分数过低或者过高都会影响模型的准确性,267主成分数不足时,模型的预测能力不够,主成分数过高会带来模型的过拟合现268象。269主成分回归的缺点在于:1)主成分回归只对于自变量矩阵X进行主成分分270析,保留的信息并不一定与因变量Y具有较好的相关性;2)主成分回归在主成271分数的选择过程中,可能会忽略高阶主成分,导致有用信息的丢失。因此,在272光谱分析中,主成分回归通常需比偏最小二乘回归使用更高的主成分数,一般273不作为光谱数据定量建模的首选方法。274偏最小二乘回归275是一种潜变量回归分析方法,基于PCA从测量数据(自变量X)和预测目276标(因变量Y)中分别提取潜变量,并使之尽可能相互正交,从而克服了共线277性问题,同时也保留了测量变量中的最大相关信息。偏最小二乘回归(PLSR)278不仅对测量数据X矩阵进行正交分解,而且对因变量Y矩阵也进行正交分解,279并且在分解因变量Y矩阵的同时也考虑了测量数据X矩阵的因素,从而加强了280X和Y矩阵相关性,可以得到最佳的回归效果。通过建立X矩阵潜变量与Y矩281阵潜变量之间的数学关系构建PLSR模型,用来描述X和Y矩阵之间的关系。282潜变量也称为因子。使用偏最小二乘回归的一个关键步骤是因子数的确定。283因子数选择太小将不能充分解释训练数据集的可变性,而因子数太大将导致过284拟合和模型稳健性下降。因此,在模型的校准验证期间应进行因子数的评估。285有多种方法可用于模型因子数的考察,最常用的简便方法是观察模型的验证误286差随因子数的变化。验证误差是校正集或验证集的预测误差,其中校正集的预287测误差又称为校准误差或自验证误差。模型因子数对模型性能的影响如图3所288示,校准误差随因子数增加呈下降趋势(曲线A),最佳因子数一般根据预测289误差随因子数变化趋势选择:当预测误差随因子数增加呈先下降后上升趋势并290出现最小值时(曲线C),则最小预测误差对应的因子数为最佳因子数;而当291预测误差随因子数增加而下降但无最小值时(曲线B),可选择预测误差不显292著降低时对应的因子数作为合适的因子数。11/330011:..2023年12月293294图3因子数量对模型性能的影响[A:校准误差随因子数变化曲线;B:预295测误差随因子数变化曲线(无最小值);C:预测误差随因子数变化曲线(有296最小值)]297偏最小二乘回归相较于主成分回归,能够更好地描述因变量和测量数据变298量的特征。这种方法建立的模型更简单,因子使用更少,还提供了更好的解释299可能性和可视化诊断,以优化校准性能。此外,偏最小二乘回归可以消除因变300量和测量变量数据中的噪声干扰,是光谱定量分析的主流方法。3015聚类与判别方法302聚类和判别统称为模式识别,是化学计量学定性分析的常用方法。聚类分303析(CA)是将一批样品或变量,按照其性质上亲疏远近的程度进行分类,性质304相似的聚成一类,相异的聚为不同的类;判别分析是根据预先设定的分类用校305正集数据建立判别函数或模型,待测数据代入判别函数或模型进行类别的判定。306分类的实质是寻找样本之间的差异或相互关系。样本的特征通常用一组能307够描述其特征的指标变量表示,按尺度划分为间隔尺度、有序尺度、名义尺度,308例如药片的有效成分含量、硬度为间隔尺度,风险的高中低为有序尺度,药物309剂型为名义尺度等。分类问题一般通过距离和/或相似性这两个统计量描述指标310变量之间的关系,“距离”越小、“相似系数”越大,样本之间越相似。311距离与相似性312用于估算样本之间距离和相似度的方法有很多。不同类型的指标变量在定313义距离和相似系数时有很大差异,此处仅涉及间隔尺度的指标变量。常用的描314述距离的统计量有欧氏距离、马氏距离,有时还会用到街区距离、明氏距离等。315常用的描述相似性的统计量有夹角余弦、相关系数等。由于不同的方法各有侧316重,不同方法的计算结果可能存在一定的差异,因此采用合适的方法至关重要。12/330012:..2023年12月317欧氏距离:是最常用的距离,衡量多维空间中点与点之间的绝对距离。计318算公式是:2319,=√∑=1(,?,)(1)320数据点i与数据中心之间的欧氏距离,??可用下式计算:321=√(?????)T(?????)(2),??322式中μ为样本指标参数(变量)的均值,T表示转置。323马氏距离:也是一种常用的距离公式,可以看作是欧氏距离的一种修正,324修正了欧氏距离中各个维度尺度不一致且具有相关性的问题。325单个数据点(??)的马氏距离(距中心点的距离)为:326??(??)=√(?????)∑?1(?????)(3)327数据点????和??之间的马氏距离为:328??(??,??)=√(?????)T∑?1(?????)(4)329式中Σ是多维变量的协方差矩阵,μ为样本均值,T表示转置。如果协方差矩阵330是单位阵,即各个样本间相互独立同分布,马氏距离则变成了欧氏距离。331夹角余弦:是计算数据映射为空间中向量间的余弦值来衡量相似性。此方332法在任何维度的向量空间中都适用,计算方法如下:∑??(×)333c=??=1????(5)√∑??()2×√∑??()2??=1????=1??334相关系数:常见的相关系数为简单相关系数,反映的是两个变量之间变化335趋势的方向及程度。计算公式为:????(,)∑??(?)(?)336??(,)==??=1????(6)????√∑??(??)2√∑??(??)2??=1????=1??337欧氏距离只适用于表示变量不相关时数据点之间的相似性或差异性。当变338量之间存在相关性,则数据空间的实际维数小于变量数,此时可计算马氏距离,339但马氏距离要求样本数必须大于变量数。340在主成分空间里计算距离具有更高的效率。由于主成分的正交性,在主成341分空间中可以使用少数几个变量表达高维原始数据中的信息,并且可以消除数342据中非关键信息的干扰。当采用的主成分累计代表率足够高时,利用主成分得13/330013:..2023年12月343分计算的距离和用原始变量计算的距离几乎一致。因此,主成分分析并没有改344变数据,只是在保持原数据信息的基础上提取了新的潜变量。由于主成分的正345交性,马氏距离与采用归一化的得分计算的欧氏距离具有相同的含义,只是在346数值上相差一个倍率。347聚类分析348是研究类别关系的一种多变量分析方法,通过样本的分类指标把性质相近349或相似的样本归为一类。聚类分析可根据距离或相似性将样本集划分成若干个350不同的子集,这些子集称作类(或簇)。这些类(或簇)不是事先给定的,而351是根据数据特点进行划分,使得同一簇中的样本彼此相似,不同簇中的样本彼352此不同。聚类分析用于解释或验证分析实验数据、优化分析过程。353聚

附件化学计量学指导原则草案公示稿(第一次) 来自淘豆网www.taodocs.com转载请标明出处.