机器学习上的一些容易混淆的概念,加拿大卡尔

来源:http://www.mypv3.com 作者:智能产品 人气:84 发布时间:2019-11-03
摘要:12月28日下午,应数学与信息科学学院邀请,北京工业大学博士生导师薛留根和程维虎在数学南楼103室分别作了题为“纵向数据下部分线性模型的广义经验似然推断”和“基于次序统计量

js333.com 1

12月28日下午,应数学与信息科学学院邀请,北京工业大学博士生导师薛留根和程维虎在数学南楼103室分别作了题为“纵向数据下部分线性模型的广义经验似然推断”和“基于次序统计量的统计推断理论与方法”的学术报告。学院相关专业师生到场聆听了此次讲座。报告会由副院长庞善起主持。

 

5月21日下午,应数学与信息科学学院邀请,加拿大卡尔加里大学数学与统计系吴静静教授在学院103报告厅作了题为“Estimation and classification for a genetic data”的报告。学院相关专业教师和研究生聆听了本次报告。

薛留根首先介绍了常见的现代统计模型和复杂数据,重点讲述了纵向数据下部分线性模型的估计问题,基于二次推断函数和经验似然方法给出了参数分量和非参数分量的估计及其大样本性质,并通过统计模拟和实际数据验证了经验似然方法的优势。

监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。

针对观察到症状后的白血病病人,吴静静旨在开发一种统计程序来诊断白血病的类型,以降低成本和简化诊断。她提出二样本的半参数模型,利用极大似然估计和最小距离估计,选出含有特殊标识的基因或显著基因,用加权平均法的分类原则对病人进行分类。最后,吴静静提出训练样本和独立检验样本的分类结果,并对比极大似然估计和最小距离估计两种方法在渐进有效性和稳健性方面的优劣。报告结束后,吴静静就核估计和非参数密度估计等统计问题与到会师生进行了深入交流。

程维虎介绍了样本次序统计量及其分布、次序统计量矩的计算、次序统计量之差矩的计算,详细讲解了几种基于次序统计量的统计推断理论和方法,讨论了统计量的性质,最后给出几类特殊分布的基于样本次序统计量的总体分布的统计推断新方法。

 

专家简介:

(数学与信息科学学院 刘娟芳)

 

吴静静,统计学博士,其博士论文被加拿大统计协会评为2007年度加拿大最佳概率统计博士论文奖。随后受聘于卡尔加里大学数学与统计系,主要研究方向有非参数半参数模型,最小距离估计,混合模型,渐进有效性和稳健性,参数降维及其在基因数据、生物统计、经济学等中的应用。

分类和回归的区别在于输出变量的类型。

(数学与信息科学学院 马欢欢 苗山根)

定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

举个例子:
预测明天的气温是多少度,这是一个回归任务;

预测明天是阴、晴还是雨,就是一个分类任务。

 

回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。通过这种方法可以确定,许多领域中各个因素(数据)之间的关系,从而可以通过其用来预测,分析数据。 

回归分析的主要内容为:

①从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。

②对这些关系式的可信程度进行检验。

③在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。

④利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

 

方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。

 

 

无偏估计是参数的样本估计量的期望值等于参数的真实值。估计量的数学期望等于被估计参数,则称此为无偏估计。

 

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合js333.com,。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

 

普通最小二乘法的复杂性:

缺点:要求每个影响因素相互独立,否则会出现随机误差

回归用于解决预测值问题

 

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:
js333.com 2

其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数。

 

最近邻分类:计算待分类样本与训练样本中各个类的距离,求出距离最小的

K近邻是求出k个最小的,然后计算分别属于某一类的个数,选个数最大的类,若相等则选择跟训练集中的序列有关

近邻分类:解决离散数据

近邻回归:解决连续数据

 

 

核函数 原理

根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题

 

似然函数 与 EM

极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。

本文由js333.com发布于智能产品,转载请注明出处:机器学习上的一些容易混淆的概念,加拿大卡尔

关键词:

最火资讯