dahua lin's blog一些有趣得comments
恩,求平均值
很多文章的思想其实很简单的,可是怕拿不出台面,怎么办呢?呵呵,其实只要用一些数学技巧,就可以把一篇本科生习作,变成能在国际会议上发表的论文,呵呵。在论文中,你还可以言之凿凿地声称:We establish a well-founded model based on xxx theory, and derive a surprisingly elegant solution to the optimization problem under the formulation.
举一个简单的例子,和大家分享一下。问题非常简单:给定n个数(向量):x1, x2, ..., xn,要找出一个数x,使之最好地代表这些点。
解决方法其实很简单,求它们的平均值就是了:x = (x1 + x2 + ... + xn) / n。可是文章不能这样写啊,于是为了让自己的paper看起来学术化一点,我们要建立一些复杂一点的模型:恩,就是让问题看起来复杂一些,以提高文章的含金量。从我自己的知识水平和研究领域来说,起码发现了这么一些模型,都导致同样的结果——求均值。
(1) 基于简单优化的模型——Least Square Formulation: 找一个点x,使得x到所有给定点的平方误差之和最小。
x = argmin_x { (x - x1)^2 + (x - x2)^2 + ... + (x - xn)^2 }
(2) 基于信道传输的模型——Isotropic Noisy Formulation: 把这些点都看成某个点x受加性高斯噪声影响产生的:xi = x + ni。假设噪声项满足高斯分布 N(0, sI)。求点x,使得平均噪声水平最低。
(3) 基于经典概率理论的模型
(3.a) Single Gaussian Model 假设这些点服从高斯分布 N(x, s^2)。那么对于x的最大似然估计(Maximum Likelihood Estimation)就是给订数的均值。
(3.b) Gaussian Mixture Model 多高斯模型的各个component的Maximum Likelihood Estimation均值,按照component weight再对这些均值再加权平均,最后还是这些数的均值。
(4) 基于贝叶斯统计理论的模型——Bayesian Formulation: 通过引入先验概率priori,可以把经典概率模型推广到Bayesian Model。通过某些似是而非的理由assume prior是均匀的,那么在MAP (Maximum a Posteriori)的formulation下,你还可以得到同样的结论。
(5) 基于信息论的模型——Information Theoretical Model 在高斯分布假设下,求对给定数据的information最高的x。或者说,知道x后,对信源的uncertainty(entropy)最小。
(6) 动力学模型——Kinematic Model
(6.a) 聚合运动模型:假设这些点可以自由运动,并且它们之间存在相互引力作用,这些点在运动中最后聚在一点上,停止运动。在某些形式的引力作用下,这些点最后聚在均值位置。
(6.b) 势阱模型:假设这些点是固定的,它们相互之间存在引力作用。从另外一个意义上说,每个点构成一个场源,并且在周围空间激发引力势。则在某些引力形式下,所有点的叠加引力场的势阱位于均值位置。这时候,如果让一个新的点在场中自由运动,最终它会静止在均值的地方。当然,对偶的,你可以考虑一个斥力场以及相应的势垒的位置,结果也是相同的。不过在涉及learning的文献中,通常喜欢energy minimization。
(6.c) 可以建立热力学模型(也称为统计力学),那些点是一个热平衡状态的某个瞬时观测。进一步的,通过波尔兹曼定律把热力学能量和概率建立联系。那么就可以建立一个既有统计意义,也有物理意义的模型。
(7) 随机模型——Stochastic Model 更复杂的,你可以假设一个一定温度下的热力学粒子的随机运动。这个粒子在运动过程中,在空间各处都可能出现。在无限长的时间中形成一个几率分布,其峰值位置位于均值。
虽然,这么写有些时候确实是故弄玄虚,但是,某些时候对一些简单东西的深入发掘,也许真的能发现许多东西的内在联系呢。不论怎么说,一个东西的学术价值源于深入而有创造性的思考,而不是云遮雾罩。我希望,从这个blog里面,大家不要学歪了,应该体会的是各种不同的理论是如何相互联系在一起的。
很多文章的思想其实很简单的,可是怕拿不出台面,怎么办呢?呵呵,其实只要用一些数学技巧,就可以把一篇本科生习作,变成能在国际会议上发表的论文,呵呵。在论文中,你还可以言之凿凿地声称:We establish a well-founded model based on xxx theory, and derive a surprisingly elegant solution to the optimization problem under the formulation.
举一个简单的例子,和大家分享一下。问题非常简单:给定n个数(向量):x1, x2, ..., xn,要找出一个数x,使之最好地代表这些点。
解决方法其实很简单,求它们的平均值就是了:x = (x1 + x2 + ... + xn) / n。可是文章不能这样写啊,于是为了让自己的paper看起来学术化一点,我们要建立一些复杂一点的模型:恩,就是让问题看起来复杂一些,以提高文章的含金量。从我自己的知识水平和研究领域来说,起码发现了这么一些模型,都导致同样的结果——求均值。
(1) 基于简单优化的模型——Least Square Formulation: 找一个点x,使得x到所有给定点的平方误差之和最小。
x = argmin_x { (x - x1)^2 + (x - x2)^2 + ... + (x - xn)^2 }
(2) 基于信道传输的模型——Isotropic Noisy Formulation: 把这些点都看成某个点x受加性高斯噪声影响产生的:xi = x + ni。假设噪声项满足高斯分布 N(0, sI)。求点x,使得平均噪声水平最低。
(3) 基于经典概率理论的模型
(3.a) Single Gaussian Model 假设这些点服从高斯分布 N(x, s^2)。那么对于x的最大似然估计(Maximum Likelihood Estimation)就是给订数的均值。
(3.b) Gaussian Mixture Model 多高斯模型的各个component的Maximum Likelihood Estimation均值,按照component weight再对这些均值再加权平均,最后还是这些数的均值。
(4) 基于贝叶斯统计理论的模型——Bayesian Formulation: 通过引入先验概率priori,可以把经典概率模型推广到Bayesian Model。通过某些似是而非的理由assume prior是均匀的,那么在MAP (Maximum a Posteriori)的formulation下,你还可以得到同样的结论。
(5) 基于信息论的模型——Information Theoretical Model 在高斯分布假设下,求对给定数据的information最高的x。或者说,知道x后,对信源的uncertainty(entropy)最小。
(6) 动力学模型——Kinematic Model
(6.a) 聚合运动模型:假设这些点可以自由运动,并且它们之间存在相互引力作用,这些点在运动中最后聚在一点上,停止运动。在某些形式的引力作用下,这些点最后聚在均值位置。
(6.b) 势阱模型:假设这些点是固定的,它们相互之间存在引力作用。从另外一个意义上说,每个点构成一个场源,并且在周围空间激发引力势。则在某些引力形式下,所有点的叠加引力场的势阱位于均值位置。这时候,如果让一个新的点在场中自由运动,最终它会静止在均值的地方。当然,对偶的,你可以考虑一个斥力场以及相应的势垒的位置,结果也是相同的。不过在涉及learning的文献中,通常喜欢energy minimization。
(6.c) 可以建立热力学模型(也称为统计力学),那些点是一个热平衡状态的某个瞬时观测。进一步的,通过波尔兹曼定律把热力学能量和概率建立联系。那么就可以建立一个既有统计意义,也有物理意义的模型。
(7) 随机模型——Stochastic Model 更复杂的,你可以假设一个一定温度下的热力学粒子的随机运动。这个粒子在运动过程中,在空间各处都可能出现。在无限长的时间中形成一个几率分布,其峰值位置位于均值。
虽然,这么写有些时候确实是故弄玄虚,但是,某些时候对一些简单东西的深入发掘,也许真的能发现许多东西的内在联系呢。不论怎么说,一个东西的学术价值源于深入而有创造性的思考,而不是云遮雾罩。我希望,从这个blog里面,大家不要学歪了,应该体会的是各种不同的理论是如何相互联系在一起的。
0 Comments:
Post a Comment
<< Home