Pinker说一般近似定理很好地解释了为什么神经网络工作为什么它们通常不工作
此前,图灵奖获得者,深度学习先驱Yann LeCun的一条推文,吸引了众多网友讨论。
在推文中,乐村表示:深度学习并没有你想象的那么令人印象深刻,因为它只是曲线拟合生成的插值结果可是,在高维空间中没有插值在高维空间中,一切都是外推的
乐村转发的内容来自哈佛大学认知科学家史蒂芬平克的一条推文Pinker说,一般近似定理很好地解释了为什么神经网络工作,为什么它们通常不工作只有理解了安德烈叶的一般逼近定理,才能理解神经网络
在人工神经网络的数学理论中,一般逼近定理指出了人工神经网络逼近任意函数的能力通常这个定理所指的神经网络是前馈神经网络,逼近的目标函数通常是输入输出都在欧氏空间的连续函数可是,一些研究已经将该定理扩展到其他类型的神经网络,例如卷积神经网络,径向基函数网络或其他特殊的神经网络
这个定理意味着神经网络可以用来逼近任何复杂函数,并且可以达到任何近似精度可是,它没有告诉我们如何选择神经网络参数)来实现我们想要近似的目标函数
1989年,George Cybenko首次提出并证明了单隐层,任意宽度,S函数为激励函数的前馈神经网络的一般逼近定理两年后的1991年,Kurt Hornik发现激活函数的选择并不是关键,而前馈神经网络的多层神经层和多神经元架构才是使神经网络成为通用逼近器的关键
最重要的是,这个定理解释了为什么神经网络表现得如此聪明理解它是深入理解神经网络的关键一步
更深入的探索。
紧(有限,封闭)集上的任何连续函数都可以用分段函数来近似以—3到3之间的正弦波为例,可以用三个函数来近似mdashmdash两个二次函数和一个线性函数,如下图所示
但是,Cybenko在描述这个分段函数时更加具体,因为它可以是常数,函数本质上是逐步拟合的有了足够的常数步长,我们可以在给定的范围内合理地估计函数
基于这种近似,我们可以使用神经元作为步骤来构建网络权重和偏差被用作门,以确定哪些输入下降,哪些神经元应该被激活一个有足够神经元的神经网络可以简单地将一个函数分成几个常数区域进行估计
对于落在神经元下降部分的输入信号,通过将权重放大到更大的值,最终值将接近1(当使用sigmoid函数进行计算时)如果它不属于这个部分,将权重移动到负无穷大将产生接近0的最终结果Sigmoid函数用作处理器来确定神经元的存在程度只要有大量的神经元,任何函数都可以近似得近乎完美在多维空间中,Cybenko扩展了这一思想,每个神经元在多维函数中控制空间的超立方体
一般定理的关键在于,它没有在输入和输出之间建立复杂的数学关系,而是用简单的线性运算将复变函数分成许多小的,不太复杂的部分,每个部分由一个神经元处理。
自Cybenko的初步证明以来,学术界形成了许多新的改进,如测试不同激活函数(如ReLU)或不同结构(循环网络,卷积等)的一般逼近定理。).
无论如何,所有这些探索都围绕着一个想法mdash神经网络在神经元数量上有优势每个神经元监控特征空间的模式或区域,其大小由网络中神经元的数量决定神经元越少,每个神经元需要监控的空间就越大,所以逼近能力就会下降但伴随着神经元的增多,无论激活功能是什么,任何功能都可以用很多小片段拼接在一起
概括和推断。
可能需要指出的是,一般近似定理虽然简单,但有点太简单了(至少在概念上)神经网络可以分辨数字,生成音乐等,通常非常智能,但实际上只是一个复杂的逼近器
神经网络旨在为给定的数据点建立复杂的数学函数模型神经网络是一种很好的逼近器,但如果输入超出训练范围,就会失去作用这类似于有限泰勒级数近似,可以在一定范围内拟合正弦波,但超过范围就失效了
外推,或在给定的训练范围之外做出合理预测的能力,不是神经网络设计的目的从一般近似定理可知,神经网络不是真正的智能,而是隐藏在多维伪装下的估计器,在二维或三维看起来很普通
定理的现实意义。
当然,一般近似定理假设神经元可以继续加到无穷大,这在实际中是不可行的此外,利用神经网络参数的几乎无限组合来寻找最佳组合是不切实际的可是,该定理也假设只有一个隐层,伴随着更多隐层的加入,一般逼近的复杂度和潜力呈指数增长
取而代之的是,机器学习工程师根据直觉和经验决定如何构造适合给定问题的神经网络架构,使其能够很好地逼近多维空间,知道这样一个网络的存在,同时也权衡计算性能。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。