自己学习深度学习时,有哪些途径寻找数据集
1个回答
展开全部
如果用现有的深度学习去实现这一点,那就需要大量的事故数据,但这方面的数据供给非常有限,而采集数据又难度很大。首先,没有人能够准确预测何时何地会发生何种事故,因此无法系统地提前部署以采集真实事故数据;其次,从法律上来说我们不能靠人为制造事故来采集数据;第三,也无法模拟数据,因为事故更多涉及实时的传感以及与物理世界的互动,模拟出来的数据与真实数据差距很大,这从 DARPA 机器人挑战赛就能看出来;最后,像 AlphaGo 那样,在规则定义明确的简单环境下自行创造大量训练数据的方式,在复杂的真实环境中难以发挥作用。
如果遇到数据量不足的情况,同时又很难通过之前那些行之有效的方式去增加数据供给,那就无法发挥出深度学习的优势。而更重要的是,我们还会遇到数据类型不一样的问题,物理世界中是不同传感器获取的实时数据流,而现在深度学习在信息世界中的应用,比如说图像识别,使用的数据都是基于图片的数据点,而非数据流,所以这也是将深度学习现有的成功延伸到真实物理世界应用的一个底层障碍。
基于这个原因,Demiurge 专注于开发一种系统方法从源头解决真实世界诸多领域中数据量严重不足的问题——既然很难有效增加数据供给,为何不设法大幅降低对数据的需求?
降低对数据量的需求、实现小样本学习甚至 one-shot learning,是目前深度学习研究中的关键问题,Yann LeCun、 Yoshua Bengio 等深度学习专家也多次在演讲中提到解决深度学习中 one-shot learning 问题的重要性。
在今年斯德哥尔摩的全球机器人顶级学术会议 ICRA 上,Bragi 在 Industry Forum 演讲中介绍了 Demiurge 的方法,从神经科学里寻找关键线索,「比起深度学习的点神经元,生物神经元所擅长的是从多模的实时数据流中提取多维度的时空信息来实现 one-shot learning,这是现有的深度学习很难做到的。生物神经元不仅能够做这种特征提取,而且是以一种非常高效的方式,效果和效率都很出色。」
深度神经网络的确从神经科学领域的研究中获取了一些灵感,但其工作原理与人脑截然不同(诚然,我们对大脑的工作原理还没有弄清楚),Yann LeCun 表示,他最不喜欢的对深度学习的定义就是「它像我们的大脑」,谷歌 Jeff Dean 认为深度神经网络是对大脑神经网络的简单抽象,并非是模拟人类神经元如何工作。神经科学专注的点包括计算的细节实现,还有对神经编码以及神经回路的研究。然而,在机器学习领域,人工神经网络则倾向于避免出现这些,而是往往使用简单和相对统一的初始结构,以支持成本函数(cost funcion)的蛮力最优化。
Bragi 从历史的角度分析了深度学习和神经科学的关系,「现在的深度学习从神经科学中获得的灵感非常有限,这是因为深度学习的理论基础是上世纪 80 年代基本定型的,那时之前的神经科学也发展比较慢,无法为深度学习提供更多灵感。而从 80 年代至今,神经科学的发展速度远远超过了之前,过去 30 年产生的神经科学知识是 80 年代以前的 46 倍,而且现在每年神经科学获得新发现的速度是 80 年代以前的 100 倍。所以,对于深度学习来说,如今的神经科学已经是一个非常巨大的宝库,为提升现有深度学习的学习能力提供重要线索。」
Bragi 表示,越来越多的深度学习专家开始研究如何从神经科学中获取更多的线索,「 Yoshua Bengio 做的非常前沿,一方面研究深度学习的反向传播算法在生物神经元上是如何实现的,另一方面研究生物神经元的 STDP 学习算法如何提升现有的深度神经网络的学习能力 。位于深度学习与神经科学交汇的最前沿,我们很深刻地体会到现在正在发生着的转型,从深度学习和神经科学没有太大关系的这一代(深度学习1.0),过度到深度学习重新从神经科学获得重要启发的下一代
如果遇到数据量不足的情况,同时又很难通过之前那些行之有效的方式去增加数据供给,那就无法发挥出深度学习的优势。而更重要的是,我们还会遇到数据类型不一样的问题,物理世界中是不同传感器获取的实时数据流,而现在深度学习在信息世界中的应用,比如说图像识别,使用的数据都是基于图片的数据点,而非数据流,所以这也是将深度学习现有的成功延伸到真实物理世界应用的一个底层障碍。
基于这个原因,Demiurge 专注于开发一种系统方法从源头解决真实世界诸多领域中数据量严重不足的问题——既然很难有效增加数据供给,为何不设法大幅降低对数据的需求?
降低对数据量的需求、实现小样本学习甚至 one-shot learning,是目前深度学习研究中的关键问题,Yann LeCun、 Yoshua Bengio 等深度学习专家也多次在演讲中提到解决深度学习中 one-shot learning 问题的重要性。
在今年斯德哥尔摩的全球机器人顶级学术会议 ICRA 上,Bragi 在 Industry Forum 演讲中介绍了 Demiurge 的方法,从神经科学里寻找关键线索,「比起深度学习的点神经元,生物神经元所擅长的是从多模的实时数据流中提取多维度的时空信息来实现 one-shot learning,这是现有的深度学习很难做到的。生物神经元不仅能够做这种特征提取,而且是以一种非常高效的方式,效果和效率都很出色。」
深度神经网络的确从神经科学领域的研究中获取了一些灵感,但其工作原理与人脑截然不同(诚然,我们对大脑的工作原理还没有弄清楚),Yann LeCun 表示,他最不喜欢的对深度学习的定义就是「它像我们的大脑」,谷歌 Jeff Dean 认为深度神经网络是对大脑神经网络的简单抽象,并非是模拟人类神经元如何工作。神经科学专注的点包括计算的细节实现,还有对神经编码以及神经回路的研究。然而,在机器学习领域,人工神经网络则倾向于避免出现这些,而是往往使用简单和相对统一的初始结构,以支持成本函数(cost funcion)的蛮力最优化。
Bragi 从历史的角度分析了深度学习和神经科学的关系,「现在的深度学习从神经科学中获得的灵感非常有限,这是因为深度学习的理论基础是上世纪 80 年代基本定型的,那时之前的神经科学也发展比较慢,无法为深度学习提供更多灵感。而从 80 年代至今,神经科学的发展速度远远超过了之前,过去 30 年产生的神经科学知识是 80 年代以前的 46 倍,而且现在每年神经科学获得新发现的速度是 80 年代以前的 100 倍。所以,对于深度学习来说,如今的神经科学已经是一个非常巨大的宝库,为提升现有深度学习的学习能力提供重要线索。」
Bragi 表示,越来越多的深度学习专家开始研究如何从神经科学中获取更多的线索,「 Yoshua Bengio 做的非常前沿,一方面研究深度学习的反向传播算法在生物神经元上是如何实现的,另一方面研究生物神经元的 STDP 学习算法如何提升现有的深度神经网络的学习能力 。位于深度学习与神经科学交汇的最前沿,我们很深刻地体会到现在正在发生着的转型,从深度学习和神经科学没有太大关系的这一代(深度学习1.0),过度到深度学习重新从神经科学获得重要启发的下一代
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询