为什么现在的CNN模型都是在GoogleNet,VGGNet或者AlexNet上调整的
1个回答
展开全部
哈哈遇到一个好适合回答的问题。你问为什么看到现在很多的模型都是在这几个上面修改的,基础模型的演进方案Bolei讲的非常清楚,我从我在工业界一年多的角度补充几点,有下面几个原因
1. 那是因为你看到的大部分是公开的论文,公开的论文需要一个标准的baseline及在baseline上改进的比较,因此大家会基于一个公认的baseline开始做实验大家才比较信服。常见的比如各种检测分割的问题都会基于VGG或者Resnet101这样的基础网络。而这类型paper很多,就会有种业内只有这几个模型的错觉
2. 发表论文的同学多数是在校的phd同学,首先大家有强大的科研压力和ddl的压力,时间和精力只允许大家在有限的范围探索。因此基于vision问题的特性进行各种模型和算法方案的改进肯定是更有novelty(也是更符合发paper的思路),所以有限的精力就放在了另外的方面而继续沿用目前VGG/GoogleNet/AlexNet/Resnet这样的baseline
3. 进行基本模型的改进需要大量的实验和尝试,很有可能投入产出比比较小。能做到Kaiming ResNet这样的工作真是需要大量的实验积累加强大的灵感,真是偶像。我们大部分人自己的实验过程,很多之前预想的可能会work的idea经过尝试可能提升有限(失望脸,没法毕业怎么办)。基于我们今年参与ImageNet的经历来讲,对于深度学习,很大部分可以提升性能的点在于一些对于细节的精确把握。因此你可以看到许多排名靠前的队伍最后讲的关键技术点似乎都是tricks。而这样精确细节的把握是需要大量的时间和计算资源的,往往在学校不可行。因此有大量计算资源的比如香港中文大学,我司商汤科技,公安三所,海康等成绩靠前。PS,我们之后会公布我们今年参加ImageNet Scene Parsing比赛拿到第一的技术方案(paper+code+model),实际构成是一些insights(可以写paper的技术点)加大量的tricks(好像不太容易写paper)。敬请期待
1. 那是因为你看到的大部分是公开的论文,公开的论文需要一个标准的baseline及在baseline上改进的比较,因此大家会基于一个公认的baseline开始做实验大家才比较信服。常见的比如各种检测分割的问题都会基于VGG或者Resnet101这样的基础网络。而这类型paper很多,就会有种业内只有这几个模型的错觉
2. 发表论文的同学多数是在校的phd同学,首先大家有强大的科研压力和ddl的压力,时间和精力只允许大家在有限的范围探索。因此基于vision问题的特性进行各种模型和算法方案的改进肯定是更有novelty(也是更符合发paper的思路),所以有限的精力就放在了另外的方面而继续沿用目前VGG/GoogleNet/AlexNet/Resnet这样的baseline
3. 进行基本模型的改进需要大量的实验和尝试,很有可能投入产出比比较小。能做到Kaiming ResNet这样的工作真是需要大量的实验积累加强大的灵感,真是偶像。我们大部分人自己的实验过程,很多之前预想的可能会work的idea经过尝试可能提升有限(失望脸,没法毕业怎么办)。基于我们今年参与ImageNet的经历来讲,对于深度学习,很大部分可以提升性能的点在于一些对于细节的精确把握。因此你可以看到许多排名靠前的队伍最后讲的关键技术点似乎都是tricks。而这样精确细节的把握是需要大量的时间和计算资源的,往往在学校不可行。因此有大量计算资源的比如香港中文大学,我司商汤科技,公安三所,海康等成绩靠前。PS,我们之后会公布我们今年参加ImageNet Scene Parsing比赛拿到第一的技术方案(paper+code+model),实际构成是一些insights(可以写paper的技术点)加大量的tricks(好像不太容易写paper)。敬请期待
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询