为什么现在的CNN模型都是在GoogleNet，VGGNet或者AlexNet上调整的

 我来答

1个回答

#热议# 上班途中天气原因受伤算工伤吗？

地瓜说机
2017-10-31 · TA获得超过2.9万个赞

知道大有可为答主

回答量：2.3万

采纳率：91%

帮助的人：1.2亿

我也去答题访问个人页

关注

展开全部

哈哈遇到一个好适合回答的问题。你问为什么看到现在很多的模型都是在这几个上面修改的，基础模型的演进方案Bolei讲的非常清楚，我从我在工业界一年多的角度补充几点，有下面几个原因
1. 那是因为你看到的大部分是公开的论文，公开的论文需要一个标准的baseline及在baseline上改进的比较，因此大家会基于一个公认的baseline开始做实验大家才比较信服。常见的比如各种检测分割的问题都会基于VGG或者Resnet101这样的基础网络。而这类型paper很多，就会有种业内只有这几个模型的错觉
2. 发表论文的同学多数是在校的phd同学，首先大家有强大的科研压力和ddl的压力，时间和精力只允许大家在有限的范围探索。因此基于vision问题的特性进行各种模型和算法方案的改进肯定是更有novelty（也是更符合发paper的思路），所以有限的精力就放在了另外的方面而继续沿用目前VGG/GoogleNet/AlexNet/Resnet这样的baseline
3. 进行基本模型的改进需要大量的实验和尝试，很有可能投入产出比比较小。能做到Kaiming ResNet这样的工作真是需要大量的实验积累加强大的灵感，真是偶像。我们大部分人自己的实验过程，很多之前预想的可能会work的idea经过尝试可能提升有限（失望脸，没法毕业怎么办）。基于我们今年参与ImageNet的经历来讲，对于深度学习，很大部分可以提升性能的点在于一些对于细节的精确把握。因此你可以看到许多排名靠前的队伍最后讲的关键技术点似乎都是tricks。而这样精确细节的把握是需要大量的时间和计算资源的，往往在学校不可行。因此有大量计算资源的比如香港中文大学，我司商汤科技，公安三所，海康等成绩靠前。PS，我们之后会公布我们今年参加ImageNet Scene Parsing比赛拿到第一的技术方案（paper+code+model），实际构成是一些insights（可以写paper的技术点）加大量的tricks（好像不太容易写paper）。敬请期待

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

为什么现在的CNN模型都是在GoogleNet，VGGNet或者AlexNet上调整的

其他类似问题

为你推荐：