用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？

 我来答

1个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

mblaq_babyb7
2018-03-20

知道答主

回答量：81

采纳率：0%

帮助的人：7万

我也去答题访问个人页

关注

展开全部

给你几点个人的建议哈：

考虑拿C或C++重写.

考虑并行搞，找个hadoop集群，写成mapreduce程序跑放在hadoop上跑，更多数据都不怕.

考虑升级机器，多搞点内存，然后东西尽量放在内存里搞.

考虑程序优化.

你得看看你程序慢在什么地方，可以按照以下步骤：

首先，确信你真的需要把全部数据过一遍。top一下，看CPU跑满了吗？单线程单进程实现？你能不能搞成多进程的？然后top看每个核都跑满了吗？没跑满的话，那你你要努力充分利用你的CPU，要让CPU跑满！看看程序，没跑满是因为IO吗？是的话IO能搞成异步的么？或IO次数太多？能不能减少IO次数？甚至只搞一次IO，比如你那1G的东西，能不能一次全搞到内存里，然后所有东西在内存里处理。

如果每个核心都跑满了，那就看看你的计算都花在什么地方，可以用hotshot等工具测一把. 可以粗略比较一下在 1/16 数据、1/8数据、1/4数据、1/2数据的情况下，hotshot的结果，看你的函数花的时间是怎么涨的.找出花时间最多的一个或几个东西，有针对性的优化，可以事半功倍.

找到问题所在之后，寻求解决方案. 如果是python带的数据结构不不合适，能不能用numpy之类的东西解决，能不能用一些数据库解决.能不能有的地方用cython包装一个C实现.

如果是算法不够好，能不能优化算法.

希望可以帮助到你哦，这只是我的一个建议哈！

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

用python处理一个1G左右的数据集，运行速度非常慢，怎样优化？

为你推荐：