python 读取大文件数据怎么快速读取

 我来答

1个回答

#热议# 什么是淋病？哪些行为会感染淋病？

从空去听8
2017-08-25

知道答主

回答量：0

采纳率：0%

帮助的人：0

我也去答题访问个人页

关注

展开全部

python中读取数据的时候有几种方法，无非是read，readline，readlings和xreadlines几种方法，在几种方法中，read和xreadlines可以作为迭代器使用，从而在读取大数据的时候比较有效果.

在测试中，先创建一个大文件，大概1GB左右，使用的程序如下：

[python] view plaincopyprint?
import os.path
import time
while os.path.getsize('messages') <1000000000:
f = open('messages','a')
f.write('this is a file/n')
f.close()

print 'file create complted'

在这里使用循环判断文件的大小，如果大小在1GB左右，那么结束创建文件。--需要花费好几分钟的时间。

测试代码如下：

[python] view plaincopyprint?
#22s
start_time = time.time()
f = open('messages','r')
for i in f:
end_time = time.time()
print end_time - start_time
break
f.close()

#22s
start_time = time.time()
f = open('messages','r')
for i in f.xreadlines():
end_time = time.time()
print end_time - start_time
break
f.close()

start_time = time.time()
f = open('messages','r')
k= f.readlines()
f.close()
end_time = time.time()
print end_time - start_time

使用迭代器的时候，两者的时间是差不多的，内存消耗也不是很多，使用的时间大概在22秒作用
在使用完全读取文件的时候，使用的时间在40s，并且内存消耗相当严重，大概使用了1G的内存。。

其实，在使用跌倒器的时候，如果进行连续操作，进行print或者其他的操作，内存消耗还是不可避免的，但是内存在那个时候是可以释放的，从而使用迭代器可以节省内存，主要是可以释放。
而在使用直接读取所有数据的时候，数据会保留在内存中，是无法释放这个内存的，从而内存卡死也是有可能的。

在使用的时候，最好是直接使用for i in f的方式来使用，在读取的时候，f本身就是一个迭代器，其实也就是f.read方法

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python 读取大文件数据怎么快速读取

其他类似问题

为你推荐：