文章/答案/技术大牛

发布

社区首页 >问答首页 >逐行读取文件，还是存储在内存中？

问逐行读取文件，还是存储在内存中？
EN

Stack Overflow用户

提问于 2014-07-07 08:38:43

回答 2查看 2.2K关注 0票数 1

这不是一个“我的代码坏了”的问题，而是一个“我应该这么做吗？”有个问题。

我有一个脚本，它使用类似于reader = csv.DictReader(open('file.txt', 'rb'), delimiter= '\t')这样的东西逐行迭代，不需要将整件事情提交到内存中，就可以得到像年龄和日期这样的东西。

目前，脚本使用大约5%的内存 (8GB)。

一般来说，把一个文件放入内存而不是打开它并循环它的内容--尤其是当它很大(超过700‘s)时--是否更容易被接受？

我的脚本是供个人使用的，但我更愿意学习Python的约定，并做被认为可以接受的事情。例如，我知道如果我在JavaScript中做类似的事情，我会尽量节省内存，以防止浏览器崩溃或失去响应。

Python中的方法(内存与循环)是否优于另一种方法？

编辑:我知道这可能有点宽泛。我对最好的(毕达克)练习更感兴趣。

似乎有很多帖子问如何做，但不是很多问为什么或如果。

python

file

ram

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-07-07 08:51:17

AFAIK，你的方法是用pythonic的方法来做到这一点。

您应该知道，open('file.txt')并没有将整个文件放入内存中。它返回一个按需读取文件的迭代器。你的DictReader也是。

只要尝试处理一个大文件，您将不会看到内存消耗的任何增加。

票数 1

Stack Overflow用户

发布于 2014-07-07 09:03:06

大多数情况下，最好在读取文件时处理它。操作系统期望这样的行为，因此它提前读取以补偿磁盘系统的延迟。加载整个文件通常只保留用于进程的内存，如果只扫描一次，这是浪费的。您可以映射它，它允许系统直接使用磁盘缓冲区，但这就失去了下一步读取位置的提示。读取太小的块会导致系统调用开销占优势，因此如果可能的话，您会希望读取相当大的块，但是对于大多数程序来说，在读取行时进行默认缓冲就足够了。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/24606303

复制

相似问题

问逐行读取文件，还是存储在内存中？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问逐行读取文件，还是存储在内存中？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问逐行读取文件，还是存储在内存中？
EN