首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在NodeJs中下载并解压缩内存中的zip文件?

如何在NodeJs中下载并解压缩内存中的zip文件?
EN

Stack Overflow用户
提问于 2012-04-28 08:31:22
回答 4查看 61.7K关注 0票数 50

我想从互联网上下载一个zip文件,在内存中解压,而不保存为临时文件。我该怎么做呢?

这是我尝试过的:

代码语言:javascript
复制
var url = 'http://bdn-ak.bloomberg.com/precanned/Comdty_Calendar_Spread_Option_20120428.txt.zip';

var request = require('request'), fs = require('fs'), zlib = require('zlib');

  request.get(url, function(err, res, file) {
     if(err) throw err;
     zlib.unzip(file, function(err, txt) {
        if(err) throw err;
        console.log(txt.toString()); //outputs nothing
     });
  });

按照建议进行编辑,我尝试使用adm-zip库,但仍然不能正常工作:

代码语言:javascript
复制
var ZipEntry = require('adm-zip/zipEntry');
request.get(url, function(err, res, zipFile) {
        if(err) throw err;
        var zip = new ZipEntry();
        zip.setCompressedData(new Buffer(zipFile.toString('utf-8')));
        var text = zip.getData();
        console.log(text.toString()); // fails
    });
EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-05-01 06:59:57

您需要一个能够处理缓冲区的库。最新版本的adm-zip将执行以下操作:

代码语言:javascript
复制
npm install adm-zip

我的解决方案使用http.get方法,因为它返回缓冲区块。

代码:

代码语言:javascript
复制
var file_url = 'http://notepad-plus-plus.org/repository/7.x/7.6/npp.7.6.bin.x64.zip';

var AdmZip = require('adm-zip');
var http = require('http');

http.get(file_url, function(res) {
  var data = [], dataLen = 0; 

  res.on('data', function(chunk) {
    data.push(chunk);
    dataLen += chunk.length;

  }).on('end', function() {
    var buf = Buffer.alloc(dataLen);

    for (var i = 0, len = data.length, pos = 0; i < len; i++) { 
      data[i].copy(buf, pos); 
      pos += data[i].length; 
    } 

    var zip = new AdmZip(buf);
    var zipEntries = zip.getEntries();
    console.log(zipEntries.length)

    for (var i = 0; i < zipEntries.length; i++) {
      if (zipEntries[i].entryName.match(/readme/))
        console.log(zip.readAsText(zipEntries[i]));
    }
  });
});

这个想法是创建一个缓冲区数组,并在最后将它们连接到一个新的缓冲区中。这是因为缓冲区不能调整大小。

更新

这是一个更简单的解决方案,它使用request模块通过在选项中设置encoding: null来获取缓冲区中的响应。它还会自动跟踪重定向并解析http/https。

代码语言:javascript
复制
var file_url = 'https://github.com/mihaifm/linq/releases/download/3.1.1/linq.js-3.1.1.zip';

var AdmZip = require('adm-zip');
var request = require('request');

request.get({url: file_url, encoding: null}, (err, res, body) => {
  var zip = new AdmZip(body);
  var zipEntries = zip.getEntries();
  console.log(zipEntries.length);

  zipEntries.forEach((entry) => {
    if (entry.entryName.match(/readme/i))
      console.log(zip.readAsText(entry));
  });
});

响应的body是一个可以直接传递给AdmZip的缓冲区,从而简化了整个过程。

票数 91
EN

Stack Overflow用户

发布于 2012-05-02 06:11:20

遗憾的是,您不能像节点zlib库所允许的那样,通过管道将响应流解压缩到解压缩作业中,您必须缓存并等待响应的结束。我建议你在大文件的情况下通过管道将响应传递给fs流,否则你会在一眨眼的时候填满你的内存!

我不完全理解你想要做什么,但是imho,这是最好的方法。你应该只在你真正需要的时候才把数据保存在内存中,然后流到

如果您希望将所有数据都保存在内存中,您可以用from替换csv解析器方法fromPath,该方法接受一个缓冲区,并在getData中直接返回unzipped

您可以使用AMDZip (如@mihai所说)代替node-zip,但请注意,AMDZip尚未在npm中发布,因此您需要:

代码语言:javascript
复制
$ npm install git://github.com/cthackers/adm-zip.git

注意:假设压缩文件只包含一个文件

代码语言:javascript
复制
var request = require('request'),
    fs = require('fs'),
    csv = require('csv')
    NodeZip = require('node-zip')

function getData(tmpFolder, url, callback) {
  var tempZipFilePath = tmpFolder + new Date().getTime() + Math.random()
  var tempZipFileStream = fs.createWriteStream(tempZipFilePath)
  request.get({
    url: url,
    encoding: null
  }).on('end', function() {
    fs.readFile(tempZipFilePath, 'base64', function (err, zipContent) {
      var zip = new NodeZip(zipContent, { base64: true })
      Object.keys(zip.files).forEach(function (filename) {
        var tempFilePath = tmpFolder + new Date().getTime() + Math.random()
        var unzipped = zip.files[filename].data
        fs.writeFile(tempFilePath, unzipped, function (err) {
          callback(err, tempFilePath)
        })
      })
    })
  }).pipe(tempZipFileStream)
}

getData('/tmp/', 'http://bdn-ak.bloomberg.com/precanned/Comdty_Calendar_Spread_Option_20120428.txt.zip', function (err, path) {
  if (err) {
    return console.error('error: %s' + err.message)
  }
  var metadata = []
  csv().fromPath(path, {
    delimiter: '|',
    columns: true
  }).transform(function (data){
    // do things with your data
    if (data.NAME[0] === '#') {
      metadata.push(data.NAME)
    } else {
      return data
    }
  }).on('data', function (data, index) {
    console.log('#%d %s', index, JSON.stringify(data, null, '  '))
  }).on('end',function (count) {
    console.log('Metadata: %s', JSON.stringify(metadata, null, '  '))
    console.log('Number of lines: %d', count)
  }).on('error', function (error) {
    console.error('csv parsing error: %s', error.message)
  })
})
票数 5
EN

Stack Overflow用户

发布于 2012-05-01 05:49:47

如果您使用的是MacOS或Linux,则可以使用unzip命令从stdin中解压缩。

在本例中,我将压缩文件从文件系统读取到Buffer对象中,但它也适用于下载的文件:

代码语言:javascript
复制
// Get a Buffer with the zip content
var fs = require("fs")
  , zip = fs.readFileSync(__dirname + "/test.zip");


// Now the actual unzipping:
var spawn = require('child_process').spawn
  , fileToExtract = "test.js"
    // -p tells unzip to extract to stdout
  , unzip = spawn("unzip", ["-p", "/dev/stdin", fileToExtract ])
  ;

// Write the Buffer to stdin
unzip.stdin.write(zip);

// Handle errors
unzip.stderr.on('data', function (data) {
  console.log("There has been an error: ", data.toString("utf-8"));
});

// Handle the unzipped stdout
unzip.stdout.on('data', function (data) {
  console.log("Unzipped file: ", data.toString("utf-8"));
});

unzip.stdin.end();

它实际上只是的节点版本:

代码语言:javascript
复制
cat test.zip | unzip -p /dev/stdin test.js

编辑:值得注意的是,如果输入压缩太大而无法从标准输入中读取,则此方法将不起作用。如果需要读取更大的文件,并且压缩文件只包含一个文件,则可以使用funzip而不是unzip

代码语言:javascript
复制
var unzip = spawn("funzip");

如果您的zip文件包含多个文件(而您想要的文件不是第一个),我恐怕会说您不走运。解压缩需要在.zip文件中查找,因为压缩文件只是一个容器,解压缩可能只是解压缩其中的最后一个文件。在这种情况下,您必须临时保存文件(node-temp很方便)。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10359485

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档