文章/答案/技术大牛

发布

社区首页 >问答首页 >Pyarrow从s3读取/写入

问Pyarrow从s3读取/写入
EN

Stack Overflow用户

提问于 2018-03-27 20:42:15

回答 2查看 7.1K关注 0票数 5

有没有可能读写拼花文件从一个文件夹到另一个文件夹在s3中，而不是转换成熊猫使用pyarrow。

下面是我的代码：

import pyarrow.parquet as pq
import pyarrow as pa
import s3fs

s3 = s3fs.S3FileSystem()

bucket = 'demo-s3'

pd = pq.ParquetDataset('s3://{0}/old'.format(bucket), filesystem=s3).read(nthreads=4).to_pandas()
table = pa.Table.from_pandas(pd)
pq.write_to_dataset(table, 's3://{0}/new'.format(bucket), filesystem=s3, use_dictionary=True, compression='snappy')

python

pyarrow

回答 2

Stack Overflow用户

发布于 2018-06-27 00:56:13

如果你不想直接复制这些文件，看起来你确实可以避免像pandas这样的文件：

table = pq.ParquetDataset('s3://{0}/old'.format(bucket),
    filesystem=s3).read(nthreads=4)
pq.write_to_dataset(table, 's3://{0}/new'.format(bucket), 
    filesystem=s3, use_dictionary=True, compression='snappy')

票数 9

Stack Overflow用户

发布于 2020-01-10 20:41:42

为什么不直接复制(S3 -> S3)并节省内存和I/O？

import awswrangler as wr

SOURCE_PATH = "s3://..."
TARGET_PATH = "s3://..."

wr.s3.copy_objects(
    source_path=SOURCE_PATH,
    target_path=TARGET_PATH
)

Reference

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49513152

复制

相似问题

问Pyarrow从s3读取/写入
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pyarrow从s3读取/写入EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Pyarrow从s3读取/写入
EN