文章/答案/技术大牛

发布

社区首页 >问答首页 >如何避免在python中提取PDF文件中的小图像元素？

问如何避免在python中提取PDF文件中的小图像元素？
EN

Stack Overflow用户

提问于 2021-06-10 13:29:13

回答 1查看 112关注 0票数 0

我正在尝试从这个PDF文件中提取所有的图片：https://s3.us-west-2.amazonaws.com/secure.notion-static.com/566ca0ca-393d-47d4-b3fc-eb3632777bf8/example.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAT73L2G45O3KS52Y5%2F20210610%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20210610T041944Z&X-Amz-Expires=86400&X-Amz-Signature=2f8a2d08647e4953448f890adb56d11b1d01e21b941ca3dc9f9b5ab3caa7f018&X-Amz-SignedHeaders=host&response-content-disposition=filename%20%3D%22example.pdf%22

使用fitz (PyMuPDF模块)，使用以下代码提取所有图像，以及小图标。我必须避免提取这些图标，只获取图像。

import fitz
file = fitz.open("example.pdf")

pdf = fitz.open(file)
page = len(file)

for pic in range(page):
    image_list = pdf.getPageImageList(pic)
    j = 1
    for image in image_list:
        xref = image[0]
        pix = fitz.Pixmap(pdf, xref)
        #print(len(pix)+ 88)
        if pix.n < 5:
            pix.writePNG(f'{pic}_{j}.png')
        else:
            pix1 = fitz.open(fitz.csRGB, pix)
            pix1.writePNG(f'{xref}_{pic}.png')
            pix1 = None
        pix = None
        j = j + 1

    print(f'Total images on page {pic} are {len(image_list)}')

python

extract

pymupdf

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-10 13:39:32

get_page_images()返回页面(直接或间接)引用的所有图像的列表。

>>> doc = fitz.open("pymupdf.pdf")
>>> imglist = doc.getPageImageList(0)
>>> for img in imglist: print img
((241, 0, 1043, 457, 8, 'DeviceRGB', '', 'Im1'))

在上面的示例中，doc.getPageImageList(0)返回页面上显示的图像列表。每个条目看起来都像[xref, smask, width, height, bpc, colorspace, alt. colorspace, name]

因此，在上面的示例中，值1043和457对应于图像的宽度和高度。您可以提供一个if condition来消除小尺寸的图像/图标。

有关更多信息，请访问this doc link。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67915260

复制

相似问题

问如何避免在python中提取PDF文件中的小图像元素？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何避免在python中提取PDF文件中的小图像元素？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何避免在python中提取PDF文件中的小图像元素？
EN