首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不同相对url中的刮取液url

不同相对url中的刮取液url
EN

Stack Overflow用户
提问于 2021-08-28 09:51:04
回答 1查看 119关注 0票数 1

我试图提取的pdf以及10k表单(以html格式)使用Scrapy。为了提取它们,我使用以下css选择器:most_recent = response.css("div.view_btn > a::attr(href)").getall(),它按预期返回['/Click/29665', '/Click/19504']

但是pdf和html的url在每个相对的url中。刮伤怎么能得到绝对和“正确”的url?

(“更正”url = https://www.annualreports.com/HostedData/AnnualReports/PDF/NASDAQ_RMIX_2020.pdf)

我需要url,因为scrapy将响应发送到另一个函数,以便下载pdf文件:yield Request(most_recent, callback=self.save_pdf)

提前谢谢你!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-28 10:04:43

没有办法简单地“计算”PDF URL。因为当您的浏览器请求https://www.annualreports.com/Click/10913时,目标网站响应将使用重定向标题Location: /HostedData/AnnualReports/PDF/NYSE_SMG_2020.pdf,并且在此之后,浏览器才会加载PDF文件。

但这对Scrapy来说不是问题。只要yield您的Click URL到save_pdf回调,就会自动为您重定向

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68963187

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档