首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >刮刮解析

刮刮解析
EN

Stack Overflow用户
提问于 2017-05-06 10:21:08
回答 1查看 1.9K关注 0票数 0

我正在解析从一个网站的链接,然后试图解析这些链接的iframe src。

  • 根据调试结果,第一个链接的解析是正确的,但输出文件中没有任何数据。
  • 事件之后是否也可以删除所有内容?在URL中。这看起来像是嵌入的iframe信息。

我正在运行CentOS6.5Python2.7.5

刮花蜘蛛new.py -o videos.csv

代码语言:javascript
复制
import scrapy

class PdgaSpider(scrapy.Spider):
    name = "pdgavideos"
    start_urls = ["http://www.pdga.com/videos/"]

    def parse(self, response):
        for link in response.xpath('//td[2]/a/@href').extract():

            from scrapy.http.request import Request
            yield Request('http://www.pdga.com'+link, callback=self.parse_page, meta={'link':link})

    def parse_page(self, response):
        for frame in response.xpath("//player").extract():

            yield {
                'link': response.urljoin(frame)
            }

调试结果

代码语言:javascript
复制
DEBUG: Crawled (200) <GET http://www.pdga.com/videos/2017-gbo-final-round-front-9-sexton-mcbeth-mccray-newhouse> (referer: http://www.pdga.com/videos/)
DEBUG: Crawled (200) <GET http://www.pdga.com/videos/2017-glass-blown-open-fpo-rd-2-pt-1-pierce-fajkus-leatherman-c-allen-sexton-leatherman> (referer: http://www.pdga.com/videos/)
DEBUG: Crawled (200) <GET http://www.pdga.com/videos/2017-gbo-final-round-back-9-sexton-mcbeth-mccray-newhouse> (referer: http://www.pdga.com/videos/)

预期结果

http://www.youtube.com/embed/tYBF-BaqVJ8

EN

回答 1

Stack Overflow用户

发布于 2017-07-21 11:12:38

刮刮不刮iFrames的内容,但你可以得到它们。首先获取iframe url,然后调用它的解析。

代码语言:javascript
复制
urls = response.css('iframe::attr(src)').extract()
for url in urls :
        yield scrapy.Request(url....)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43819255

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档