文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取angellist启动数据

问抓取angellist启动数据
EN

Stack Overflow用户

提问于 2021-06-05 19:12:31

回答 1查看 313关注 0票数 0

我想从这个站点的电子表格中抓取数据--我已经尝试过很多种方法，但是它显示了一个错误。在电子表格中使用IMPORTXML，IMPORTHTML --它不起作用

格式:启动名称、位置、类别

提前谢谢你的帮助。

尝试使用下面的请求方法来刮取数据，但是它没有显示输出。

import requests

URL = 'https://angel.co/social-network-2'


headers = {
   "Host": "www.angel.co",
   "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux armv8l; rv:88.0) 
   Gecko/20100101 Firefox/88.0",
   "Accept": "application/json, text/javascript, */*; q=0.01",
   "Accept-Language": "en-US,en;q=0.5",
   "Accept-Encoding": "gzip, deflate",
   "Referer": "https://angel.co/social-network-2",
   "X-Requested-With": "XMLHttpRequest",
   "via": "1.1 google"
}

datas = requests.get(URL, headers=headers).json()
import re

for i in datas['data']:
    for j in re.findall('class="uni-link">(.*)</a>',i['title']):
    print(j)

selenium

selenium-webdriver

web-scraping

google-sheets-formula

回答 1

Stack Overflow用户

发布于 2021-06-18 09:49:04

恐怕你不能刮这个网页了。

问题是，他们使用云彩保护，这是专为防止这种自动机器人刮刮.

唯一的建议就是接受这个事实，不要浪费时间.

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67853120

复制

相似问题

问抓取angellist启动数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取angellist启动数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问抓取angellist启动数据
EN