首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取angellist启动数据

抓取angellist启动数据
EN

Stack Overflow用户
提问于 2021-06-05 19:12:31
回答 1查看 313关注 0票数 0

我想从这个站点的电子表格中抓取数据--我已经尝试过很多种方法,但是它显示了一个错误。在电子表格中使用IMPORTXML,IMPORTHTML --它不起作用

格式:启动名称、位置、类别

提前谢谢你的帮助。

尝试使用下面的请求方法来刮取数据,但是它没有显示输出。

代码语言:javascript
复制
import requests

URL = 'https://angel.co/social-network-2'


headers = {
   "Host": "www.angel.co",
   "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux armv8l; rv:88.0) 
   Gecko/20100101 Firefox/88.0",
   "Accept": "application/json, text/javascript, */*; q=0.01",
   "Accept-Language": "en-US,en;q=0.5",
   "Accept-Encoding": "gzip, deflate",
   "Referer": "https://angel.co/social-network-2",
   "X-Requested-With": "XMLHttpRequest",
   "via": "1.1 google"
}

datas = requests.get(URL, headers=headers).json()
import re

for i in datas['data']:
    for j in re.findall('class="uni-link">(.*)</a>',i['title']):
    print(j)
EN

回答 1

Stack Overflow用户

发布于 2021-06-18 09:49:04

恐怕你不能刮这个网页了。

问题是,他们使用云彩保护,这是专为防止这种自动机器人刮刮.

唯一的建议就是接受这个事实,不要浪费时间.

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67853120

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档