目前的实施正在进行之中。Curl似乎没有遵循所有的重定向,我正在尝试确定最后的页面重定向序列。寻找新的选择。
完成扫描应在3-5秒内完成.
重定向包括302、301、元刷新和javascript重定向.它们通常被串在一起,将不同的类型混合在一起,唯一的目的是阻止爬虫,但允许合法的浏览器查看最终的站点。
这是钓鱼电子邮件中常见的混淆技术。他们可以使用谷歌搜索结果重定向,然后指向Yandex重定向,指向最终目的地。
我不是试图刮内容,只是为了确定在重定向链中的啤酒花,和最终的网址,以便它可以提交给评估。
我们已经尝试了Curl并遵循了PHP: Can CURL follow meta redirects,但是对于链中的每种类型的文档,技术都是不同的。
我试图得出的结果是遵循以下几条链:
我们经常看到这样的事情
电子邮件联系链接:
链接类型和它如何重定向到下一跳。
1
我试图确定的是每个步骤的url,然后是浏览器中看到的最终url。
发布于 2019-09-03 12:47:35
在第6点之前你的卷发没问题。从第7点开始,你就陷入了一片混乱之中。我看到的最佳方法是使用无头浏览器重新开发代码。
Google (以及其他浏览器)支持这一点:
https://developers.google.com/web/updates/2017/04/headless-chrome
它将自然地遵循重定向,并且您可以与基于节点的工具进行交互。
https://stackoverflow.com/questions/57718029
复制相似问题