腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
使用AWS Glue Crawler创建列名时删除/重命名特殊字符
我正在使用AWS
爬虫
爬行S
3
桶,它在雅典娜中创建表模式。据我所知,雅典娜不支持具有特殊字符的列名,比如(
反
斜杠)等等。这是一种可以在
爬虫
从S
3
桶中爬行时排除/重命名这些列名的方法。
浏览 3
修改于2021-10-14
得票数 2
回答已采纳
1
回答
在数据库中查找和替换URL,而不尾随URL末尾的斜杠
但是,一些放置内容的人在<a href""></a> URL的末尾没有添加
反
斜杠(尾斜杠)的情况下就生成了URL。它会自动添加一个
反
斜杠到末尾,这可以算作谷歌
爬虫
的重定向。TL;博士 如何在没有
反
斜杠的情况下替换WordPress内容中的所有URL,使用(https://test.com/testpage)并添加
反
斜杠(https://test.com/testpage/
浏览 0
修改于2020-10-16
得票数 0
2
回答
在Service Fabric服务之间移动大型数据是一种
反
模式吗?
我正在使用Service Fabric开发一个web数据
爬虫
。我已经将爬行过程划分为无状态服务管道。第一个服务加载HTML。(S1)第二个函数解析其中的数据。( S
3
) HTML代码从S1移动到S2,然后移动到S
3
(根据设计,我需要在第三个服务中使用HTML )。本身就是大量的数据,我不得不设置这种设计是
反
模式吗
浏览 0
修改于2017-10-01
得票数 0
0
回答
使用Python
爬虫
,怎么处理
反
爬机制?
python
、
爬虫
、
验证码
、
requests
、
数据
我用Python requests来请求数据,但经常出现bug,要没ip无效,要么需要验证码,怎么处理呢?
浏览 182
提问于2025-07-19
1
回答
爬虫
/SEO友好/Mod重写/它没有任何意义
该应用程序基本上由
3
个不同的迷你项目组成。管理员的后端界面,客户端的后端界面和每个人的前端界面。我的客户发行的。他想知道为什么管理员和用户的后端界面仍然显示那些巨大的丑陋链接。这些是非常非常丑陋的链接,我说的是三到四个
反
斜杠,后面跟着不同的get序列等等,所以你可能会理解MOD_REWRITING背后的复杂性。一时冲动,我说我让它保持原样是为了确保后端接口不会被任何
爬虫
嗅探到。但我不确定这是否一定是真的
浏览 1
提问于2012-03-16
得票数 1
回答已采纳
2
回答
在它们的真实符号中变成utf
我刚刚自己做了第一个网络
爬虫
,它上了维基百科,下载了整个页面的html。我设法获得了一个列表的内容。列表中的值包含正数或负数。但它给了我一个'\xe2\x88\x922',而不是打印出一个'-2'。我尝试了string.replace("\xe2\x88\x92","-"),但由于
反
斜杠的原因,这似乎不起作用。你知道我怎样才能把这些utf东西转换成它们真正的符号吗?
浏览 18
修改于2020-07-04
得票数 3
1
回答
如何阻止Web
爬虫
下载文件
是否有可能阻止web
爬虫
在我的服务器上下载文件(如zip文件)?有可能阻止网络
爬虫
吗?或者,在下载最多
3
个文件后,是否还有其他选项可以将文件隐藏在web
爬虫
上?我可以很容易地创建一个PHP脚本,使用cookie强制访问者登录/注册,但是web
爬虫
呢? 顺便说一下,我用的是nginx和drupa
浏览 0
提问于2013-07-27
得票数 1
1
回答
如何抓取Vue构建的基于组件的web应用程序并作出反应?
javascript src=/static/js/app.335a9e9866cb7dc6a517.js></script> </html>我使用Abot框架爬行建议
浏览 7
提问于2022-03-06
得票数 0
回答已采纳
1
回答
TYPO
3
9.5: indexed_search不可用
我想使用TYPO
3
9.5.13向站点添加搜索功能。然后,文档告诉我安装
爬虫
扩展(据说是"aoepeople/ crawler ":"^6.7")。在TYPO
3
9.5上不可能使用indexed_search,因为
爬虫
浏览 2
修改于2020-08-31
得票数 0
回答已采纳
2
回答
Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗?
我们有一个现有的基础设施,可以通过aws
爬虫
爬行S
3
目录。这些S
3
目录是作为AWS的一部分创建的,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S
3
中编写这些deltalake文件时,我的
爬虫
程序无法从这些
爬虫
器中创建表。 我们能用AWS
爬虫
来抓取三角洲湖的文件吗?
浏览 5
提问于2020-09-05
得票数 2
回答已采纳
2
回答
用
爬虫
更新手工创建的aws胶水数据目录表
我正在使用AWS胶水和s
3
上的许多文件,每天都会追加新的文件。我尝试创建并运行一个
爬虫
来推断出那些csv文件的模式。
爬虫
不只是一个带有模式的数据目录表,而是创建许多表(即使为所选的每个S
3
path选项创建一个模式),这意味着
爬虫
识别不同的模式,不能将它们组合成一个。因此,我手动创建了单独的数据目录表,当我将这个表与胶水作业一起使用时,没有一个s
3
csv文件被处理。
爬虫
更新它们。有办法用s
3
的新文件更新手动创建的表吗?
浏览 8
提问于2020-03-27
得票数 1
1
回答
出现网络爬网程序java.net.SocketException:软件导致连接中止: recv失败
sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)at TestHttpClient.testURL
3
(我测试其他网站程序都是正常的,所以我猜这可能是
反
爬虫
策略。我希望你能帮我找出错误的原因或者我该怎么做。谢谢!
浏览 2
提问于2017-08-11
得票数 0
1
回答
typo
3
爬虫
索引内容
我使用typo
3
7.6.10
爬虫
来索引所有页面和搜索结果,但是
爬虫
没有索引页面的“内容”。 我要写些配置上的东西?
浏览 2
提问于2016-09-30
得票数 0
回答已采纳
1
回答
使用自定义资源Lambda运行Crawler
我正在尝试使用云构造来创建和调用AWS Glue
爬虫
。
爬虫
的创建部分(作为目标的发电机数据库)在lambda函数中。 我如何使用云形成来实现所有这些?例如,从s
3
中存在的cod创建λ函数,在创建lambda函数后,应该触发它来创建
爬虫
程序,然后应该调用
爬虫
程序来创建目标表。我希望所有这些都是云的形成。
浏览 21
提问于2019-09-17
得票数 0
2
回答
如何使用asp.net mvc
3
和c#构建网络
爬虫
?
我需要建立一个小的搜索引擎,如谷歌使用ASP.NET MVC
3
。对于这一个,我还需要建立网络
爬虫
,其中填充搜索引擎的数据。总而言之,我需要以下内容:请任何人有任何想法或资源或书籍。请与我们分享。
浏览 8
修改于2016-06-24
得票数 2
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
该查询成功运行,并在给定的S桶中生成结果 要在Lambda中创建AWS
爬虫
,下面是我在Lambda (NodeJS)中的代码: Role: <Role ARN>, DatabaseName: <Database
浏览 2
修改于2021-08-16
得票数 1
3
回答
上传文件到S
3
存储桶后,AWS胶水
爬虫
的基于事件的触发器?
有没有可能在上传到S
3
存储桶中的新文件上触发AWS Glue
爬虫
,假设
爬虫
“指向”该存储桶?换句话说:文件上传会生成一个事件,导致AWS胶水
爬虫
对其进行分析。
浏览 2
提问于2018-02-16
得票数 9
回答已采纳
1
回答
Python
3
抓取网
爬虫
对于我的工作,我必须写一个
爬虫
,它只保存页面的标题,交付状态和产品的数量。
浏览 2
修改于2020-07-20
得票数 0
回答已采纳
1
回答
AWS Glue - boto
3
crawler未创建表
我正在尝试通过boto
3
库创建并运行一个AWS glue
爬虫
。
爬虫
针对的是s
3
文件夹中的JSON文件。
爬虫
成功完成,当我检查日志时没有错误,但它没有在我的glue数据库中创建任何表 这不是权限问题,因为我可以通过CFT创建相同的
爬虫
,当我运行它时,它会像预期的那样创建表。我在我的代码中使用与我的CFT相同的角色,我使用boto
3
来创建它。 我尝试过使用boto
3
create_crawler()和run_crawler()。已尝试在从CFT创建的爬网程
浏览 30
修改于2019-10-11
得票数 0
1
回答
将默认表属性分配给
爬虫
创建的表
我试图将表属性分配给用
爬虫
创建的表。我检查了
爬虫
创建界面中的选项,但没有看到这样的选项。在创建表之后创建一个python boto
3
脚本来修改表属性值,这是我唯一想到的事情。 如果这在默认的
爬虫
功能中是不可能的,那么将表属性附加到使用某个
爬虫
创建的每个表上的可行方法是什么?
浏览 2
修改于2021-01-25
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券