我正在使用Crawler4j爬虫来爬行一些domains.Now,我想提高爬虫的效率,我希望我的爬虫能使用我的全部带宽,并且在给定的时间内尽可能多的爬行period.For,我正在采取以下设置:-
现在我想知道的是:-
( 1)这种设置有什么副作用吗?
( 2)除了这个之外,我还有什么事情要做,这样我才能提高我的爬行速度。
( 3)有人能告诉我每一种设置的最大限度(例如:- Max no.crawler4j支持的线程,等等).Beacuse,我已经通过了Crawler4j代码,但是我没有在任何地方找到任何限制。
4)如何在不检查robots.txt file.Beacause的情况下爬行域--我知道crawler4j在爬行之前首先检查域的robots.txt文件,我不想那样!!
5)页面获取器是如何工作的(请简要解释一下)
任何帮助都是感激的,如果这个问题很愚蠢的话,请给我简单的回答。
发布于 2014-10-06 11:23:47
我会尽我所能帮助你的。我不能保证正确性,也不能保证完全性。
robotstxtConfig.setEnabled(false);现在应该是这样的:
PageFetcher pageFetcher = new PageFetcher(config);
RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
robotstxtConfig.setEnabled(false);
RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer);希望我能帮你点忙。
https://stackoverflow.com/questions/26094576
复制相似问题