jackcode

文章/答案/技术大牛

发布

LV0

发表了文章 15小时前2026-07-09 15:05:43

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈

大家好，今天我们在 Mac mini 的终端前，来聊聊 2026 年数据工程领域的一个重要架构演进。

jackcode 15小时前2026-07-09 15:05:43

python爬虫、动态代理、网页爬虫、python、requests

发表了文章 2天前2026-07-07 14:49:30

技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略

爬虫开发者第一次撞上 SPA（Single Page Application），通常是这种场景：浏览器里点一个分类标签，列表刷出来了；用 requests 拉同...

jackcode 2天前2026-07-07 14:49:30

动态代理、异步、dom、自动化测试工具、数据采集

发表了文章 3天前2026-07-06 14:31:09

爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？

相信很多写过一段时间爬虫的同学大概率撞过这堵“隐形墙”：在浏览器里明明白白显示着"￥9.9"的价格，或者一段验证码文本，但当你切换到 DevTools 时，发现...

jackcode 3天前2026-07-06 14:31:09

python、网页爬虫、beautifulsoup、xpath、python爬虫

发表了文章 7天前2026-07-02 13:44:27

手把手带你用Python撸一个多线程+代理池下载器

做数据采集的同行们，在爬虫进阶的路上肯定都遇到过这个瓶颈：当目标数据量从几百条飙升到十万级别，尤其是涉及图片、视频等多媒体文件时，普通的单线程下载不仅慢得让人怀...

jackcode 7天前2026-07-02 13:44:27

下载分发加速、动态代理、python爬虫、python、多线程

发表了文章 8天前2026-07-01 15:29:35

谈谈长连接（Keep-Alive）在超大规模爬虫抓取中的性能差距

大家好，欢迎回到我的技术专栏。在日均抓取量突破千万级别的爬虫场景里，连接管理是决定单机 QPS 和机器成本的关键因素。很多团队在初期用短连接跑得很顺，但当规模膨...

jackcode 8天前2026-07-01 15:29:35

动态代理、性能优化、python3、http、tls

发表了文章 9天前2026-06-30 14:40:31

实战：利用Playwright隐藏自动化特征（Stealth模式）的底层原理

大家好，今天我们来聊聊自动化爬虫中一个非常让人头疼的问题。很多兄弟经常遇到这样的场景：用Playwright写好的爬虫代码，本地跑得好好的，一放到服务器上就被目...

jackcode 9天前2026-06-30 14:40:31

python爬虫、python、playwright、自动化测试、浏览器

发表了文章 10天前2026-06-29 14:04:04

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？

搭建一个日产千万级页面的企业级分布式爬虫系统，框架选型往往是决定项目生死的第一步。在 Python 生态中，Scrapy 和 PySpider 是提及率最高的两...

jackcode 10天前2026-06-29 14:04:04

python爬虫、动态代理、scrapy、pyspider、python

发表了文章 14天前2026-06-25 13:59:33

别只盯着HTML了！教你高效抓取并解析PDF/Excel隐藏附件？

在日常的数据采集工作中，大家可能会发现一个痛点：大多数的爬虫教程只教你怎么抓取HTML页面的数据。但在实际的业务场景里，像央行年报、政府公开数据、证券交易记录以...

jackcode 14天前2026-06-25 13:59:33

excel、html、python-requests、python、pdf

发表了文章 15天前2026-06-24 14:59:55

告别频繁崩溃与OOM：百万级Scrapy爬虫架构优化

不知道大家在日常开发中，有没有遇到过这种极其抓狂的场景：写了个 Scrapy 爬虫，跑十万级规模的项目稳如老狗，一旦把目标定到百万级页面，系统就开始疯狂“作妖”...

jackcode 15天前2026-06-24 14:59:55

scrapy、python爬虫、架构设计、动态代理、浏览器

发表了文章 16天前2026-06-23 13:51:34

Python爬虫进阶：Playwright请求拦截（Request Interception）实战

大家好，在日常的爬虫开发和自动化抓取中，我们经常会遇到一些让人头疼的场景。比如目标网站加载了大量无关的图片和视频拖慢了抓取速度，或者通过检测请求头和前端特征来封...

jackcode 16天前2026-06-23 13:51:34

python、playwright、request、动态代理、网络爬虫

发表了文章 17天前2026-06-22 13:44:15

那些年我们踩过的坑：如何处理网页爬取中的中文字符集乱码（GBK/UTF-8）？

作为一名在爬虫坑里摸爬滚打多年的老兵，今天必须来聊聊这个让无数新手甚至老鸟都痛不欲生的终极暗器——网页乱码。

jackcode 17天前2026-06-22 13:44:15

动态代理、content-type、网页爬虫、http、python-requests

发表了文章 22天前2026-06-17 14:13:50

全面复盘：BeautifulSoup在处理大规模脏数据时的崩溃问题与解法

大家好，今天我们来聊聊一个老生常谈、却又常常让人在生产环境中痛不欲生的话题——大规模脏数据处理。

jackcode 22天前2026-06-17 14:13:50

python、大数据、html、python爬虫、beautifulsoup

发表了文章 29天前2026-06-10 14:01:18

告别 403 与空数据！爬虫新手避坑指南：如何优雅地抓取 Ajax 异步加载数据

今天，我们就从底层原理聊起，手把手教你如何拆解 Ajax 异步接口，并用最优雅、最高效的方式把这些隐藏在幕后的真实数据“扒”出来！

jackcode 29天前2026-06-10 14:01:18

python爬虫、requests、动态代理、http-status-code-403、ajax

发表了文章 30天前2026-06-09 16:28:04

为什么说掌握了HTTP协议状态码，就解决了50%的爬虫报错

在爬虫圈子里，经常能看到新手在各大技术社区发帖求助：“为什么我的爬虫昨天还好好的，今天就报错了？”、“刚爬了不到百条数据就返回空，是不是被反爬了？”

jackcode 30天前2026-06-09 16:28:04

http、python、python爬虫、网络爬虫、网页爬虫

发表了文章 2026-06-032026-06-03 14:09:31

如何优雅地搞定复杂 SPA 爬虫？Playwright异步模式实战踩坑指南

作为一个长期和各种反爬、动态渲染死磕的爬虫程序员，最近常有同行向我吐槽：现在的网站越来越难爬了。尤其是遇到用 React 或 Vue 架构的 SaaS 管理后台...

jackcode 2026-06-032026-06-03 14:09:31

浏览器、playwright、异步编程、python爬虫、网络爬虫

发表了文章 2026-06-022026-06-02 13:41:59

为什么你的爬虫跑着跑着内存就爆了？BeautifulSoup、Lxml与XPath的性能生死局

作为长期在数据采集一线摸爬滚打的爬虫党，我经常在私信里收到类似的求助：“为什么我的爬虫刚启动时速度飞快，跑个几小时内存就从 200MB 飙到好几个G，最后直接被...

jackcode 2026-06-022026-06-02 13:41:59

xpath、高性能、python爬虫、beautifulsoup、lxml

发表了文章 2026-05-282026-05-28 16:59:50

如果你天天用 requests.get()，请务必读懂这篇文章

大多数人在遇到这类问题时，习惯性的动作是打开搜索引擎，盲目地换几个代理 IP 或者加几行重试代码，运气好问题解决了，运气不好就继续在工位上抓耳挠腮。

jackcode 2026-05-282026-05-28 16:59:50

session、python爬虫、requests、python-requests、动态代理

发表了文章 2026-05-272026-05-27 15:57:12

为什么我劝你放弃Selenium拥抱Playwright

经常有同行或者刚入路的小伙伴在私信里问我：“博主，都2026年了，写爬虫和自动化到底是选 Selenium 还是 Playwright ？”

jackcode 2026-05-272026-05-27 15:57:12

selenium、selenium-chromedriver、playwright、python、网络爬虫

发表了文章 2026-05-262026-05-26 15:42:28

从“秒封”到“日爬十万”：谈谈5个风控机制

经常在知乎看到有刚学完 Python 基础的小白提问：“为什么我刚写好的爬虫，才跑了十几页就被封了？是我代码写得太烂，还是运气不好？”

jackcode 2026-05-262026-05-26 15:42:28

python、python爬虫、爬虫、proxy、http

发表了文章 2026-05-192026-05-19 14:51:13

别再盲目开高并发了：Python爬虫代理IP调优与防封高阶指南

经常在后台收到不少同行的私信：“我的爬虫代码明明没问题，为什么跑了不到十分钟就全红了，全是 403 和验证码？”

jackcode 2026-05-192026-05-19 14:51:13

python、python爬虫、动态代理、代理服务器、高并发

12 3 4 5 6 7 8...26 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2020-09-11

个人成就

获得 707 次赞同
文章被阅读 558.2K 次

关注了：4关注者：26