数据分析
基于 Python 和 Selenium 实现 CSDN 一键三连自动化
博主感受到了面对年轻"后浪"压力的危机感,提及IT行业35岁门槛,称赞年轻技术大佬[Catcher Wong](https://www.cnblogs.com/catcher1994)的技术实力。讨论了"不正经"博主Kimol君通过标题党和评论互刷等手段获取流量的问题,提到评论风格和团队作弊行为。另外,探讨了年轻人不讲"武德"的现象,介绍了使用Selenium和Python刷CSDN点赞、收藏等操作的技术实现方法。最后,分享了Python数据挖掘专栏和技术驱动的浏览器操作配置方法。
数据分析
使用多线程为你的 Python 爬虫提速的 N 种姿势,你会几种?
博主通过优化一个多年前编写的爬虫程序,深入探讨了 Python 中的多线程编程及其在爬虫领域的应用。文章首先介绍了线程和进程的基本概念,并通过代码示例展示了如何使用 `Thread`、`ThreadPool`、`ThreadPoolExecutor`、`Process`、`ProcessPool` 和 `ProcessPoolExecutor` 实现多线程和多进程下载。接着,文章讨论了由于 Python 的 GIL 特性,多线程在 Python 中主要适用于I/O密集型任务,而多进程则适用于CPU密集型任务。此外,博主还介绍了如何利用 `asyncio` 和 `requests` 实现异步I/O,以进一步提升爬虫程序的效率。文章最后通过对比不同方法的执行时间,展示了各自性能,并提供了一个福利,开源了示例爬虫程序给读者参考。1