这里记录下使用 GitHub Actions持续集成服务自动发布镜像到DockerHub,目前GitHub Actions是免费开放的,所以Github上的项目都可以使用它来发布、测试、部署等等,非常方便。
如何使用Python快速高效地统计出大文件的总行数, 下面是一些实现方法和性能的比较。
简化SSH登陆过程, 实现从机器A登陆机器B只需要运行`ssh hostname`即可, 即不需要输入用户名和密码
在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代理IP,从而保证爬虫快速稳定的运行,当然在公司做的东西不能开源出来
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。
captcha模块是专门用于生成图形验证码和语音验证码的Python三方库。图形验证码支持数字和英文单词
在GitHub上维护了一个[代理池](https://github.com/jhao104/proxy_pool)的项目,代理来源是抓取一些免费的代理发布网站。上午有个小哥告诉我说有个代理抓取接口不能用了,返回状态521。抱着帮人解决问题的心态去跑了一遍代码。发现果真是这样。
(Classification)是数据挖掘领域中的一种重要技术,它从一组已分类的训练样本中发现分类模型,将这个分类模型应用到待分类的样本进行预测