环境:
scrapy
mysql5.7
scrapyd
weibo
调用 api:
curl http://ip:port/schedule.json -d project=weiboSpider -d spider=weibo
查看 爬虫节点:
curl http://ip:port/listspiders.json?project=weiboSpider
终止爬虫:
curl http://ip:port/cancel.json -d project=weiboSpider -d job=82f5e8f23c9e11e8b5de00163e0cb35d
查看爬虫任务:
curl http://ip:port/listjobs.json?project=weiboSpider
weiboBlog
调用 api:
curl http://ip:port/schedule.json -d project=weiboSpider -d spider=weiboBlog
环境: docker
使用 docker 定时执行 python 文件
-
构建 docker 的 python 环境:
Dockerfile: ''' FROM python RUN pip install apscheduler RUN pip install requests '''
-
开始构建:
docker build -t weibospider . weibospider 是构建的 docker 镜像名称
-
运行 docker:
docker run -p 9090:9090 -v /usr/local/project/weiboData/JobScheduler.py:/weibodata/JobScheduler.py --name weibocrawler weibospider python /weibodata/JobScheduler.py
-v 前边部分表示宿主机位置,后边部分表示docker容器位置 --name weibocrawler 表示唯一的容器标识
常用命令:
docker ps
docker ps -a
docker run 镜像名称 # 创建容器并执行
docker start/restart/stop 容器名称/容器id
docker rmi 镜像id(删除镜像前要先删除所有的容器)
docker rm 容器id
docker inspect weibocrawler # 查看容器详细信息