大小:1.60 MB更新:2022-02-02 13:24:58
类别:网络软件系统:WinAll
包名:
ScrapydWeb提供了web爬行项目管理功能。您可以向软件添加多个地址来执行爬网。你可以在软件中运行蜘蛛收集网络,所有的收集服务都显示在软件中。可以在软件中添加新的Scrapyd项目进行分析,实现集群管理模式,方便多个web项目的抓取。爬行全部显示在软件中,可以查看列表项和博客内容。你可以通过可视化界面查看博客数据,结合统计表分析收集数据,建立分布式方案执行爬行任务,在Heku的Scrapyd上设置集群,在web界面管理你的任务,并运行蜘蛛,利用定时功能随时执行爬行任务!
一、Scrapyd集群管理
支持所有scrapydon APIs
分组、过滤并选择任意数量的节点。
只需点击几下鼠标,即可在多个节点上执行命令。
二、剪贴簿年报分析
统计数据收集
进度可视化
记录分类
第三,增强功能
自动打包项目
与日志分析器集成
计时器任务
还有监控和警报。
用户界面
网络的基本认证
支持定期运行蜘蛛程序的任务计划。
继续在数据库中工作。
适应LogParser v0.8.1,如有,请在统计页面显示Crawler.stats和Crawler.engine。
支持备份stats json文件,以防止Scrapyd删除原始日志文件。
支持单独设置电子邮件用户名(问题28)
为作业、日志和项目页面引入新的用户界面
在“部署项目并运行蜘蛛”页面中添加“从同步”页面复选框。
将“概述”重命名为“”,将“仪表板”重命名为“作业”
如何简单高效地部署和监控分布式爬虫项目
安装和设置
1.确保所有主机上都安装并启动了Scrapyd。请注意,如果要远程访问Scrapyd,必须手动将bind_address设置为,bind_address = 0.0.0.0,然后重新启动Scrapyd,使其在外部可见。
2.通过命令在您的一台主机上安装ScrapydWebpip安装scrapydweb。
3.通过命令启动ScrapydWebscrapy web。(首次启动时将生成一个配置文件来自定义设置。)
4.启用HTTP基本身份验证(可选)。
5.添加你的Scrapyd,它支持字符串和元组格式。您可以附加用于访问Scrapyd的基本身份验证和用于分组或标记的字符串。
6.通过命令重新启动ScrapydWebscrapy web。
访问网页界面
转到http://127.0.0.1:5000,并使用上面的USERNAME/PWORD登录。
页面会自动显示所有Scrapyd的工作状态。
您可以通过分组和过滤选择任意数量的剪贴簿,只需点击几下就可以在集群上调用剪贴簿的HTTP ON API。
与日志分析器集成后,作业页面可以自动显示抓取作业的页面和项目。
默认情况下,ScrapydWeb会定期创建抓取作业的快照,并将其保存在数据库中,以避免在重新启动Scrapyd时丢失作业。(第12位)
部署项目
将scrap _ projects _ dir选项设置为包含报废项目的路径后,ScrapydWeb将列出目录中的所有项目,并选择新修改的项目。只需选择一个项目并按下按钮提交,就会在后台自动打包。
如果ScrapydWeb在本地开发一个Scrapy项目,当它远程运行时会怎么样?除了上传egg文件,还可以使用归档软件或者使用tar命令将项目文件夹压缩成归档文件tar-czvf pjectname.tar.gz/home/username/mypProjects/pjectname,并上传。
您可以选择任意数量的Scrapyd来部署项目。
奔跑的蜘蛛
从下拉框中依次选择一个项目、一个版本和一个蜘蛛。
您可以随意传递任何Scrapy设置或Spider参数。
支持基于APScheduler创建计时器任务。(如果你想同时启动多个蜘蛛,请不要忘记调整Scrapyd的max-pc选项)
你可以选择任意数量的Scrapyd来运行蜘蛛。
分析和可视化
如果Scrapyd和ScrapydWeb在同一台计算机上运行,建议设置SCRAPYD _ LOGS _ DIR和ENABLE_LOARSER选项,这样LogParser就可以和ScrapydWeb一起自动启动。LOARSER的子流程会在分析中指定目录Scrapy日志文件,并定期递增,这样可以加快统计页面的加载速度,而不会因为原始日志文件的请求而消耗内存和带宽。
同样,在其余主机上安装并运行日志分析器。
如果您使用的是Scrapy 1.5.1和更早版本,那么LogParser可以通过Scrapy内置的telnet控制台收集Crawler.stats和Crawler.engine。
计时器任务
任务的参数及其执行结果。
您可以自由暂停、继续、触发、停止、编辑和删除任务。
电子邮件
通过在查询期间定期访问“统计”页面,ScrapydWeb可以在满足某些条件时向您发送包含当前职务统计的电子邮件。
1.设置您的电子邮件帐户:
2.设置电子邮件工作时间和基本触发条件:
以上设置是指当当前时间满足9: 00、12: 00、17: 00的工作时间时,每小时发送一封邮件。这也适用于工作的完成。
3.除了上述基本触发器,ScrapydWeb还提供了多种触发器来处理特定类型的日志,包括& # 8217;关键& # 8217;,’错误& # 8217;,’警告& # 8217;,’重定向& # 8217;,’RETRY & # 8217和& # 8217;IORE & # 8217。
以上设置意味着ScrapydWeb如果在暂存标志中找到三个或更多关键标志,将自动停止当前抓取作业。如果满足电子邮件的工作时间,将发送一封电子邮件。
移动用户界面