CentOS7之Scrapy爬蟲部署

scq000 發布于2019-06-26 17:01 / 1711人閱讀

摘要：安裝配置文件內容如下守護進程，用這個的原因實在是因為太脆弱了，一看不住就掛了安裝配置導入默認配置鏈接管理設置管理進程啟動創建文件內容如下啟動查看如一切正常常用命令查看狀態重新載入重啟任務可以更新配置檢查日志爬蟲部署部署項目目錄

scrapyd 安裝:

sudo pip install scrapyd

配置:

#文件~/.scrapyd.conf
#內容如下:
[scrapyd]
eggs_dir    = /home/sirius/scrapyd/eggs
logs_dir    = /home/sirius/scrapyd/logs
items_dir   = /home/sirius/scrapyd/items
jobs_to_keep = 5
dbs_dir     = /home/sirius/scrapyd/dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 50
poll_interval = 5
bind_address = 0.0.0.0
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
#daemonstatus.json = scrapyd.webservice.DaemonStatus

supervisor

守護進程，用這個的原因實在是因為scrapyd太脆弱了，一看不住就掛了

安裝:

sudo pip install supervisor

配置:

sudo mkdir -p /etc/supervisor/

＃導入默認配置
sudo su - root -c "echo_supervisord_conf > /etc/supervisor/supervisord.conf"

#鏈接管理
[inet_http_server]         ; inet (TCP) server disabled by default
port=127.0.0.1:9001        ; (ip_address:port specifier, *:port for all iface)
;username=user              ; (default is no username (open server))
;password=123               ; (default is no password (open server))  

[supervisorctl]
;serverurl=unix:///tmp/supervisor.sock ; use a unix:// URL  for a unix socket
serverurl=http://127.0.0.1:9001 ; use an http:// url to specify an inet socket
;username=chris              ; should be same as http_username if set
;password=123                ; should be same as http_password if set
;prompt=mysupervisor         ; cmd line prompt (default "supervisor")
;history_file=~/.sc_history  ; use readline history if available

#設置管理進程
[program:scrapyd]
command=scrapyd
autostart=true
autorestart=unexpected

啟動

`創建文件/usr/lib/systemd/system/supervisord.service內容如下:

[Unit]                                                              
Description=supervisord - Supervisor process control system for UNIX
Documentation=http://supervisord.org                                
After=network.target                                                

[Service]                                                           
Type=forking                                                        
ExecStart=/usr/bin/supervisord -c /etc/supervisor/supervisord.conf             
ExecReload=/usr/bin/supervisorctl reload                            
ExecStop=/usr/bin/supervisorctl shutdown                            
User=

[Install]                                                           
WantedBy=multi-user.target

#啟動
sudo systemctl enable supervisord
sudo systemctl start supervisord

#查看
supervisorctl

#如一切正常
|>$ scrapyd   RUNNING   pid 8059, uptime 0:02:02

#常用命令
status #查看狀態
reload #重新載入
restart scrapyd #重啟任務
update #可以更新 supervisor 配置
tail -f scrapyd stderr #檢查日志

爬蟲部署: 部署:

cd <項目目錄>
scrapyd-deploy

API控制:

curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

云服務器 GPU云服務器 scrapy 爬蟲爬蟲scrapy scrapy爬蟲 scrapy登錄爬蟲

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/18841.html

CentOS7之Scrapy爬蟲部署

摘要：安裝配置文件內容如下守護進程，用這個的原因實在是因為太脆弱了，一看不住就掛了安裝配置導入默認配置鏈接管理設置管理進程啟動創建文件內容如下啟動查看如一切正常常用命令查看狀態重新載入重啟任務可以更新配置檢查日志爬蟲部署部署項目目錄 scrapyd 安裝: sudo pip install scrapyd 配置: #文件~/.scrapyd.conf #內容如下: [scrapyd] egg...

elisa.yang 2019-07-31 11:43 評論0 收藏0
小程序開發（一）：使用scrapy爬蟲采集數據

摘要：用途廣泛，可以用于數據挖掘監測和自動化測試。運行下，發現數據全部存到了數據庫中。提供了一些接口來查看項目爬蟲情況，以及執行或者停止執行爬蟲。完成小程序所需要的所有接口的開發，以及使用定時任務執行爬蟲腳本。過完年回來，業余時間一直在獨立開發一個小程序。主要數據是8000+個視頻和10000+篇文章，并且數據會每天自動更新。我會整理下整個開發過程中遇到的問題和一些細節問題，因為內容會比...

mrli2016 2019-07-31 10:19 評論0 收藏0
Python爬蟲之用supervisor使scrapy在服務器后臺運行

摘要：折騰原因之前都是遠程連接服務器，然后在命令行運行，一旦關閉遠程連接，爬蟲就會停止，很不爽，畢竟能讓一個爬蟲在服務器一直跑才是每個小白的夢想，所以開始研究如何使程序在后臺運行，剛開始看了，感覺不好用，又搜了搜，發現了這個進程管理程序。折騰原因之前都是遠程連接服務器，然后在命令行運行scrapy crawl spider，一旦關閉遠程連接，爬蟲就會停止，很不爽，畢竟能讓一個爬蟲在服務器...

Turbo 2019-07-30 18:37 評論0 收藏0
部署Scrapy分布式爬蟲項目

摘要：以上示例代表當發現條或條以上的級別的時，自動停止當前任務，如果當前時間在郵件工作時間內，則同時發送通知郵件。 showImg(https://segmentfault.com/img/remote/1460000018052810); 一、需求分析初級用戶：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目，以及通過 Scrapyd JS...

techstay 2019-07-31 10:01 評論0 收藏0