摘要:從今天起,我將在這里更新一個系列的簡單爬蟲到建立網站的實踐手記。內容將會從最簡單的開始,環境搭建,基本爬蟲,入庫,用建立可供用戶訪問的網站,網站部署。第一部分,買,裝環境。我們爬蟲站點的所有文件都放在里面。
從今天起,我將在這里更新一個系列的python簡單爬蟲到建立網站的實踐手記。
內容將會從最簡單的開始,環境搭建,基本爬蟲,入庫,用Django建立可供用戶訪問的網站,網站部署。
同時打算涉及簡單的異步爬蟲,piplibe,隊列等等。
為了方便,將使用django和sqlite3來作為例子, 雖然有時候這并不是最合適的場景。。
最終目的:一個能用的自動更新的垃圾站
下面進入正題。
第一部分,買VPS,裝環境。本文的一切操作都在vps上
在Runabove建立最便宜的instance.
選擇魁省機房-Sandbox-M-Ubuntu14.10-輸入Instace名字"PythonSpider"-FireUp!
不出一分鐘,VPS就建立好了。
用SSH 連接服務器
先建立一個screen,順手更新apt-get,以后都在這里面操作,避免掉線導致任務中斷。
bashscreen -S spider # 取名叫spider的screen sudo apt-get update sudp apt-get upgrade
再順手安裝一些肯定會用的東西
bashsudo apt-get install gcc python-dev -y sudo - #這一步以后,用戶就是root了 記住 nginx=stable # use nginx=development for latest development version add-apt-repository ppa:nginx/$nginx apt-get update apt-get install nginx -y apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y
裝pip和virtualenv
bashwget https://bootstrap.pypa.io/get-pip.py python get-pip.py pip install virtualenv
建立~/venv目錄,建立virtualenv, 激活virtualenv
bashmkdir ~/venv cd ~/venv virtualenv spider source ~/venv/spider/bin/activate
之后,shell提示符應該是這樣
安裝django(1.7)
bashpip install django cd ~ # 返回用戶目錄
5秒鐘后,django安裝完畢,現在開始建立項目目錄(Django的project)。我們爬蟲站點的所有文件都放在里面。
bashdjango-admin startproject python_spider
再測試下安裝是否成功
bashservice nginx stop # 為毛? 因為RunAbove的8000神馬的端口不好用 python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼
現在訪問192.99.71.91,我就能看到Django的示例頁面
沒騙你吧? 好了,看一眼能用就ctrl+c把服務器關掉。
然后,再建立一個app
bashcd python_spider python manage.py startapp web
所以,現在我有一個Django項目,叫python_spider, 它里面有個app叫web.
未完待續。。。(點擊下面閱讀)
下一篇,是簡單Python爬蟲的編寫。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/37503.html
摘要:接上回第二部分,編寫爬蟲。進入微信嵌套選擇圖片和上傳圖片接口,實現一鍵上傳圖片,遇到問題看吧,我現在已經可以通過爬蟲獲取的提問標題了。微信故意省略想做小偷站的,看到這里基本上就能搞出來了。下一篇,采集入庫 上回,我裝了環境 也就是一對亂七八糟的東西 裝了pip,用pip裝了virtualenv,建立了一個virtualenv,在這個virtualenv里面,裝了Django,創建了一個...
摘要:進入正題第三部分,采集入庫。內容如下加上這個可以記住問題在的位置,方便以后更新或者其他操作都很直白,關于各個可以看看的文檔。代碼如下添加方法采集當前分頁正在抓取分頁這個地方寫得很笨,之前該在加上這個屬性。 上回,我已經大概把爬蟲寫出來了。 我寫了一個內容爬蟲,一個爬取tag里面內容鏈接的爬蟲 其實還差一個,就是收集一共有哪些tag的爬蟲。但是這里先不說這個問題,因為我上次忘了 這次又不...
摘要:大概個月前已新手的身份寫了幾篇入門的文章爬蟲建站入門手記從零開始建立采集站點結果弄到一半就棄坑了。前兩次的視頻存檔編寫爬蟲入庫由于很久沒有寫這些東西了,視頻里面有一半的時間在和上找資料。。。下面是建立的一個微信群的二維碼 大概20個月前已新手的身份寫了幾篇入門的文章:Python爬蟲建站入門手記——從零開始建立采集站點 結果弄到一半就棄坑了。 該填的坑是要填的,于是我最近開始在 liv...
摘要:從零開始系列文章,將介紹如何利做為服務端腳本,通過框架開發。框架是基于的引擎,是目前速度最快的引擎。瀏覽器就基于,同時打開個網頁都很流暢。標準的開發框架,可以幫助我們迅速建立站點,比起的開發效率更高,而且學習曲線更低。 從零開始nodejs系列文章,將介紹如何利Javascript做為服務端腳本,通過Nodejs框架web開發。Nodejs框架是基于V8的引擎,是目前速度最快的Java...
摘要:是什么呀是一個和不太一樣的數據庫。懷疑是同時聯了四個集合的數據造成的。這本書的定位是和的應用,所以有意弱化了數據庫的搭建維護和底層優化。所以本書可能不適合數據庫工程師。 這篇文章沒有代碼,請放心閱讀。 程序員最寶貴的東西是生命,生命屬于程序員只有一次。一個程序員的一生應該這樣度過:當她回首往事的時候,她不會因為搭建環境浪費時間而悔恨,也不會因為集群無法運行而羞恥。這樣,在她開發的時候,...
閱讀 1227·2021-09-26 09:55
閱讀 3195·2019-08-30 15:55
閱讀 968·2019-08-30 15:53
閱讀 2297·2019-08-30 13:59
閱讀 2381·2019-08-29 13:08
閱讀 1110·2019-08-29 12:19
閱讀 3305·2019-08-26 13:41
閱讀 421·2019-08-26 13:24