摘要:今日頭條的數據都是加載顯示的,按照正常的是抓取不到數據的,需要分析出加載出址,我們以為例來采集列表的文章用谷歌瀏覽器打開鏈接,右鍵點擊審查在控制臺切換至并點擊,這樣就可以過濾圖片文件等等不必要的請求只看頁面內容的請求由于頁面是加載的,所以將
今日頭條的數據都是ajax加載顯示的,按照正常的url是抓取不到數據的,需要分析出加載出址,我們以 https://www.toutiao.com/searc... 為例來采集列表的文章
用谷歌瀏覽器打開鏈接,右鍵點擊“審查”在控制臺切換至network并點擊XHR,這樣就可以過濾圖片、文件等等不必要的請求只看頁面內容的請求
由于頁面是ajax加載的,所以將頁面拉至最底部,會自動加載出更多文章,這時候控制臺抓取到的鏈接就是我們真正需要的列表頁鏈接:
https://www.toutiao.com/searc...
在藍天采集器中創建一個任務
創建完畢點擊“采集器設置”,在“起始頁網址”中填入上面抓取到的鏈接
接下來匹配內容頁網址,頭條的文章網址格式是https://www.toutiao.com/group...
點擊“內容頁網址”編寫“匹配內容網址”規則:
(?
這是個正則規則,意思就是把匹配的網址裝進捕獲組content1中,然后在下面填寫[內容1] 即對應上面的content1 就可獲取到內容頁鏈接
可以點擊測試查看是否成功抓取到了鏈接
抓取成功就可以開始獲取內容了
點擊“獲取內容”在字段列表右邊可以添加默認的字段,如標題、正文等都可以智能識別,如需精準還可以自行編輯字段,支持正則、xpath、json等匹配內容
我們需要抓取文章的標題和正文,由于是ajax顯示的所以要寫規則匹配出內容,分析篇源碼:https://www.toutiao.com/a6358... ,找到文章位置
標題規則:articleInfos:s{stitle:s"[內容1]",
正文規則:contents:s"[內容1]",s*groupId
規則必須保證唯一性,不然會匹配到其他內容上去,將規則添加到字段中,獲取方式選規則匹配:
規則編寫完后點擊保存,點擊“測試”看看效果如何
規則無誤,抓取正常,抓取到的數據還可以發布到cms系統、直接數據庫入庫、保存為excel文件等,點擊底部導航條的“發布設置”即可,好了今日頭條的采集到這里就結束了,大家不妨動手試試!
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/30744.html
摘要:上一篇文章網絡爬蟲實戰數據爬取下一篇文章網絡爬蟲實戰動態渲染頁面抓取本節我們以今日頭條為例來嘗試通過分析請求來抓取網頁數據的方法,我們這次要抓取的目標是今日頭條的街拍美圖,抓取完成之后將每組圖片分文件夾下載到本地保存下來。 上一篇文章:Python3網絡爬蟲實戰---35、 Ajax數據爬取下一篇文章:Python3網絡爬蟲實戰---37、動態渲染頁面抓取:Selenium 本節我們...
摘要:使用的方式來做采集,擁有豐富的插件。下面來演示使用插件抓取動態創建的頁面內容。插件使用瀏覽器打開連接使用以采集今日頭條手機版為例,今日頭條手機版基于框架,內容是純動態渲染出來的。 QueryList使用jQuery的方式來做采集,擁有豐富的插件。 下面來演示QueryList使用PhantomJS插件抓取JS動態創建的頁面內容。 安裝 使用Composer安裝: 安裝QueryList...
摘要:采集網頁內容是一項很常見的需求,比較傳統的靜態頁面,就能搞定。代碼中使用了一個方法,是為了讓內容加載完成后再進行截圖,簡單粗暴,可能不是最好的解決辦法。總結被應用于測試采集等場景,是一個非常有力的工具。 showImg(https://segmentfault.com/img/remote/1460000014522692?w=640&h=360); 采集網頁內容是一項很常見的需求,比...
摘要:所以說,我們所看到的微博頁面的真實數據并不是最原始的頁面返回的,而是后來執行后再次向后臺發送了請求,拿到數據后再進一步渲染出來的。結果提取仍然是拿微博為例,我們接下來用來模擬這些請求,把馬云發過的微博爬取下來。 上一篇文章:Python3網絡爬蟲實戰---34、數據存儲:非關系型數據庫存儲:Redis下一篇文章:Python3網絡爬蟲實戰---36、分析Ajax爬取今日頭條街拍美圖 ...
閱讀 1807·2023-04-26 02:14
閱讀 3729·2021-11-23 09:51
閱讀 1387·2021-10-13 09:39
閱讀 3976·2021-09-24 10:36
閱讀 3016·2021-09-22 15:55
閱讀 3524·2019-08-30 12:57
閱讀 2041·2019-08-29 15:30
閱讀 1988·2019-08-29 13:19