扒取方法
public function index() { $url = "http://www.dytt8.net/"; // $url = "Public/txt/movies.txt"; $content = file_get_contents($url); $content = iconv("gb2312", "utf-8//IGNORE",$content); $reg = "|(.*?)|is";//正則匹配div $res = preg_match_all($reg, $content, $match); $count = count($match[1]); //有數據 if($count) { $arr = array(); $array = array(); for($i=0;$i<$count;$i++) { $a = "|]*>(.*?)|is"; //匹配value $patten="//";//匹配href值 preg_match_all($a, $match[1][$i], $mat); preg_match_all($patten, $match[1][$i], $href); foreach($mat[1] as $key=>$val){ $array = array( "href"=>"http://www.dytt8.net/".$href[1][$key], "name"=>$val, "ctime"=>time(), ); array_push($arr,$array); } } $res = $this->Movies->addAll($arr); if($res) { echo "抓取成功!"; } else { echo "抓取失敗!"; } } }
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/30435.html
摘要:按照同樣的方式扒取所有的自己的用戶。但是為了尊重人家隱私權,好吧,就這樣吧,我也不能做啥。 這幾天我很焦慮,受不了那些先follow我,等我follow回去后又unfollow的人,因為是他們先follow我的,我出于人道主義想著互粉一下的,結果這么對我,太不厚道了。github又不像微博那樣有互粉標志,這真的整得我很心煩,于是想著寫一個爬蟲,把這些壞人揪出來~第一步,當然是放出代碼啦...
摘要:對于數據科學而言只是一個工具。扒取網站前端的源碼應該是一個學習開發人員必備的技能,具備了此能力你可以快速搭建起一個網站。接下來我會把崔大佬的個人博客網站使用實現。 1、準備 工具:仿站小工具+V9.0 工具獲取方式一: 關注微信公眾號 微信公眾號『stormsha』,后臺回復『仿站工具』獲取工具 工具獲取方式二: 仿站小工具官網 https://smalltool.github.io/...
摘要:對于數據科學而言只是一個工具。扒取網站前端的源碼應該是一個學習開發人員必備的技能,具備了此能力你可以快速搭建起一個網站。接下來我會把崔大佬的個人博客網站使用實現。 1、準備 工具:仿站小工具+V9.0 工具獲取方式一: 關注微信公眾號 微信公眾號『stormsha』,后臺回復『仿站工具』獲取工具 工具獲取方式二: 仿站小工具官網 https://smalltool.github.io/...
閱讀 1516·2021-08-09 13:47
閱讀 2776·2019-08-30 15:55
閱讀 3500·2019-08-29 15:42
閱讀 1122·2019-08-29 13:45
閱讀 3015·2019-08-29 12:33
閱讀 1748·2019-08-26 11:58
閱讀 991·2019-08-26 10:19
閱讀 2416·2019-08-23 18:00