80行代碼爬取豆瓣Top250電影信息并導(dǎo)出到csv及數(shù)據(jù)庫

galaxy_robot 發(fā)布于2019-07-30 14:56 / 1230人閱讀

摘要：查看源碼下載頁面并處理提取數(shù)據(jù)觀察該網(wǎng)站結(jié)構(gòu)可知該頁面下所有電影包含在標(biāo)簽下。使用語句獲取該標(biāo)簽在標(biāo)簽中遍歷每個(gè)標(biāo)簽獲取單個(gè)電影的信息。以電影名字為例清洗數(shù)據(jù)其余部分詳見源碼頁面跳轉(zhuǎn)檢查后頁標(biāo)簽。

查看源碼

1 下載頁面并處理

DOWNLOAD_URL = "http://movie.douban.com/top250/"
html = requests.get(url).text
tree = lxml.html.fromstring(html)

2 提取數(shù)據(jù)

觀察該網(wǎng)站html結(jié)構(gòu)

可知該頁面下所有電影包含在 ol 標(biāo)簽下。每個(gè) li 標(biāo)簽包含單個(gè)電影的內(nèi)容。

使用XPath語句獲取該ol標(biāo)簽

movies = tree.xpath("http://ol[@class="grid_view"]/li")

在ol標(biāo)簽中遍歷每個(gè)li標(biāo)簽獲取單個(gè)電影的信息。

以電影名字為例

for movie in movies:
    name_num = len(movie.xpath("descendant::span[@class="title"]"))
    name = ""
    for num in range(0, name_num):
        name += movie.xpath("descendant::span[@class="title"]")[num].text.strip()
    name = " ".join(name.replace("/", "").split())  # 清洗數(shù)據(jù)

其余部分詳見源碼

3 頁面跳轉(zhuǎn)

檢查“后頁”標(biāo)簽。跳轉(zhuǎn)到下一頁面

next_page = DOWNLOAD_URL + tree.xpath("http://span[@class="next"]/a/@href")[0]

返回None則已獲取所有頁面。

4 導(dǎo)入csv

創(chuàng)建csv文件

writer = csv.writer(open("movies.csv", "w", newline="", encoding="utf-8"))
fields = ("rank",  "name", "score", "country", "year", "category", "votes", "douban_url")
writer.writerow(fields)

其余部分詳見源碼

5 導(dǎo)入數(shù)據(jù)庫（以mysql為例）

先在mysql中創(chuàng)建數(shù)據(jù)庫與表，表的屬性應(yīng)與要插入的數(shù)據(jù)保持一致

連接數(shù)據(jù)庫db = pymysql.connect(host="127.0.0.1", port=3306, user="root", passwd=PWD, db="douban",charset="utf8")
創(chuàng)建游標(biāo)cur = db.cursor()

將獲取的電影信息導(dǎo)入數(shù)據(jù)庫

sql = "INSERT INTO test(rank, NAME, score, country, year, " 
          "category, votes, douban_url) values(%s,%s,%s,%s,%s,%s,%s,%s)"
    try:
        cur.executemany(sql, movies_info)
        db.commit()
    except Exception as e:
        print("Error:", e)
        db.rollback()

6 效果顯示

因Windows系統(tǒng)默認(rèn)以ANSI編碼打開Excel，所以直接用Excel打開csv文件會出現(xiàn)亂碼，需對其重新編碼。

以上所有內(nèi)容可以在80行Python代碼內(nèi)完成，很簡單吧。(｀?ω?′)

云服務(wù)器 GPU云服務(wù)器豆瓣top250的數(shù)據(jù)分析 top250 豆瓣電影數(shù)據(jù)分析可視化豆瓣電影

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/41012.html

發(fā)表評論

登陸后可評論

0條評論

galaxy_robot

男|高級講師

我要關(guān)注我要私信

TA的文章

躺平吧，平鋪的窗口「GitHub 熱點(diǎn)速覽 v.21.47」

閱讀 893·2021-11-22 12:04
#萬圣節(jié)+雙11#dedipath全場VPS 5折優(yōu)惠，可選10個(gè)美國數(shù)據(jù)中心，獨(dú)立服務(wù)器月付低至$

閱讀 2095·2021-11-02 14:46
PhotonVPS：$4/月KVM-2GB/30GB/2TB/洛杉磯VPS&達(dá)拉斯V

閱讀 619·2021-08-30 09:44
JS導(dǎo)航跟隨效果

閱讀 2102·2019-08-30 15:54
算法動態(tài)規(guī)劃的代碼優(yōu)化詳解(經(jīng)典的背包問題)

閱讀 721·2019-08-29 13:48
vue-cli單頁應(yīng)用改成多頁應(yīng)用配置

閱讀 1594·2019-08-29 12:56
開放靜態(tài)文件 CDN

閱讀 3448·2019-08-28 17:51
回懟文章《為什么甲骨文被裁員工不值得同情》

閱讀 3286·2019-08-26 13:44

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

80行代碼爬取豆瓣Top250電影信息并導(dǎo)出到csv及數(shù)據(jù)庫

因Windows系統(tǒng)默認(rèn)以ANSI編碼打開Excel，所以直接用Excel打開csv文件會出現(xiàn)亂碼，需對其重新編碼。

相關(guān)文章

Python爬蟲 - scrapy - 爬取豆瓣電影TOP250

**scrapy入門教程——爬取豆瓣電影Top250！**

爬蟲基礎(chǔ)練習(xí)一爬取豆瓣電影TOP250

爬蟲學(xué)習(xí)之基于 Scrapy 的爬蟲自動登錄

發(fā)表評論

0條評論

galaxy_robot

男|高級講師

TA的文章

躺平吧，平鋪的窗口「GitHub 熱點(diǎn)速覽 v.21.47」

#萬圣節(jié)+雙11#dedipath全場VPS 5折優(yōu)惠，可選10個(gè)美國數(shù)據(jù)中心，獨(dú)立服務(wù)器月付低至$

PhotonVPS：$4/月KVM-2GB/30GB/2TB/洛杉磯VPS&達(dá)拉斯V

JS導(dǎo)航跟隨效果

算法動態(tài)規(guī)劃的代碼優(yōu)化詳解(經(jīng)典的背包問題)

vue-cli單頁應(yīng)用改成多頁應(yīng)用配置

開放靜態(tài)文件 CDN

回懟文章《為什么甲骨文被裁員工不值得同情》

最新活動