摘要:明天就是中秋節了現在的實驗室空空蕩蕩的只剩下我們幾個了提前祝大家中秋快樂
最近, 耗子我在做關于互聯網新聞分類的項目, 需要用到sklearn.datasets里新聞數據抓取器fetch_20newsgroups, 而當將參數subset設置為"all"時, fetch_20newsgroups需要即時從互聯網下載數據, So:
稍有python下載經驗的就知道, 1M就得等很久了, 這是14M, 啊啊!
直接復制圖片中的網址下載:
https://ndownloader.figshare.com/files/5975967
然后, 依然很慢......
復制鏈接, 用火狐瀏覽器插件多線程下載器下載
額, 也不算快啊......
直接復制鏈接給迅雷呀!? 剛咋沒想到呢????
行吧, 還算迅雷給力......
問題又來了, 有文件了, Python 怎么讀取啊???
文件名是 20newsbydate.tar.gz
然后我就搜了 Python如何讀取gz文件
大概是我中午沒睡好吧, 搜這干嘛......
幾經波折, 終于找到了......
感謝大神的分享: 這里是原文
在此說明如下:
fetch_20newsgroups函數將下載的文件放在
C:Users(你的user_name)scikit_learn_data20news_home目錄下
將你下載的文件放在這里
注:
Python下載的文件叫20new-sbydate.tar.gz
你下載的叫20newsbydate.tar.gz
所以改成它那樣的就成
(不過自己應該先看下, 你那個版本的Python下載的文件名字是啥)
進入Python安裝文件夾中找到文件 twenty_newsgroups.py
用任意文本編輯器打開它
找到download_20newsgroups函數
上紅框是下載文件的部分, 下紅框是解壓文件的部分
So, 我們只需要將上紅框注釋掉, 并加入文件地址即可
然后, ctrl+s , 如圖:
有可能再報一個縮進的錯:
縮進嘛, 看下哪行的4個空格變成一個Tab了, 改過來即可
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/42517.html
摘要:記一次修復微信支付吊起非常慢的問題微信接支付調用有些安卓手機吊起非常慢,因為調支付寫法就是這樣子,實在定位不到問題所在,正在打算放棄的時候。定位會導致支付吊起不了嗎原來之前把瀏覽器定位換成了微信定位,解決安卓下面會頻繁彈授權的問題。 記一次修復微信支付吊起非常慢的問題 微信h5接支付調用 window.wx.invoke(getBrandWCPayRequest) 有些安卓手機吊起非常...
摘要:最后,模型甚至可以返回最能影響分類器分類效果的個單詞,但是要求分類器有屬性,目前用到的幾個分類器,似乎都有這個這個屬性。 工作上需要用到文本分類,這里用 sklearn 做為工具,記錄下學習過程 目錄 1. SVM 文本分類范例2. sklearn 做文本分類其他可選分類器3. 文本分類的數據預處理3. 中文文本分類方法 SVM 文本分類范例 import numpy as np f...
摘要:年月日本文是關于記錄某次游戲服務端的性能優化此處涉及的技術包括引擎隨著游戲導入人數逐漸增加單個集合的文檔數已經超過經常有玩家反饋說卡特別是在服務器遷移后從核降到核卡頓更嚴重了遂開始排查問題確認服務器壓力首先使用命令查看總體情況此時占用不高 Last-Modified: 2019年6月13日11:08:19 本文是關于記錄某次游戲服務端的性能優化, 此處涉及的技術包括: MongoDB...
摘要:年月日本文是關于記錄某次游戲服務端的性能優化此處涉及的技術包括引擎隨著游戲導入人數逐漸增加單個集合的文檔數已經超過經常有玩家反饋說卡特別是在服務器遷移后從核降到核卡頓更嚴重了遂開始排查問題確認服務器壓力首先使用命令查看總體情況此時占用不高 Last-Modified: 2019年6月13日11:08:19 本文是關于記錄某次游戲服務端的性能優化, 此處涉及的技術包括: MongoDB...
閱讀 3446·2021-10-14 09:42
閱讀 2736·2021-09-08 10:44
閱讀 1309·2021-09-02 10:18
閱讀 3613·2021-08-30 09:43
閱讀 2803·2021-07-29 13:49
閱讀 3729·2019-08-29 17:02
閱讀 1585·2019-08-29 15:09
閱讀 1041·2019-08-29 11:01