国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

Python開展文字識別中的省份并繪圖

89542767 / 594人閱讀

  正在進(jìn)行NLP(自然語言處理)相關(guān)任務(wù)完成后,經(jīng)常碰到務(wù)必辨別并獲得省、大都市、行政區(qū)的需求。今天給大家介紹1個模塊,你只需將結(jié)構(gòu)體數(shù)組傳遞給這個模塊,他就可以給你返回這個結(jié)構(gòu)體數(shù)組內(nèi)的省、市、區(qū)關(guān)鍵詞,趕緊一起來了解一下


  正在進(jìn)行NLP(自然語言處理)相關(guān)任務(wù)完成后,經(jīng)常碰到務(wù)必辨別并獲得省、大都市、行政區(qū)的需求。雖然自身依據(jù)關(guān)鍵詞表1個一個搜索也可以實(shí)現(xiàn)獲得目的,但必須要先搜集省份關(guān)鍵詞表,相對而言比較復(fù)雜。


  今天給大家介紹1個模塊,你只需將結(jié)構(gòu)體數(shù)組傳遞給這個模塊,他就可以給你返回這個結(jié)構(gòu)體數(shù)組內(nèi)的省、市、區(qū)關(guān)鍵詞,并可以給你在圖片里標(biāo)出下去,它是Cpca模塊。

01.png

  1.打算


  開始前,你需要保證Python和pip已成功組裝電腦上,要是沒有,能夠網(wǎng)站訪問本文:超全Python組裝手冊開展組裝。


  (可選擇1)假如你用了Python的目的在于數(shù)據(jù)統(tǒng)計分析,能直接組裝Anaconda,它自帶了Python和pip.


  (可選擇2)除此之外,建議大家用VSCode在線編輯器,它有很多的優(yōu)勢


  挑選下列任一種方法輸入指令組裝依靠:


  1.Windows自然環(huán)境開啟Cmd(逐漸-運(yùn)作-CMD)。


  2.MacOS自然環(huán)境開啟Terminal(command+空格符鍵入Terminal)。


  3.假如你用的都是VSCode在線編輯器或Pycharm,能夠直接用頁面下方Terminal.

  pipinstallcpca


  留意,現(xiàn)階段cpca模塊僅適用Python3或以上版本號。


  在windows上有可能出現(xiàn)類似如下所示難題:

  Buildingwheelforpyahocorasick(setup.py)...error


  先閱讀去免費(fèi)下載MicrosoftVisualC++BuildTools組裝VC++構(gòu)建工具,再重新pipinstallcpca,就可以處理問題。


  2.基本使用


  通過兩行代碼就能實(shí)現(xiàn)最基本的省市區(qū)提取:


  #公眾號:Python實(shí)用寶典
  #2022/06/23
  import cpca
  location_str=[
  "廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層",
  "特斯拉上海超級工廠是特斯拉汽車首座美國本土以外的超級工廠,位于中華人民共和國上海市。",
  "三星堆遺址位于中國四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址"
  ]
  df=cpca.transform(location_str)
  print(df)

  效果如下:

02.png

  省市區(qū)地址adcode


  0廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層440304


  1上海市None None。310000


  2四川省德陽市廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址510681


  注意第三條的廣漢市,cpca不僅識別到了語句中的縣級市廣漢市,還能自動匹配到其代管市的德陽市,不得不說非常強(qiáng)大。


  如果你想獲知程序是從字符串的那個位置提取出省市區(qū)名的,可以添加一個pos_sensitive=True參數(shù):


  #公眾號:Python實(shí)用寶典
  #2022/06/23
  import cpca
  location_str=[
  "廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層",
  "特斯拉上海超級工廠是特斯拉汽車首座美國本土以外的超級工廠,位于中華人民共和國上海市。",
  "三星堆遺址位于中國四川省廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址"
  ]
  df=cpca.transform(location_str,pos_sensitive=True)
  print(df)
  效果如下:
  (base)G:push20220623>python 1.py
  省市區(qū)地址adcode省_pos市_pos區(qū)_pos
  0廣東省深圳市福田區(qū)巴丁街深南中路1025號新城大廈1層440304 0 3 6
  1上海市None None。310000 38-1-1
  2四川省德陽市廣漢市城西三星堆鎮(zhèn)的鴨子河畔,屬青銅時代文化遺址510681 9-1 12
  它標(biāo)記出了識別到省、市、區(qū)的關(guān)鍵位置(index),當(dāng)然如果是德陽市這種特殊的識別會被標(biāo)記為-1.


  3.高級使用


  它還可以從大段文本中批量識別多個地區(qū):


  #公眾號:Python實(shí)用寶典
  #2022/06/23
  import cpca
  long_text="對一個城市的評價總會包含個人的感情。如果你喜歡一個城市,很有可能是喜歡彼時彼地的自己。"
  "在廣州、香港讀過書,工作過,在深圳買過房、短暫生活過,去北京出了幾次差。"
  "想重點(diǎn)比較一下廣州、深圳和香港,順帶說一下北京。總的來說,覺得廣州舒適、"
  "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。"
  df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True)
  print(df)
  效果如下:
  (base)G:push20220623>python 1.py
  省市區(qū)地址adcode省_pos市_pos區(qū)_pos
  0廣東省廣州市None 440100-1 44-1
  1香港特別行政區(qū)None None 810000 47-1-1
  2廣東省深圳市None 440300-1 58-1
  3北京市None None 110000 71-1-1
  4廣東省廣州市None 440100-1 86-1
  5廣東省深圳市None 440300-1 89-1
  6香港特別行政區(qū)None None 810000 92-1-1
  7北京市None None 110000 100-1-1
  8廣東省廣州市None 440100-1 110-1
  9香港特別行政區(qū)None None 810000 115-1-1
  10廣東省深圳市None 440300-1 120-1
  11北京市None None 110000 128-1-1
  12廣東省廣州市None 440100-1 143-1
  不僅如此,模塊中還自帶一些簡單繪圖工具,可以在地圖上將上面輸出的數(shù)據(jù)以熱力圖的形式畫出來:
  #公眾號:Python實(shí)用寶典
  #2022/06/23
  import cpca
  from cpca import drawer
  long_text="對一個城市的評價總會包含個人的感情。如果你喜歡一個城市,很有可能是喜歡彼時彼地的自己。"
  "在廣州、香港讀過書,工作過,在深圳買過房、短暫生活過,去北京出了幾次差。"
  "想重點(diǎn)比較一下廣州、深圳和香港,順帶說一下北京。總的來說,覺得廣州舒適、"
  "香港精致、深圳年輕氣氛好、北京大氣又粗糙。答主目前選擇了廣州。"
  df=cpca.transform_text_with_addrs(long_text,pos_sensitive=True)
  drawer.draw_locations(df[cpca._ADCODE],"df.html")


  運(yùn)行的時候可能會報這個錯:


  (base)G:push20220623>python 1.py
  Traceback(most recent call last):
  File"1.py",line 12,in<module>
  drawer.draw_locations(df[cpca._ADCODE],"df.html")
  File"G:Anaconda3libsite-packagescpcadrawer.py",line 41,in draw_locations
  import folium
  ModuleNotFoundError:No module named'folium'
  使用pip安裝即可:
  pip install folium


  然后重新運(yùn)行代碼,會在當(dāng)前目錄下生成df.html,雙擊打開,效果如下:


  怎么用,是不是感覺非常方便?以后地點(diǎn)的識別用這個模塊就完全夠了。


  還有更多的細(xì)節(jié)你可以訪問這個項目的Github主頁閱讀,該項目的README完全中文編寫,非常容易閱讀:

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/130266.html

相關(guān)文章

  • 爬取淘寶上4000條月餅數(shù)據(jù),制作了一個酷炫的可視化大屏!

    摘要:基于此,我爬取了淘寶上多條月餅的銷售數(shù)據(jù),為大家展示了一幅漂亮的可視化大屏,解決大家心目中的問題。模塊的安裝與配置這次爬取淘寶,采用的是最簡單的方式控制瀏覽器進(jìn)行自動化操作,中途只需要掃碼登陸一次,即可完成整個數(shù)據(jù)的爬取。 ...

    cod7ce 評論0 收藏0
  • python matplotlib庫繪圖實(shí)戰(zhàn)之繪制散點(diǎn)圖

      眾所周知,Python有著很強(qiáng)大的技術(shù)能力,比如,他可以進(jìn)行實(shí)戰(zhàn)繪圖,還有這很強(qiáng)的函數(shù)能力,可以進(jìn)行繪制散點(diǎn)圖,下面小編就具體的功能,給大家進(jìn)行詳細(xì)的介紹下。  一、導(dǎo)入庫importmatplotlib.pyplotasplt  二.設(shè)置文字  plt.title("doublenumber",fontsize=24)   plt.xlabel("number&...

    89542767 評論0 收藏0
  • Python--matplotlib繪圖可視化知識點(diǎn)整理

    摘要:本文作為學(xué)習(xí)過程中對一些常用知識點(diǎn)的整理,方便查找。所有繪圖操作僅對當(dāng)前圖和當(dāng)前坐標(biāo)有效。表示把圖標(biāo)分割成的網(wǎng)格。每個對象都是一個擁有自己坐標(biāo)系統(tǒng)的繪圖區(qū)域。避免比例壓縮為橢圓數(shù)據(jù)可視化入門教程繪圖核心剖析如何調(diào)整子圖的大小 本文作為學(xué)習(xí)過程中對matplotlib一些常用知識點(diǎn)的整理,方便查找。 強(qiáng)烈推薦ipython無論你工作在什么項目上,IPython都是值得推薦的。利用ipyt...

    nifhlheimr 評論0 收藏0
  • 數(shù)據(jù)可視化Seaborn從零開始學(xué)習(xí)教程(一) 風(fēng)格選擇

    摘要:簡介同一樣,也是進(jìn)行數(shù)據(jù)可視化分析的重要第三方包。的五種繪圖風(fēng)格有五種的風(fēng)格,它們分別是。 作者:xiaoyu微信公眾號:Python數(shù)據(jù)科學(xué)知乎:python數(shù)據(jù)分析師 最近在做幾個項目的數(shù)據(jù)分析,每次用到seaborn進(jìn)行可視化繪圖的時候總是忘記具體操作。雖然seaborn的官方網(wǎng)站已經(jīng)詳細(xì)的介紹了使用方法,但是畢竟是英文,而且查找不是很方便。因此博主想從零開始將seaborn學(xué)...

    testbird 評論0 收藏0
  • 如何運(yùn)用python完成Sim哈希算法

      此篇文章主要是闡述了如何運(yùn)用python完成Sim哈希算法,文章內(nèi)容依托于python的相關(guān)信息開展Sim哈希算法的詳細(xì)介紹一下,具有很強(qiáng)的參考意義,感興趣的朋友可以了解一下  1.為何需用Simhash?  傳統(tǒng)式相關(guān)性優(yōu)化算法:語義相似度測算,一般采用線性空間實(shí)體模型(VSM),先向文字中文分詞,提取特征,依據(jù)特點(diǎn)創(chuàng)建文字空間向量,把文字中間相關(guān)性測算轉(zhuǎn)化成矩陣的特征值之間的距離測算,如歐...

    89542767 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<