使用pymongo解析文本格式日志后放入mongo

Meathill 發(fā)布于2019-06-26 18:01 / 336人閱讀

摘要：思路拿到的文本是二進(jìn)制的，在查看文件的時(shí)候可以加上以二進(jìn)制讀的形式打開。獲取數(shù)據(jù)庫獲取表插入到數(shù)據(jù)庫

思路

拿到的文本是二進(jìn)制的，在查看文件的時(shí)候可以加上-rb以二進(jìn)制讀的形式打開。

文件格式如下：

b’2019-03-29 10:55:00	0192.168.31.123:8080	5	12345678	0	44560	953864	2	192.168.31.123	md5
’

可以看到日志里面的分隔符是制表符t，行末尾有換行符n

處理日志文件的基本邏輯

鏈接數(shù)據(jù)庫

逐行讀txt

將一行的數(shù)據(jù)分割為數(shù)組

將數(shù)據(jù)放入list

將list逐條轉(zhuǎn)化為json

存入數(shù)據(jù)庫

分片集群的mongo鏈接

用于存儲日志的mongo集群有三個(gè)分片：flux-stat-1.mongo:27017,flux-stat-2.mongo:27017和flux-stat-3.mongo:27017.

假設(shè)用戶名是flux-stat，密碼是flux-stat-mongo123，登錄方法：

from pymongo import MongoClient
import urllib.parse
#創(chuàng)建MongoDB鏈接對象
username = urllib.parse.quote_plus(‘flux-stat’)
password = urllib.parse.quote_plus(‘flux-stat-mongo123’)
uri = "mongodb://%s:%s@flux-stat-1.mongo:27017, flux-stat-2.mongo:27017, flux-stat-3.mongo:27017/admin" % (username,password)
client = MongoClient(uri)

注意：username和password必須要進(jìn)行轉(zhuǎn)換，否則鏈接不正確

pymongo逐行讀取日志文本

with open(“d:/user/ServerLog/test.txt”,’rb’) as file:
    for line in file:
        #這里放操作
file.close()

分割日志內(nèi)容轉(zhuǎn)化為json，并把每行json放到數(shù)組中

#引入json模塊
import json
total=[]
logList = line.split(‘	’)    #line分割為list
keyList = [‘time’,’status’,’ip’,’type’,’userid’,’v1’,’v2’,’v3’,’v4’,’ip’,’md5’]    #key的list
logDict = dict(zip(keyList, logList))    #把二者以字典的方式拼起來
logJson = json.dumps(logDict)    #把字典轉(zhuǎn)換為string形式的json
#json轉(zhuǎn)字典的方法為dictinfo = json.loads(json_str)
total.append(logJson)

日志存入mongo

insert_one和insert_many是兩種插入的方式，但是采用insert_one進(jìn)行逐條插入會進(jìn)行大量的訪問，大幅降低插入效率，采用insert_many進(jìn)行json為基本單位的list批量插入，效率明顯提高。

db = client["log"]             #獲取數(shù)據(jù)庫
coll = db[‘data’]              #獲取表
coll.insert_many(total)        #插入到數(shù)據(jù)庫

GPU云服務(wù)器云服務(wù)器 java解析文本日志 js格式化后無法使用 php清除文本格式 html文本格式設(shè)置

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.specialneedsforspecialkids.com/yun/19515.html

發(fā)表評論

登陸后可評論

0條評論

Meathill

男|高級講師

我要關(guān)注我要私信

TA的文章

黑客利用Atlassian Confluence RCE漏洞部署web shell 感染系統(tǒng)

閱讀 3881·2021-10-08 10:05
Totyun：柬埔寨VPS，2核2G內(nèi)存，10Mps Premium高速直連，無視版權(quán)投訴，$12/

閱讀 2968·2021-09-27 13:57
getComputedStyle與currentStyle獲取樣式

閱讀 2693·2019-08-29 11:32
聊聊網(wǎng)頁中的圖片

閱讀 1017·2019-08-28 18:18
關(guān)于前端瀏覽器 IE6bug 解決方案

閱讀 1312·2019-08-28 18:05
defer和async的區(qū)別

閱讀 1997·2019-08-26 13:39
lodash源碼分析之baseFindIndex中的運(yùn)算符優(yōu)先級

閱讀 875·2019-08-26 11:37
網(wǎng)易易盾正式對外推手游出海安全解決方案

閱讀 2056·2019-08-26 10:37

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

使用pymongo解析文本格式日志后放入mongo

相關(guān)文章