{eval=Array;=+count(Array);}
我是做JAVA后臺開發的,目前為止最多處理過每天600萬左右的數據!數據不算特別多,但是也算是經歷過焦頭爛額,下面淺談下自己和團隊怎么做的?
后臺架構:
前置部門:負責接收別的公司推過來的數據,因為每天的數據量較大,且分布不均,使用十分鐘推送一次報文的方式,使用batch框架進行數據落地,把落地成功的數據某個字段返回給調用端,讓調用端驗證是否已經全部落地成功的,保證數據的一致性!
核心處理:使用了springcloud作為微服務架構,使用feign進行客戶端的負載均衡,使用分庫分表的數據架構,分庫分表數據庫中間件為公司自己開發,通過字段no采用hash的方式分布到8個數據庫,每個庫128張表,為了數據不重復,滿足冪等性,會使用redis進行加鎖操作,因為redis是單線程處理,保證數據不會重復存儲!
遇到的問題:
①,數據沒落地:雖然使用調用端和服務端確認的方法保證一致性,但是因為網絡延遲,服務宕機等影響,會發生數據重復,或者數據沒落地等,首先在做好接口,數據冪等性的同時,保證服務的穩定性,通過統計等方式對沒有落地的數據重新保存!
②,日志爆炸:因為要求對接口調用的入參,出參,中間數據都打印日志,一個月的硬盤竟然占用了450g,運維直接打電話來問咋回事?因為入參,出參通常作為數據開源,數據返回證明,只能通過壓縮,動態刪除前一個月日志的方式留存日志!
③,緩存失效:在使用redis的過程中,經常遇到redis服務掛了,延遲等情況,可能會導致數據丟失,這種情況尤為嚴重,多數時間只能通過后期人為干預,重新拉取前置數據進行數據保存,同時緩存數據一定要使用持久化,保證數據丟失時,損失最低化!
緩存爆炸:期間遇到一個問題,運維打電話來說數據超過了一千萬,問咋回事,查代碼才知道,很多數據沒設置過期時間,導致數據積壓,簡直就是失敗的經歷!
④,數據庫:通過分庫分表的方式,我們的數據庫還算穩定,高峰的時候也沒超過數據庫性能監控的閾值,最重要的是怕數據庫中間件宕機引起數據丟失,所以中間件通常使用集群的方式進行部署,同時,分庫分表對全局唯一ID的產生也有需求,使用的是taobao的一套sequnce生成組件,避免使用分庫分表字段(no)作為查詢條件,避免使用連接查詢(可以使用no進行同庫的連接),統計采用別的方式!
⑤,消息中間件堵塞:有時候消息中間件延遲,導致數據積壓幾十萬,上百萬,怕怕的有木有?保證中間件穩定的情況下,最重要的添加報警郵件,及時處理積壓問題(50%的概率是重啟,哈哈)!
其實還遇到了很多坑,一時半會想不起,還有的話再補充吧,你有焦頭爛額的情況嗎?歡迎評論,更多的技術分享,敬請關注。。。
曾經在以前的公司做過IT,凡事跟電腦相關的都要做,也就是俗話說的IT民工吧。
當時公司里有一個數據庫會接收到的測試數據大約為一個月100萬條左右,然后要通過程序每五分鐘左右抓取一下這個數據庫。
說實話,當時壓力蠻大的,因為程序涉及到生產不能停,頻繁的讀取這么多數量的數據庫會導致程序很卡,一卡使用這個程序的人就會停下生產的,所以我在方面也研究了一些方法 注:當時使用的服務器為windows2008r2,數據庫為sql 2008版本,程序為php語言編寫。
我總結一下當時的方法:
1、每個月都會找個時間重啟服務器,釋放CPU和內存資源
2、一定要分開文件服務器和數據庫服務器為同一臺,因為文件服務器占用帶寬資源比較嚴重
3、防止數據庫鎖死,編寫程序時已經避免同時使用更新語句
4、使用任務管理把相應的數據進行后臺處理,如先把數據寫到a表里,再通過任務后臺讓它跟b表進行匹配
5、編寫sql語句時,盡量精確匹配,不要模糊匹配,可以通過數據庫管理器來查詢所用的時間是多少
6、關于數據物理安全的小建議,一定要給系統盤和數據盤,做好raid,經常觀察硬盤是否亮紅燈報警,要及時更換,二,使用備份軟件對數據進行定時備份,在空閑的時間點備份,不會影響數據庫使用的效率,比如吃飯的點
系統無法啟動時,請勿隨意重裝系統,可以試一下最后一次正確配置啟動
總結:實際情況要有靈活的方法,也就是數據運行的瓶頸在哪里,就對哪里進行優化。
老牛之淺談,希望能幫助到你。
從事程序員工作以來,歷時三年,呆過兩個公司,前一個公司處于傳統國企制造型企業互聯網化的進程中,后者處于互聯網公司成熟發展期,作為新業務型的研發人員,或多或少都經歷了一些數據量,在制造型企業處理過的最多量級的數據應該是用戶的注冊登錄信息,在之后的互聯網企業處理過最多量級的數據應該是瀏覽日志的實時統計監控。下面就簡單說說這兩個業務場景以及對應的處理方式和數據量級。
在傳統的制造型企業,我們團隊負責公司對外業務的統一注冊和認證,所有對外應用、網站提供的注冊、登錄信息都需要調用我們團隊的相關接口完全相關流程,注冊的用戶信息也以我們團隊的用戶數據為準,統一注冊和認證服務上線運行近兩年的時間里,至我離職時,注冊用戶200萬,登錄均耗時40ms,獲取賬戶信息均耗時10ms。處理方式也簡單,就是應用普遍采用的mysql+redis,賬戶相關的認證信息都普遍走分布式緩存,mysql是主從結構,redis采用集群模式+哨兵集群的處理方式。整個應用是最初的架構是spring mvc+dubbo的分布式架構,對外提供restful風格的接口服務,之后版本升級為spring boot+eureka+consul的微服務架構,對外兼容提供restful風格的接口之外,還提供基于Oauth2.0的第三方登錄服務,包括QQ、微信、百度等第三方應用。數據處理的量級按照數據庫來說應該是百萬級,或許不太準備,對這個量級的概念理解不深,對這方面有深入研究的同學可以留言科普哈。
在現在的互聯網企業,處理數據量級最多的應該是我目前所做的流量實時監控,今天才壓測完,記憶還比較清晰,采用的處理方式是kafka+storm+redis,處理的量級是1.2億/10分鐘,啟用了10臺服務器+4核CPU+2G內存+64G磁盤部署的storm集群,64個線程跑storm拓撲,統計分析的結果保存在redis,通過其他方式進行實時展示。
數據是有價值的,數據的價值在于我們的應用,當看到我們自己開發的項目,可以實時處理億級的數據,真心感覺收獲滿滿。雖然過程經歷很多坑,但是只要出結果,再多的辛苦、努力都感覺值得,做自己喜歡的事情,再累都有勁兒。
作者:夕陽雨晴,歡迎關注我的頭條號:偶爾美文,主流Java,為你講述不一樣的碼農生活。
你處理過的最大的數據量是多少?你是如何處理的?
答,我使用photoshop的照片拼接功能,拍攝過很多超大型的照片,有的是超大的場景,有的是幾十人,幾百人的大合照,照片的像素輕松就能過億,有時達到幾億,甚至十幾億,比如我曾用3600萬像素的索尼A7R拍過一張超大的風光人像攝影,此照片是用幾十張局部照片拼接而成的,照片上的人物占比雖然很小,但是放到原大以后,仍然非常清晰,因為她本人就占據了一張照片的大小,拼接后的照片,像素達到了十幾億,M數為上千M,照片完成后在我的臺式電腦上無法顯示,要把邊長各縮小到原來的一半,才能勉強顯示,要把照片縮小到N多次以后才能在網絡上使用,下面就是這張照片,為了能在這里發表,再次把照片縮小到了10M以下,在其后的幾張照片也是原片超級大的,不過沒有這第一張大
我們日常工作中,經常要使用excel做復雜的數據運算,有時候甚至要處理幾億,幾十億,乃至幾百億的數據量。這時候如果你再用excel去做,電腦就會卡頓到你懷疑人生,因此數據庫的重要性便顯而易見。
眾所周知,在mysql中,每個數據庫最多可創建20億個表,一個表允許定義1024列,每行的最大長度為8092字節(不包括文本和圖像類型的長度)。所以,一般我們用中小型數據庫MySQL,處理數據就完全夠用。
不過,我們大部分人都是普通的業務人員,對數據庫這些IT知識,可以說是一竅不通,事情也就變得棘手起來了。
不過,別擔心,有一款軟件可以完美解決這個問題,我現在就在用著它。
這款軟件叫云表企業應用平臺(以下簡稱云表),它是國內最早的無代碼開發平臺,創立至今,已有10余年歷史。
像ucloud、中冶、中鐵、南方物流、許繼電氣、恒逸石化、北控水務等20萬+企事業單位或機構,都在使用它。
其內嵌了MySQL數據庫,并在不斷地升級和優化中,當然你也可以根據文檔步驟,將數據庫換成sql server、Oracle等。
除了可以用來處理數據透視、數據分析等復雜的數據運算,它還能用來做更多事情。
比如權限設置,流程審批,多人協同,工作流,鬧鐘提醒,消息推送,自定義報表模板打印,藍牙打印,H5頁面生成,網站,外接數據源,小程序,微商城,項目預警,工程日志計劃,與電子秤、地磅、SAP、浪潮、金蝶、用友、企業微信、釘釘、高拍儀、PDA等外部系統進行集成封裝.......
PC端弄好了,自動生成移動端app。
通過云表平臺,即使你是0基礎的IT小白,也可以在和excel很像的界面,拖拉拽,以畫表格的形式,搭建出個性化的管理軟件。
如WMS、ERP、OA、MES、SRM、進銷存、供應鏈管理、行政管理,只要是你想要的系統或軟件,都可以在這上面開發出來。
全程不用寫一行代碼,也不用學習Java,C#,python等高級語言或VBA等輔助開發工具。
只要你懂中文,會業務即可。
而且,開發出來的軟件或系統,功能是可以隨需而改的,任何時候進行二次開發都可以。
因時間原因,暫時分享到這,軟件的免費獲取方式在此奉上:
方法一:
1.頭條app搜索“云表平臺”。
2.進入官網之后,在右上角三條杠處,找到“登錄”。(或者進去后直接點擊“免費注冊”)
3.信息填報完畢,即可在“管理控制臺”免費獲取。
方法二:
點擊我的頭像,進入個人主頁后,在下方找到“免費下載”。
如果你想了解更多功能,可以在下方評論區寫下你的想法,與我交流探討噢~
我是在IT上班的,目前每天大概要處理2TB以上的數據,大概10多億條,基本上使用Hadoop+Hive+Spark進行處理。
這些數據是從FTP下載的,采集協議和處理過程自己寫,基本上每一條數據都會過一到兩遍才入庫。
謝謝邀請,我工作期間還是打算盤的計算統計時代,直到八十年代初才從香港進了幾個簡易電子計祘器,只有加減乘除,平方開方,百分比。直到2000年前后,工廠才裝了自己的計算中心,作財務計劃統計生產費用,都比較簡單,在高速發展時期就退休啦!
最大數據量項目是零售行業的SAAS的平臺,各種指標,也就1億多吧,不過處理起來思路都類似,就是水平擴展,加大處理速度,數據按需預處理等等