摘要:作為全球架構師峰會坐看云起時專題出品人,創(chuàng)始人接受了記者的采訪,就標志性的招牌技術自動化運維與機器學習進行了闡釋。請介紹一下你們的機器人,它們是做在哪一層的,它們身上的職責有哪些黃允松非常樂于談這樣的話題。
作為全球架構師峰會“坐看云起時”專題出品人,QingCloud創(chuàng)始人&CEO Richard Huang接受了InfoQ記者的采訪,就QingCloud標志性的招牌技術“自動化運維與機器學習”進行了闡釋。大波技術干貨來襲。
以下是采訪實錄。
大家好,我是InfoQ的主持人,現(xiàn)在我在全球架構師峰會ArchSummit的現(xiàn)場。今天很高興能邀請到青云的聯(lián)合創(chuàng)始人兼CEO黃允松來接受我們的采訪。今天我們聊聊你們在做的機器人的事情。請介紹一下你們的機器人,它們是做在哪一層的,它們身上的職責有哪些?
黃允松:非常樂于談這樣的話題。我在很多場合都講過,做Cloud Computing真正最后落腳點在于去Replace人,而不是說僅僅是為了將物理資源虛擬化。恰恰相反,我認為云計算跟虛擬化實際上是不劃等號的,你完全可以使用物理的機器去做一套云的System,這是沒有問題的,只要你做得足夠的好,那都是一樣的。
所以我們在機器人層面做得最多的事情,基本上計算存儲、網(wǎng)絡、安全,每個層面都涵蓋到。現(xiàn)在這個階段cover最多的還是計算、存儲和網(wǎng)絡三塊,因為安全相對偏簡單——安全是L2、L3跟L4,而我們目前的L4還沒上線,也就說只有L2跟L3,所以它會比較簡單,因為它就是一些規(guī)則,所以復雜度并不高。 我可以舉幾個例子。比如說計算層面,有好多很重要的事情,而第一步要做的事情是什么?我們稱它為resource placement policy,資源安置策略。簡單來講,比如說有一個用戶發(fā)一個指令,他要一百臺虛擬的Server,這就是典型的偏計算的活——Server一般是CPU跟Memory組成的,當然磁盤也有,但不是特別重要。那這個時候,你要做的最多的事情就是去判斷它應該安置在哪里。
最簡單的安置策略是什么呢?均勻化的法則。這是一點問題都沒有的,不外乎就是我旗下有一千臺物理服務器,下面就看誰身上的資源比較空閑,我就往誰身上放就好,這是非常非常簡單,也非常有效率的。我相信基本我們能找到的大部分的系統(tǒng)都是這么安放的。
但這個里面其實是有問題的。問題在哪呢?就是物理設備身上已經在運行的資源,它不一定是在做決策的那個時刻正在吃資源,所以有可能會發(fā)生的情況就是,你根據(jù)Workload所做出的Placement的決策導致了一些機器壓力會比較大。當然如果說有錢人,這個事情是不怕的,他們在平均在每一個物理機上只跑八個VM,他們的Placement的策略是極其簡單的,就是均勻化分布法則,沒有其他的,基本上不太考慮未來很可能產生的大的起伏。
這種做法有沒有問題呢?其實沒有問題,為什么?因為它的冗余度非常高,資源的實際的占用率偏低,所以他就不用擔心突然之間,比如說什么量上來了之后,會產生一些壞的影響。
但是這種做法的話,在過去是沒問題的,現(xiàn)在問題非常大:這會使服務商根本活不去。因為硬件的成本實際上不是一個小錢。因為這畢竟是一場生意,因為這不是一個totally for free的東西,就像你去打開一個網(wǎng)站看新聞一樣。所以如果一個云計算的一個服務商,它完全看不到有利潤的未來的話,這個服務商的服務是不可持續(xù)的,這是最大的不安全和不穩(wěn)定和不可靠性。因為服務商如果關門,實際上這會使的消費者的系統(tǒng)會非常的艱難,因為你要遷移,要搬家,非常艱難。所以我自己覺得,在每個物理機身上,可能密度要增大,比如說增大到20個或者30個,取決于你的硬件的配置。高配的時候,可能密度會更高,低配的時候,密度要降低,但總之來說,我們密度應該適當?shù)囊幸稽c增長。
在這種模式下,實際上你最需要做的事情就是如何去判斷。判斷的因素非常多,比如說當前的workload運行狀態(tài)。另外一個,歷史狀態(tài)。這個是很有意思的,所有的計算機在運行過程中,不管是物理的還是虛擬的設備,他們在運行過程中,實際上是有大量的歷史的數(shù)據(jù)的,每時每刻每分每秒的數(shù)據(jù)我們都應該把它記錄下來,予以分析。這樣我才能夠非常清晰的知道,每一個設備,不管是物理的還是虛擬的,它的曲線圖是怎樣的,這個是我們要抓住在手上的第二個歷史的因素。第三個因素在于credit,信任值,就像我們人,每個人在銀行,我相信每個人在銀行基本上都會多多少少有一些credit,銀行根據(jù)每個人在銀行的歷史記錄,他會有一些對這個人有些判斷。
說個小題外話就是,互聯(lián)網(wǎng)金融為什么它有魅力?有魅力的地方在于它通過技術手段獲得了很多數(shù)據(jù),于是他就對消費者,或者是小商家能夠迅速的做出判斷,我覺得你可不可信任。這是非常大的一個買賣,而這個買賣不僅僅適用于我們有血有肉的人類,它同樣適用于那些冷冰冰的機器的世界,這是我們要考慮的第三個點,就是所謂的device credit。因為實際上,并不是每臺設備都非常靠譜的。長期跟硬件打交道的人應該非常清楚,硬件有兩個時間點是最容易出問題的。第一個時間點是剛上線的時候,比如說像我們上線一個項目,一般的設備規(guī)模差不多在一百臺到兩百臺的規(guī)模,規(guī)模不是很大,而我們平均一般比如說一到兩個月會上線一套設備,保持這樣的一個頻率。你上線一票設備,假設是一百臺或兩百臺,這里面不可能是百分之百都OK的,它一定會有那么幾臺有問題。比如我最近剛剛在北京的亦莊,我們上線了一大票設備,然后壞了,上線以后,開箱即損,幾臺呢?四臺都是壞的,每個壞的這個表現(xiàn)還不一樣,但是它是壞的,這就是現(xiàn)實。另外一個會有故障的時間,一般是在三年左右開始出現(xiàn),尤其是硬盤。運行期間相對來說比較安定,但是也不一定,比如CPU都可能會出錯,尤其是高壓力的情況之下。我們在魯谷中心,就是西五環(huán)的一號區(qū)里邊,我們已經三臺設備的CPU出過問題,所以你會看得到,在運行過程中,實際上每一臺設備,就跟我們人一樣,它實際上是有不同的表現(xiàn)的,這個就是我們要抓住的第三個值。其實還是對歷史的分析,但是這種分析,它就相對來說要要求要比較實時的能體現(xiàn)這些東西。
所有這些數(shù)據(jù)我們拿到之后,我們首先要做的事情是怎么存放它,接下來的事情是怎么分析它。把這兩步做好之后,于是我們就可以大致得出一個對這個系統(tǒng)的一個判斷,這個是非常關鍵的。對于計算這一頭,就是所謂的resource placement policy的這個判斷是極其重要的,這是第一步。第二步,里面有個非常關鍵的,就是當資源已經up and running,它已經被分配出去,它可不可能出問題?太可能了,在我們QingCloud里面,用戶如果有資源正在跑的,然后他比如說跑在A location,它真的是永遠跑在A location嗎?NO,不是這樣子的,因為硬件,還有各種網(wǎng)絡的格局,隨時可能會有改變,我們一定要有技術的手段,讓這些可能出現(xiàn)的risk,或者disaster,它可以被預測,就是所謂的prediction。這就跟我們看那個中央電視臺的這個天氣預報是一個概念。預測非常關鍵,而且一定要求它是越來越精確。我相信各位,大家看天氣預報的時候肯定會有兩種心態(tài),昨天說今天下暴雨了,今天沒下,那個鬼天氣預報太差勁了,這是一種表現(xiàn),因為它沒有預報準。還有一種說昨天說今天要36度高溫,果然這么熱,好熱好熱,就覺得那個天氣預報好準,對不對。實際上預測這件事情對于IT這個行業(yè)來說,對于IT 運維這個行業(yè)來說非常重要,你怎么去形容它都不會過分。
預測是一個極其艱難的過程,而且它這個分析跟我前面講的那一步的分析還有點區(qū)別。前面我講那一步,實際上大部分的分析是靜態(tài)分析,就是所謂的static,這種靜態(tài)分析講求的地方在于追溯你的歷史,然后我對你做一個未來的行為的一個大概的預判。但Prediction不同,Prediction權重更高的是Real-time Data Stream,Data Stream是非常關鍵的,那這個地方就是所謂的我們要引入一種超級快速的,而且那個overhead要偏低的這種實時的數(shù)據(jù)分析技術,所以你會看到在這個層面上來說的話,我們要把這些事情做好,實際上要花大力氣,這也是我們目前正在重點做的事情。我們目前的Prediction準確率還不是特別理想,所以最近這幾個月我們花了很大的力氣在增強RD的力量這個上面,我們也增了很多兄弟在這個上面做。
另外還有一件事情,就是你看前面講的都是為了防止你出問題,但是肯定不會百分之百的能防得住,一定會有些時候會出問題的,下面的一件事情是出了問題怎么辦?How to action,怎么樣去針對那些已經正在發(fā)生,或者是已經剛剛發(fā)生,Just moment ago,發(fā)生的那個災難,怎么去把這個事情做好。這個事情更多的實際上是叫動作的觸發(fā),很多的trigger。這些trigger在我們早期的版本,就是在2012年和2013年的時候,尤其是2012年做的版本,我們的基本上的邏輯非常簡單,實際上就是把我腦袋里面那些邏輯寫成Code,然后再配上一些觸發(fā)的條件,最后它就會形成一種可重復使用的操作規(guī)則,或者是操作指南。發(fā)生這樣的情況,你要Take這樣的Action,非常簡單的一個邏輯。但實際上我們規(guī)模,因為現(xiàn)在QingCloud規(guī)模相當大了,我們服務的客戶群極寬,而且現(xiàn)在有很多美國客人也是在,直接在用我們在中國的部署,所以我們顯然這個壓力上來之后,災難的概率也會變高,這個是很好理解的,因為你基數(shù)變得很大了。
這個時候就會看到,就是原來這種單純的就是以我已有的知識結構所形成的這樣的一些trigger的庫,那么實際上是不足夠的,所以這個里面要加入什么東西了?new action creation的過程。我們要能夠授權我們的robots system,能夠去在具備一些條件的情況之下,去自適應和創(chuàng)建一些新的規(guī)則集。這是我們正在做的這個,就是在這個機器學習范疇之內的第三件事情,就是非常關鍵的。
這三件事情基本上都是跟——第一件事情可能跟計算的關系會比較重,后面兩件是比較帶有通用性的——計算和存儲最相關的。其實計算跟存儲之間是比較緊的,因為一般說來我們講一臺設備,CPU、Memory跟Disk它是少不了的,我想基本上我講的這三件事情,基本上能夠涵蓋他們這個雙方。
網(wǎng)絡就不太一樣了,網(wǎng)絡會稍微特殊一點點。前段時間大家有個很大的爭論,我覺得很有意思,就是大家在微博上跟林源有一些探討,行業(yè)里面很多兄弟都加入了,比如像盛科的蘇總,張總,在討論到底什么叫SDN。我覺得這個事情就好像大家在討論以前一句老話,叫一千個人心中會有多少個哈姆雷特的那個意思。我倒不是說就有一千種SDN,但是SDN這個東西實際上就看你從哪個角度去看,你可以叫它SDN,也可以不叫它SDN,無所謂,就好像我經常講,就是虛擬化這個東西跟云到底什么關系,我要說的絕情絕意一點,我就可以明確的講它們沒關系,就比如說IBM收購了Softlayer,它到底是不是云計算?沒錯,它是一個物理資源出租的業(yè)務,但是你不能說它不是Cloud的模式,因為它的這個業(yè)務模式,還有用戶的體驗,它都是Cloud那個范,只不過它偏物理設備的Delivery。那你不能說它采用的是物理資源,所以你說它就不是Cloud business,我覺得這是不對的。
同樣道理,我們講網(wǎng)絡層面也是這樣的,實際上現(xiàn)在我覺得我們更應該強調的事情是說IT這個工具,或者說IT的思維,對于通訊行業(yè)、傳統(tǒng)的電信行業(yè)它的影響是有多大。我們使整個網(wǎng)絡可編程化,就是可以被Program,然后使得轉發(fā)和控制能夠得以合理的分離,使得一旦網(wǎng)絡出現(xiàn)問題,或者網(wǎng)絡出現(xiàn)抖動之后,我們能夠快速的Recover。像這些東西,實際上我覺得它就可以稱之為SDN這個范了。而你不應該去強調說,我一定要基于某一種協(xié)議,之后它才能叫做SDN,或者說我一定要基于某一種特定的規(guī)范之后,它才能叫SDN,我覺得我這個是需要稍微聲明一下的。當然這個每個人看法可能不太一樣,但我覺得這無外乎就是一個廣義和狹義的話題。
那回到QingCloud我們在網(wǎng)絡層面上的一些實踐,我覺得首先要做的事情就是什么呢?就是很多人,反正我個人是這個看法,我記得盛科的張總他們對此也是高度一致的看法,就是轉發(fā)和控制必須分離。你如果不分離,我們對于盒子有很明確的依賴。而你看看,我相信你們做Cloud相關的這些各種報道,還有研究,我相信你們現(xiàn)在應該有很深的體驗。就是我們做Cloud跟傳統(tǒng)IT有一個很大的區(qū)別,就在于我們不可以把我們的系統(tǒng)的可靠性依賴于某一些特定的硬件。我們在傳統(tǒng)的運維概念里面對于硬件的可靠度要求是很明確的,這就是IBM公司能成功的非常核心的原因。為什么IBM能成功?你只有買了IBM的東西,你的系統(tǒng)才能不壞,所以你的core banking,核心銀行業(yè)務,大家就買IBM的mainframe或者是小型機之類的,對不對。因為只有IBM能夠有這個能耐保證你的東西不壞。但是實際上我們看現(xiàn)在這個時候,首先一個IBM這種做法有一點點過時了,對于尤其是新業(yè)務,所以我們做Cloud實際上有沒有發(fā)現(xiàn),我們實際上苦心孤意在做的事情是,讓我們各種各樣的應用,不管是互聯(lián)網(wǎng)應用,Web的、游戲的、Mobile的,或者是偏傳統(tǒng)的業(yè)務,各種比如說什么辦公系統(tǒng)、ERP、CRM,甚至包括電子郵件系統(tǒng),那么這些東西的話,我們用云的方式Run的時候,我們實際上心里面有個預期,就是你這東西它能不能不壞。但什么叫能不能不壞呢?實際上設備一定會壞,設備只要一上架一定會壞。消費者心里面的潛在的預期是什么呢?如果設備壞的話,我的系統(tǒng)能不能不壞?
實際上這個地方落到根本上,說的就是我們的系統(tǒng)在運行過程中,它不應該對某一些特定的設備有期待。簡單來講,就是任何的失敗,任何的一個exception、error、failure還有disaster,它都應該是什么呢?In planing,都是在計劃中的,這樣才對。所以這件事情,我們在計算和存儲的身上,我們已經表現(xiàn)的非常明顯,你看看七牛的兄弟們做存儲,毫無疑問,他一定要做冗余。當然也可以通過新的技術,比如糾刪碼這種方式能夠提高容量的復用率。但是無論你怎么做,最終你肯定還是有一些冗余的成分在里邊的。我們將文件碎片化、打散分散存放,也都是為了這個目的,就是簡單來講,我不依賴于你這張硬盤,我也不依賴于你這一個服務器,我也不依賴于你這一堆服務器。網(wǎng)絡也是一樣的,為什么轉發(fā)和控制、分離那么重要?原因就在這,我們一定要讓設備僅僅充當簡單的角色,讓它可以快速被取代,這是非常關鍵的。所以控制這個過程是極其重要的。SDN的語境范圍里面,大家把這個東西稱之為controller,控制器,這個真是簡單明了。但是因為我們QingCloud System里面,因為我們整個系統(tǒng)都是一個稱之為一個robots community,所以在我們的開發(fā)里面沒有用controller這個單詞,我們用的是一個Bot這樣的一個單詞,其實概念是一樣的。
我們的做法其實非常的簡單,我們主要是把它任務分成兩步,第一步就是二層的功能,另外一步就是三層的功能。二層的功能偏簡單,實際二層的功能基本上就是幾件事情,就是組網(wǎng)及網(wǎng)絡隔離,就是干這兩件事情。網(wǎng)絡隔離就是所謂的私有網(wǎng)絡,就是VPC的范疇的一個東西。組網(wǎng)呢,就是有兩種組網(wǎng),你自己的局域網(wǎng)的組網(wǎng),以及局域網(wǎng)和局域網(wǎng)之間的組網(wǎng)。然后三層的功能是最復雜的,三層功能涵蓋了很多。最簡單的一個就是說,我怎么樣確保外部的流量能夠到達那一步,就是所謂的EIP的功能,elastic IP address,這個地方涉及到的實際上是一個轉換的過程。這個轉換的過程大伙都知道,這個東西就是做流量轉發(fā)。做流量轉發(fā)有好多種技術,傳統(tǒng)的技術NAT,新的技術,就看你用什么協(xié)議了,那每一個東西都是有自己的做法的。我們兩者都有。
為什么兩者都有?這是我經常講的,我們做事情千萬不可極端,就是在這個事情上沒有某一個技術,它是絕對的好,也沒有一個技術是絕對的差的,我們一定要將技術混合起來用,以確保你的系統(tǒng)是最優(yōu)化的,這個是非常非常重要的。我經常在外邊,你也知道我這個人特別喜歡跟人講技術,我經常在外面講的時候說,大家的視野千萬不要被某一種概念牽著走了。我記得前段時間,我忘了是一個什么會議,就前兩個月,他們請我過去講一個小話題,叫“云計算中的那些坑”,其中我就講了大概好幾個坑,其中有一個我自己都覺得蠻重要的,我把它放到前面講的。就是說,概念重不重要?非常重要,像你們做媒體也是這樣的,要推進新的概念,然后去promote這些東西在市場上,這個很重要。但是我們是做實施的工程師,我們做工程師的人一定要記住,我們要學習這些新的理念跟概念,但一定要辯證的去看,要權衡它。所以在SDN這里邊,比如EIP,我們兩者皆有的原因是在于,對于Rack內的通訊,顯然傳統(tǒng)的方式更加有效。而對于跨長線路,長距離的通訊,顯然新的、類似于OpenFlow這樣子的做法更加有效。這個大家可以通過測試,通過長期的觀察,就能夠很明確的表明這一點。你在Rack內,TOR(Top of Rack),用這種東西的話,你用新的模式做實際上得不償失,所以這兩者我們都需要去做它。我們做這個network bot,就是controller,這兩方的東西都要關照,那么這是一個。
另外一件事情再比如說,我們提供的三層路由器,路由器里面所涵蓋的一些功能,我舉個簡單例子,因為混合云顯然是一個,不說多的,我覺得10年、20年的時間應該是主流,那么企業(yè)用戶,因為我們主要服務于企業(yè)用戶,尤其是現(xiàn)在越來越高的比例是帶有一些傳統(tǒng)屬性的企業(yè)用戶,當他們開始擁抱這種新IT模式,Cloud Based IT的時候,他們實際上對于自己既有的legacy有很高的期待,就是你的新系統(tǒng),你可以用一種云的方式,你的新系統(tǒng)應該跟我的老系統(tǒng)能夠無縫的怎樣怎樣。那這個地方實際上就存在一個問題,就是我們在云端所交付出來的virtual router,那個東西能不能夠無縫的去兼容、支持所有市面上現(xiàn)在這些傳統(tǒng)的設備,供應商的設備,不管是華為,華三,還是瑞杰,Cisco,Juniper,無所謂是誰的,能不能做得到,這個地方是非常重要的一件事情。這就是為什么我們做出來的三層路由器實際上看上去非常傳統(tǒng),比如說我們支持的隧道協(xié)議就是GRE,為什么是GRE,大家都知道,因為它最老牌,最權威。再比如說,當然我們也會支持新的規(guī)范,比如說類似于像VxLan這種,能夠幫助用戶去走這種新的協(xié)議,當然我們也會做。再比如說像DHCP地址的分發(fā),那么這些東西,其實都是,我們就原原本本的,就照著傳統(tǒng)的路由器,它三層設備具有這樣的能力,我們去做它。
所有這些東西我們在做的時候一定要把這個就是轉發(fā)能力,放在哪呢?放在盒子身上,而且控制能力放在一個virtual的設備里面,說白了就是一個虛擬的控制器,就是一個虛擬的Linux或者是一個Process。這個里面內嵌的一些規(guī)則,我們可以是去跑一個虛擬機來做,我們也可以是去跑一個Container來做,這都是很容易做得到的。那么兩者,我們目前都有,針對不同的型號來做到它。
所以說你會看到以前,你會看到,就是我們以前,我們講hypervisor,那么QingCloud顯然是百分之百,fully KVM based。但現(xiàn)在顯然不是這樣子的,為什么?因為我們還是有一部分Container相關的東西在里面的,為什么會有這樣的變化呢?還是那句話,一定要尋求變化,就是有些東西,它可以百分之百用在這樣的一個層面上。但是另外一些層面,他可能就不一定適用,那這是在網(wǎng)絡層面的控制,網(wǎng)絡層面的機器的做法。
網(wǎng)絡層面,我們目前有一個很大的缺失,就是所謂的L2 learning的過程。因為我們現(xiàn)在走的設備是偏傳統(tǒng)的方式,那么在Rack內如果發(fā)現(xiàn)了設備的故障的時候,它差不多有一到兩分鐘的L2 learning的時間,這會使大家非常的沮喪,為什么?因為實際上一兩分鐘的時間還是有點長的,雖然它是一個自動發(fā)生的過程,因為也是一個設備的一個特性,但實際上有點長,我們目前正在想辦法解決這個問題。
解決的方案非常簡單,我們會做自己的硬件。這邊我可以給你透露一下,我們自己設計的硬件已經設計完了,并且發(fā)給了廣東的一家工廠,我星期天就會去廣州,跟他們談很多細節(jié)。為什么要做這種設備?實際上這個,在我們這個行業(yè)里面有個專門的詞叫融合型設備,融合型設備就是說這個設備它既不是服務器,也不是存儲柜,也不是網(wǎng)絡交換機,而是一個合成體。當然這個東西,你說是不是就是原來的刀片機的刀箱?NO,不是那個樣子的,它不是一個刀片機的概念的東西,他是一個全新的一個OCP Based的設計。在這個里面,你會看到很清晰的一個東西,就是說我們要想在傳統(tǒng)的路徑上面去做,但是同時呢又要解決一些傳統(tǒng)的路徑所遺留下來的問題,我們必須要去改變一點點。
通過這種方式,我們可以使的轉發(fā)這樣子的能力會變得更加的,即便是設備出問題的時候,他也不會波擊太多,就是包括那種比較短暫的學習周期。其實所謂的學習,就是refresh的過程,然后也會變得更加的短。甚至是說,雖然內部還是在做這樣的refresh,但是用戶感受不到。然后從controller角度來說,我們目前走的路徑是全虛擬化,全虛擬化的好處就是第一個是,這個就是Scale可以非常的大。因為從調度的角度來說,有些時候出問題是很正常的,這是網(wǎng)絡層面上。另外一個,我覺得還有一個很重要,就是整體來看,我們越來越多的看到一個東西,就是所謂的,就是這個,因為我們現(xiàn)在不是因為全局化做得比較多,像哈爾濱、北京一、北京二,然后廣東,就是我們現(xiàn)在分區(qū)分類比較多,上海很快就會有上線,香港就是下個月,8月份,今年已經在香港那邊的前站工作都已經做完了,美國是11月末。所以都很快,就會變得很大。這個地方我們就是面臨一個很大的問題,就是全局調度的問題。全局調度,尤其是跨越這種超級長的廣域網(wǎng)線路,實際上我們面臨很大的壓力,這個確實是一個實際的情況。分區(qū)部署是一個解決方案。但是分區(qū)部署之后,會使的我們的成本變高,然后資源復用率變低,所以我們目前在這一方面,就是說廣域網(wǎng)的環(huán)形網(wǎng)絡建設及調度,這一方面我們在花很大的力氣在做這方面的事情,這個它就涉及到更進一步的所謂SDN的話題。
那么這邊,我覺得有一件事情,大家至少能夠非常確認的,這邊我們是totally OpenFlow based。我們目前在看的比較多,就是純OpenFlow的跨廣域網(wǎng)的這個Traffic調度過程,包括我們現(xiàn)在IP地址也是自己購買的IP地址。為什么要這么做?就是因為要做到這個跨廣域網(wǎng)的assignment。當然IP比較特殊,它是有國家特性的,一般給中國大陸用的IP就只能在中國境內用,但至少我們能夠做到北京跟廣東之間的IP可以飄動,是這樣子的,所以你會看在整個的這個其實歸根結底,我們今天談的這個主題,歸根結底就是怎么樣去做Operation。Operation這件事情呢,我認為是從IT本身來說是最主要的工作,這是最最重要的工作。但是Operation這件事情,正是因為它的重要性,所以我們應該讓它消失。我說這句話,它是不矛盾的,就是我們要讓它消失,消失的原因就是因為它太重要了。因為它太重要,所以這個活不能交給人去手動的去做,當然我知道這個過程非常的漫長。我們在青云里面,也沒有說做到百分之百的沒有人工的干涉和參與,但是我們至少說已經做到90%以上的工作沒有人工的參與和干涉了,就絕大部分都不會有。所以我們在我們的范疇,我們是沒有值班的概念的,我們就是設備損壞也是一個正常的邏輯,我們在哪一個數(shù)據(jù)中心,都不是百分之百的設備在線上跑,因為總會有壞的設備的。所以從這個角度來說,我們其實最終的,用一個詞來講,我們雖然我經常講P2P的robots community management system,但實際上,其實說白了,其實說的簡單一點,實際上是一個什么東西呢?是一個自動化運維的過程。
我總結一下,就是我們要大規(guī)模引入的東西,實際上就是什么呢?就是所謂的機器學習的過程,就是海量的數(shù)據(jù)的捕獲和處理,以及相應的計算機的自我學習和規(guī)則集的更新的過程,這是一個非常長期的行為,我相信各位都對搜索引擎這個東西是毫不陌生的,搜索引擎就是非常典范的這樣的一個東西,我們就以百度為例。百度它從網(wǎng)頁上去爬別人的數(shù)據(jù),然后放到自己的索引庫里,這是最傳統(tǒng)的做法。接下來他做百度知道,百度是人肉的一個過程,是一個“有人有問題,然后有人去回答問題”,百度在做一個Match的一個過程,是一個人肉的過程,然后半自動化,然后你會看。所有這些我們人,對于知識的掌握過程中的努力,實際上就是一個所謂machine learning的過程,就是讓機器不斷的掌握一些我們的規(guī)則,實際上我們現(xiàn)在要做得事情,我們對于Cloud Computing,對于IT這個行業(yè)來說,我覺得我們要掌握的事情就是什么呢?就是我們要把這些,我們過去用在人身上,為人提供服務的機器學習的東西我們要下沉,下沉到為誰提供服務呢?為設備提供服務,就是這樣子的,這件事情我覺得并不是更加的艱難,而是更加簡單,只是大伙可能不一定認為這個東西有那么重要而已。為什么?因為看起來說做運維,招一幫兄弟去做其實也蠻OK的。對,是蠻OK的,這個事情可以做,但實際上Long Term來看是不行的。如果大伙自己的這個運維的設備規(guī)模越來越大,就是像我們這樣子增長非常迅猛,我們的增長速度是極快的,就是你招人都來不及。這個時候你會發(fā)現(xiàn),你唯一的救世主就是machine learning,非常精確,非常高效,所以我覺得這個,我想應該就是非常非常關鍵。對于每一個從事Cloud行業(yè)的兄弟們來說,大伙都要往這個方向努力。
當然我們有沒有一天,我們能夠把自己的系統(tǒng)稱之為人工智能,這取決于我們的能力了,當然現(xiàn)在這個階段最多也就叫個機器智能,我希望有一天,不管是我,或者其他的這個團隊,不管是誰,不管Amazon、Google,我希望有人能夠真正做出一套百分之百、完全人工智能化的、不需要人類參與的純機器的世界。當然我希望那個能夠做出來這個東西的人是我。當然我覺得,我也毫不懷疑會有別的Team,別的團隊也會在這個方向上做出非常卓越的努力。
我還有一個問題,就說你們現(xiàn)在這個Robots,它的更新是一個什么頻率,包括,萬一你們怎么去防止機械人的更新出現(xiàn)邏輯錯誤,萬一出現(xiàn)錯誤怎么處理?
黃允松:很好的問題。我們目前的話,刷新的頻率是兩周一次的迭代,就是我們的Code Base是兩周一次迭代,而且這個刷新的過程也是自動的,我們會有一整套的這個DevOps的過程,就是非常典型的,然后十萬次無錯測試。完成之后,自動的打包,Push到這個線上,它是個自動的過程。
怎么防止錯誤,這是非常關鍵的,這就是為什么我們目前沒有百分之百自動化的一個非常核心的原因,就是我們核心系統(tǒng),就是Global Service,就是Core System的話,我們現(xiàn)在每次做更新的東西都是靠人工做。但是Core的東西它更新不是特別的頻繁,一般是一些細枝末節(jié)的東西;另外一個,還是沒有辦法百分之百防止出錯,這就是要回到我們前面講的那個,我們這個談話最前面我講到的就是,出了錯之后,怎么樣去Take Action。這個是非常關鍵的。實際上這里面其實就是一件事情,就是我把我們QingCloud做的這套系統(tǒng),我稱之為叫這個firmware,叫固件,叫Cloud firmware,就是有點像刷系統(tǒng)一樣那個系統(tǒng)。我對于我們這套固件的要求就是什么呢?這套系統(tǒng)它可以被Stop,也可以被pause,也可以被refresh掉。但是在這個時候,在做這些事情的時候,上層的這個用戶系統(tǒng)是必須是要在up and running,并且不受影響的。你可以理解成我做了一個Sand box,一個沙盒一樣概念的東西,它可以保證說我下面的東西如果出了錯的話,上層的業(yè)務系統(tǒng),就是用戶系統(tǒng),它是還是在Up and running的,它是完全隔開的兩個東西,這一點也是為什么我要設計自己的硬件的核心原因。
在我設計的硬件里面,CPU不是只有一種CPU,在我的系統(tǒng)里有三種CPU,非常復雜,就是有三種完全不同架構的CPU,這是非常非常有意思的一個東西。為什么這么做?實際上我要把我的Cloud firmware,因為我認為,我們做的QingCloud這個東西是一個operating system,它就是一個操作系統(tǒng),只不過它是一個分布式的操作系統(tǒng),分散在很多設備上。所以我對于它這個東西的定義,對于操作系統(tǒng)這個東西的定義,就是QingCloud這樣一個分布式操作系統(tǒng),它一定在它內部結構發(fā)生變化的時候,一定要不能影響上層的建筑,就是客戶的那些workload,application system,那些東西不能被影響到,所以這一點是非常關鍵的。而好消息是,這個東西我們在13年,這個對外開放服務的時候,我們的系統(tǒng)就是這么來Run的。
所以簡單來講,你這個問題的答案就是我們就是三個步驟,三件事情去解決它,第一個就是Global,就全局分散的core service,我們現(xiàn)在在做refresh、upgrade的時候,我們一般是靠手動的方式在控制,還沒有百分之百的自動化;第二個就是說我們的系統(tǒng)在設計的時候一定要確保,我們QingCloud這一層,這個Cloud firmware這一層,固件這一層,跟上層系統(tǒng)之間沒有任何關系,完全隔離,純沙盒模式。最后一個就是說我們這個出了錯之后,要快速的Rebalance,那么這個是非常關鍵的一個救急法寶。
InfoQ:十分感謝黃允松接受我們的采訪。
原文鏈接: https://community.qingcloud.com/topic/11
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/25163.html
摘要:作為全球架構師峰會坐看云起時專題出品人,創(chuàng)始人接受了記者的采訪,就標志性的招牌技術自動化運維與機器學習進行了闡釋。請介紹一下你們的機器人,它們是做在哪一層的,它們身上的職責有哪些黃允松非常樂于談這樣的話題。 作為全球架構師峰會坐看云起時專題出品人,QingCloud創(chuàng)始人&CEO Richard Huang接受了InfoQ記者的采訪,就QingCloud標志性的招牌技術自動化運維與機器學習進...
摘要:但事實證明,傳統(tǒng)行業(yè)對云計算技術只是謹慎,并非保守。一旦真正接受云計算技術后,他們的轉型步伐甚至超越了互聯(lián)網(wǎng)企業(yè)。近兩年,云計算已經在金融能源零售地產政府等傳統(tǒng)行業(yè)中落地,并完成了云化的深入改革。 7月28日,QingCloud Insight 2016在北京國際飯店舉行,向來自全國各地超過1500名企業(yè)用戶、生態(tài)合作伙伴、開發(fā)者、技術愛好者以及媒體展示了青云 QingCloud 云計算領...
閱讀 842·2021-09-22 15:18
閱讀 1198·2021-09-09 09:33
閱讀 2767·2019-08-30 10:56
閱讀 1203·2019-08-29 16:30
閱讀 1499·2019-08-29 13:02
閱讀 1471·2019-08-26 13:55
閱讀 1656·2019-08-26 13:41
閱讀 1950·2019-08-26 11:56