摘要:有人使用谷歌的自駕汽車完全意識不到之所以車輛開行都是上百個如果不是上千種的話的模型和級的數(shù)據(jù)發(fā)揮作用的結(jié)果。這是驅(qū)動系統(tǒng)方法的目標。建模器的第二個組成部分與保險公司的利潤有關(guān)條件是客戶接受這個價格。
翻譯:克迪
歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗。
在過去幾年中, 我們看到了許多基于預測建模的數(shù)據(jù)產(chǎn)品。這些產(chǎn)品的范圍從天氣預報到推薦引擎, 再到比航空公司本身更準確地預測航空公司航班時間的服務。但這些產(chǎn)品仍然只是在做預測, 而不是問他們基于預測后下一步需要采取什么行動。人們對預測技術(shù)可以是有趣很感興趣,從基礎(chǔ)數(shù)學的角度這種技術(shù)很有深度。但我們最終還是需要采取下一步行動繼續(xù)前行。這項技術(shù)的存在是為了構(gòu)建能夠徹底改變整個行業(yè)的數(shù)據(jù)產(chǎn)品。既然如此, 我們?yōu)楹尾焕^續(xù)構(gòu)建下去呢?
為了啟動這一進程, 我們建議采取四步走的方法, 這種方法已經(jīng)變革了保險業(yè)。我們稱之為驅(qū)動系統(tǒng)法, 靈感來自于新興的自駕汽車領(lǐng)域。工程師們首先確定了一個明確的目標: 他們希望汽車在沒有人為干預的情況下安全地從 a 點行駛到 b 點。偉大的預測建模是整個解決方案中的一個重要部分。偉大的預測建模是解決方案的重要組成部分, 但它不再獨立存在;隨著產(chǎn)品變得更加復雜, 它就會融合到每一個組成部分,貌似消失得無影蹤。有人使用谷歌的自駕汽車, 完全意識不到之所以車輛開行都是上百個 (如果不是上千種的話) 的模型和 PB級的數(shù)據(jù)發(fā)揮作用的結(jié)果。但隨著數(shù)據(jù)科學家不斷構(gòu)建日益復雜的產(chǎn)品, 他們需要一種系統(tǒng)的設(shè)計方法。我們并不是說驅(qū)動系統(tǒng)方法是最好的或唯一的方法;我們的目標是在數(shù)據(jù)科學和事業(yè)領(lǐng)域之間展開對話, 以推進我們的集體愿景。
基于目標對象的數(shù)據(jù)產(chǎn)品
我們正在進入作為驅(qū)動系統(tǒng)的數(shù)據(jù)時代, 在這個系統(tǒng)中我們使用數(shù)據(jù)不僅是為了生成更多的數(shù)據(jù) (以預測的形式), 還是利用數(shù)據(jù)產(chǎn)生可操作的結(jié)果。這是驅(qū)動系統(tǒng)方法的目標。闡述這個過程的最好方法是用一個熟悉的數(shù)據(jù)產(chǎn)品: 搜索引擎。早在 1997年, AltaVista就是算法搜索世界的王者。雖然他們的模型善于尋找相關(guān)網(wǎng)站, 但用戶最感興趣的答案往往被埋在搜索結(jié)果的第100頁。隨后, 谷歌出現(xiàn)了, 并通過一個簡單的問題開始改變在線搜索: 用戶在搜索查詢中輸入內(nèi)容的主要目標是什么?
谷歌意識到,其實目標是顯示最相關(guān)的搜索結(jié)果;對于其他公司來說, 這可能是在增加利潤、改善客戶體驗、為機器人找到最佳路徑, 或者平衡數(shù)據(jù)中心的負載。一旦我們確定了目標, 第二步就是指定我們可以控制的系統(tǒng)輸入, 確定我們可以拉動的杠桿來影響最終的結(jié)果。就谷歌而言, 他們可以控制搜索結(jié)果的排名。第三步是考慮他們需要哪些新的數(shù)據(jù)來產(chǎn)生這樣的排名;他們發(fā)現(xiàn)可以使用鏈接到某些其他頁面的隱含信息數(shù)據(jù)來達到這個效果。只有在這前三個步驟之后, 我們才開始考慮建立預測模型。我們的目標和可用的杠桿, 已經(jīng)擁有哪些數(shù)據(jù), 還需要收集哪些額外的數(shù)據(jù), 所有這些決定了我們可以建立的模型。模型將以杠桿和不可控變量作為它們的輸入;模型的輸出可以結(jié)合在一起來預測我們目標的最終狀態(tài)。
谷歌的驅(qū)動系統(tǒng)方法的第4步現(xiàn)在是科技歷史的一部分: 拉里·佩奇和謝爾蓋·布林發(fā)明了圖形遍歷算法網(wǎng)頁排名, 并在其之上構(gòu)建了一個引擎, 使搜索發(fā)生了革命性的變化。但你不必發(fā)明下一個網(wǎng)頁排名來構(gòu)建一個龐大的數(shù)據(jù)產(chǎn)品。我們將展示一個不需要計算機科學博士就可實現(xiàn)的第4步系統(tǒng)方法。
模型裝配線: 最優(yōu)決策組的案例研究
通過正確的預測模型優(yōu)化可操作的結(jié)果可能是公司最重要的戰(zhàn)略決策。對于保險公司來說, 保單價格就是產(chǎn)品, 所以最優(yōu)定價模式對他們來說就像汽車制造的裝配線一樣。保險公司在預測方面有幾個世紀的經(jīng)驗, 但在過去大概有10年的時間, 保險公司往往未能就每個新客戶的收費價格做出最佳的商業(yè)決定。他們的精算師可以建立模型, 預測客戶發(fā)生事故的可能性和索賠的預期價值。但這些模型并沒有解決定價問題, 因此保險公司會在猜測和市場研究相結(jié)合的基礎(chǔ)上制定價格。
這種情況在1999年被一家名為 "最優(yōu)決策組" (ODG) 的公司徹底改變。ODG通過以往使用的驅(qū)動系統(tǒng)方法和采取可適用于廣泛問題的步驟4解決了這一難題。他們首先確定了保險公司要達到的目標: 制定一個價格,這個價格會一個很長的時間段最大限度地提高新客戶利潤的凈現(xiàn)值,問題是會受到某些限制, 如維持市場份額。從那里, 他們開發(fā)了一個優(yōu)化的定價流程, 為保險公司的底線增加了數(shù)億美元。[注: 合著者杰里米·霍華德創(chuàng)立了ODG]
ODG確定了保險公司可以控制的杠桿: 向每個客戶收取什么價格, 要涵蓋哪些類型的事故, 在營銷和客戶服務上花費多少錢, 以及如何對競爭對手的定價決定做出反應。他們還考慮了超出他們控制范圍的投入, 如競爭對手的戰(zhàn)略、宏觀經(jīng)濟條件、自然災害和客戶的 "依附度"。他們考慮了預測客戶對價格變化的反應所需的額外數(shù)據(jù)。有必要通過在數(shù)月內(nèi)隨機更改幾十萬項政策的價格來構(gòu)建此數(shù)據(jù)集。雖然保險公司不愿意在真正的客戶上進行這些實驗, 這樣做法會使他們因此失去一些客戶, 但實際上他們被優(yōu)化的政策定價可能帶來的巨大收益所吸引。最后, ODG開始設(shè)計可用于優(yōu)化保險公司利潤的模型。
ODG建模器的第一個組件是新策略和續(xù)訂的價格彈性模型 (客戶接受給定價格的概率)。價格彈性模型是價格曲線與客戶接受以該價格為條件的政策條件的概率。這條曲線路線是從幾乎肯定接受的低價到幾乎永遠不漲價。
ODG建模器的第二個組成部分與保險公司的利潤有關(guān), 條件是客戶接受這個價格。低價產(chǎn)品的利潤將是紅色的,主要是因為第一年預期索賠的價值, 再加上收購新客戶并為其提供服務的任何間接費用造成。將這兩條曲線相乘將創(chuàng)建顯示價格與預期利潤的最終曲線 (參見下面的預期利潤數(shù)字)。最終曲線有一個可明確識別的本地最大值, 代表第一年向客戶收取的最佳價格。
ODG還構(gòu)建了客戶保留模型。這些模型預測客戶是否會在一年內(nèi)更新保單, 允許價格變化, 愿意跳槽到競爭對手手中。這些額外的模型可以結(jié)合年度模型來預測未來五年新客戶的利潤。
這套新的模型并不是最終的答案, 因為它只標定一組給定輸入的結(jié)果。裝配線上的下一臺機器是模擬器, 它讓ODG問 "如果" 問題, 看看杠桿如何影響最終結(jié)果的分布。預期的利潤曲線只是可能結(jié)果表面的一部分。為了構(gòu)建整個曲面, 模擬器在廣泛的輸入范圍內(nèi)運行模型。運營商可以調(diào)整輸入杠桿來回答具體的問題, 比如: "如果我們公司在第一年向客戶提供較低的噱頭價格, 但在第二年提高保費, 會發(fā)生什么?"他們還可以探討保險公司控制之外的投入是如何決定利潤分配的: "如果經(jīng)濟崩潰, 客戶失業(yè)怎么辦?如果100年的洪水襲擊了他的家呢?如果一個新的競爭對手進入市場, 而我們的公司沒有反應, 會對我們的底線產(chǎn)生什么影響? "由于模擬是在每個保單級別進行的, 因此保險公司可以查看一組給定的價格變化對收入、市場份額和其他指標隨時間變化的影響。
模擬器的結(jié)果被輸入到優(yōu)化器, 優(yōu)化器獲取可能表象結(jié)果, 并確定最高點。優(yōu)化器不僅可以找到最好的結(jié)果, 還可以識別災難性的結(jié)果, 并顯示如何避免出現(xiàn)這樣的結(jié)果。有許多不同的優(yōu)化技術(shù)可供選擇 (請參見下面的邊欄), 但它是一個很好理解的領(lǐng)域, 具有可靠且可訪問的解決方案。ODG的競爭對手使用不同的技術(shù)來尋找最佳價格, 但他們傳輸?shù)氖窍嗤娜珨?shù)據(jù)產(chǎn)品。重要的是, 使用驅(qū)動系統(tǒng)方法與模型裝配線相結(jié)合, 可以彌合預測模型和可操作結(jié)果之間的差距。Irfan Ahmed的云物理提供了一個很好的預測建模分類, 描述了整個裝配線過程:
"在處理數(shù)百或數(shù)千個個別組件模型以了解全系統(tǒng)的行為時, 必須進行 " 搜索 "。我認為這是一個復雜的機器 (全系統(tǒng)), 在那里撤出了遮幕,你可以在控制實驗下對機器的每個重要部分進行建模, 然后模擬相互作用。此處請注意不同級別: 各個組件的模型, 在給定一組輸入的模擬中綁定在一起, 在搜索優(yōu)化器中的不同輸入集中迭代。
推薦系統(tǒng)的驅(qū)動系統(tǒng)方法
讓我們看看如何將這一過程應用到另一個行業(yè): 營銷。我們首先將驅(qū)動系統(tǒng)方法應用于熟悉的示例, 推薦引擎, 然后將其構(gòu)建為整個優(yōu)化的營銷策略。
推薦引擎是基于構(gòu)建良好的預測模型數(shù)據(jù)產(chǎn)品的一個成熟案例, 這些模型沒有達到最佳目標。目前的算法根據(jù)購買歷史和類似客戶的歷史數(shù)據(jù), 預測客戶會喜歡什么產(chǎn)品。像亞馬遜這樣的公司代表了曾經(jīng)作為一個巨大的稀疏矩陣進行的每一次收購, 客戶是以行顯示和產(chǎn)品為列顯示。一旦他們有了這種格式的數(shù)據(jù), 數(shù)據(jù)科學家就會應用某種形式的協(xié)同過濾來 "填寫矩陣"。例如, 如果客戶 a 購買產(chǎn)品1和 10, 而客戶 b 購買產(chǎn)品1、2、4和 10, 則引擎會建議 a 購買2和4。這些模型善于預測客戶是否會喜歡給定的產(chǎn)品, 但它們往往會推薦客戶已經(jīng)知道或已經(jīng)決定不購買的產(chǎn)品。亞馬遜的推薦引擎可能是最好的, 但很容易讓它顯示出它的累贅缺陷。以下是在亞馬遜上搜索特里·普拉特切特的《迪斯科世界系列》中的最新一本書的截圖:所有的建議都是針對同一系列的其他書的, 但一個很好的假設(shè)是, 搜索 "特里·普拉特切特" 的客戶已經(jīng)知道這些書了。在提要的第2頁到第14頁上可能有一些意想不到的建議, 但是有多少客戶會費心點擊?相反, 讓我們使用傳動系統(tǒng)方法設(shè)計一個改進的推薦引擎, 首先要重新考慮我們的目標。推薦引擎的目的是通過給用戶意想不到的驚喜把因為沒有推薦他/她沒有購買的書籍來推動額外的銷售。我們真正想做的是模仿Zite首席執(zhí)行官馬克·約翰遜的經(jīng)驗, 他在最近的TOC演講中給出了客戶推薦體驗應該是什么樣子的完美例子。他走進紐約市的斯特蘭德書店, 要了一本類似托尼·莫里森的《寵兒》的書。柜臺后面的女孩推薦了威廉·福克納的《奧索洛姆·阿布索倫》。在亞馬遜上, 類似查詢的最高結(jié)果導致了托尼·莫里森的另一本書和著名的有色女作家的幾本書。斯特蘭德書商提出了一個精彩而牽強的建議, 可能更多的是基于莫里森寫作的特點, 而不是表面上的相似之處她切入了顯而易見的部分, 提出了一個建議, 將客戶送回家的新書, 并在未來一次又一次地返回斯特蘭德。這并不是說亞馬遜的推薦引擎不可能建立同樣的聯(lián)系;問題是, 這個有益的推薦將被埋在推薦源的深處, 與 "親愛的信徒" 有更明顯相似之處的書下面。其目的是為了逃避推薦過濾氣泡, 這個詞最初是由 Eli Pariser 創(chuàng)造的, 用來描述個性化新聞源只顯示溫和流行的文章或進一步證實讀者現(xiàn)有的偏見的趨勢。
正如Altavista-google 示例一樣, 書商可以控制的杠桿是建議的排名。還必須收集新數(shù)據(jù), 以生成將導致新銷售的建議。這將需要進行許多隨機實驗, 以便收集關(guān)于為廣泛的客戶提出的廣泛建議的數(shù)據(jù)。
驅(qū)動系統(tǒng)過程的最后一步是構(gòu)建模型裝配線。擺脫推薦泡沫的一種方法是構(gòu)建一個建模器, 其中包含兩個購買概率模型, 條件是看到或看不到推薦。這兩種概率之間的差異是向客戶提供的特定建議的實用程序函數(shù) (請參閱下面的推薦引擎圖)。如果算法推薦了一本熟悉的書, 客戶已經(jīng)拒絕了 (兩個組件都是小的) 或一本書, 他或她會買, 即使沒有建議 (兩個組件都很大, 互相取消), 這款案例發(fā)生率較低。我們可以構(gòu)建一個模擬器來測試我們庫存的許多可能書籍中每一本的效用, 或者可能只是在類似客戶購買的協(xié)作過濾模型的所有輸出上, 然后構(gòu)建一個簡單的優(yōu)化器, 對那些在推薦書籍基礎(chǔ)上他們的模擬效用。一般來說, 在選擇目標函數(shù)進行優(yōu)化時, 我們需要少強調(diào) "函數(shù)", 多強調(diào) "目標"。使用我們數(shù)據(jù)產(chǎn)品的人的目標是什么?我們到底在幫助他或她做出什么選擇?
優(yōu)化終身客戶價值
同樣的系統(tǒng)方法可以用來優(yōu)化整個營銷策略。這包括零售商在實際買賣交易之外與客戶的所有互動, 無論是做產(chǎn)品推薦、鼓勵客戶查看網(wǎng)上商店的新功能, 還是發(fā)送促銷活動。對零售商來說, 做出錯誤的選擇是有代價的, 其結(jié)果形式是利潤率降低 (不影響額外銷售的折扣)、其主頁上稀缺的不動產(chǎn)機會成本減少 (在推薦源中占用客戶產(chǎn)品的空間)不喜歡或?qū)⒃跊]有推薦的情況下購買) 或客戶調(diào)出產(chǎn)品) (發(fā)送如此多無幫助電子郵件促銷活動, 以至于客戶將所有未來通信過濾為垃圾郵件)。我們將展示如何構(gòu)建優(yōu)化的營銷策略, 以減輕這些影響。
正如前面的每一個例子中, 我們首先問: "營銷策略試圖達到什么目標?"第二個問題: "我們有什么杠桿可以用來實現(xiàn)這個目標?"例如:
1 我們可以讓產(chǎn)品的建議令人驚喜和開心(使用上一節(jié)中概述的優(yōu)化建議)。
2 我們可以為客戶還沒有完全準備好購買或本來會在其他地方購買的產(chǎn)品提供量身定制的折扣或特別優(yōu)惠。
3 我們甚至可以撥打客戶貼心聯(lián)系電話, 只是為了了解用戶是如何享受我們的網(wǎng)站, 讓他們覺得他們的反饋是有價值的。我們需要收集哪些新數(shù)據(jù)?這可能因情況而異, 但少數(shù)在線零售商正在采取創(chuàng)造性的方法來采取這一步驟。在線時尚零售商Zafu展示了如何鼓勵客戶參與這一數(shù)據(jù)收集過程。很多網(wǎng)站都賣名牌牛仔, 但對很多女性來說, 高端牛仔褲是她們從未在網(wǎng)上購買過項目, 因為不試穿就很難找到合適的牛仔褲。Zafu的做法不是直接送顧客去穿上衣服, 而是首先問一系列簡單的問題, 比如顧客的身體類型、其他牛仔褲的合身程度以及他們的時尚偏好。只有這樣, 客戶才能瀏覽到 Zafu 的推薦庫存選擇。數(shù)據(jù)收集和建議步驟不是附加步驟;它們是Zafu的整個商業(yè)模式--女式牛仔褲現(xiàn)在是一個數(shù)據(jù)產(chǎn)品。Zafu可以調(diào)整他們的建議, 以適應他們的牛仔褲, 因為他們的系統(tǒng)正在問正確的問題 從目標開始, 數(shù)據(jù)科學家就會考慮他們需要為建模器構(gòu)建哪些其他模型。我們可以保留我們已經(jīng)建立的 "類似" 模型以及建議和不建議購買的因果關(guān)系模型, 然后采取分階段的方法添加更多的模型, 我們認為這將提高營銷效率。我們可以添加一個價格彈性模型來測試提供折扣如何改變客戶購買商品的概率。我們可以構(gòu)建一個耐心模型, 讓客戶能夠容忍目標不明確的通信: 他們何時將其排除在外, 并將我們的郵件直接過濾到垃圾郵件?("如果 hulu 再給我看一次同樣的狗食廣告, 我就不再看了!")采購序列因果關(guān)系模型可用于識別關(guān)鍵的 "進入產(chǎn)品"。例如, 一條牛仔褲, 往往搭配一個特定的頂部, 或一系列小說的第一部分, 往往導致整套系列的銷售。
一旦我們有了這些模型, 我們就構(gòu)建了一個模擬器和一個優(yōu)化器, 并在組合模型上運行它們, 以找出哪些建議將實現(xiàn)我們的目標: 推動銷售和改善客戶體驗。
物理數(shù)據(jù)產(chǎn)品的最佳實踐
人們很容易誤以為, 由于數(shù)據(jù)存在于抽象的某個地方, 在電子表格或云中, 數(shù)據(jù)產(chǎn)品只是抽象的算法。因此, 我們想通過向您展示基于目標的數(shù)據(jù)產(chǎn)品如何已經(jīng)是有形世界的一部分。這些例子最重要的是, 設(shè)計這些數(shù)據(jù)產(chǎn)品的工程師并不是從制造一個 neato 機器人開始, 然后尋找與之有關(guān)的東西。他們從一個目標開始,諸如 "我希望我的車開車送我要去的地方", 然后設(shè)計了一個隱蔽的數(shù)據(jù)產(chǎn)品來完成這個任務。工程師們常常安靜地走在算法應用程序的前沿, 因為他們長期以來一直在以基于對象的方式思考自己的建模挑戰(zhàn)。工業(yè)工程師是最早開始使用神經(jīng)網(wǎng)絡的工程師之一, 他們將神經(jīng)網(wǎng)絡應用于裝配線優(yōu)化設(shè)計和質(zhì)量控制等問題。布萊恩·里普利關(guān)于識別的開創(chuàng)性著作, 為上世紀 7 0年代基本被遺忘的工程論文提供了許多想法和技術(shù)的功勞。
在設(shè)計產(chǎn)品或制造工藝時, 驅(qū)動系統(tǒng)類似工藝過程, 然后是模型集成、模擬和優(yōu)化, 是系統(tǒng)工程師工具包中常見的一部分。在工程中, 通常需要將許多組件模型鏈接在一起, 以便能夠同時對它們進行模擬和優(yōu)化。這些公司在構(gòu)建最終產(chǎn)品中的每個組件和系統(tǒng)模型方面都有豐富的經(jīng)驗, 無論他們是在建造服務器工場還是戰(zhàn)斗機機型。機械系統(tǒng)可能有一個詳細的模型, 熱力系統(tǒng)可能有一個多帶帶的模型, 電氣系統(tǒng)可能有另一個模型, 等等。所有這些系統(tǒng)都有關(guān)鍵的相互作用。例如, 電氣系統(tǒng)中的電阻會產(chǎn)生熱量, 需要將其納入熱擴散和冷卻模型的輸入。過熱可能會導致機械部件翹曲, 產(chǎn)生的應力應該應輸入到機械模型中。
下面的屏幕截圖取自鳳凰集成設(shè)計的模型集成工具。雖然它來自一個完全不同的工程學科, 但這張圖表與我們?yōu)閿?shù)據(jù)產(chǎn)品推薦的驅(qū)動系統(tǒng)方法非常相似。目標明確: 建造飛機機翼。翼箱包括跨度、錐度比和掃描等設(shè)計杠桿。數(shù)據(jù)是在機翼材料的物理性質(zhì);成本列在應用程序的另一個選項卡中。有一個模型的空氣動力學和機械結(jié)構(gòu), 然后可以給到模擬器, 以產(chǎn)生成本, 重量, 升力系數(shù)和誘導阻力的關(guān)鍵翼輸出。這些結(jié)果可以提供給優(yōu)化器, 以建立一個功能良好且具有成本效益的飛機機翼。
由于預測建模和優(yōu)化對各種活動變得更加重要, 請注意工程師會對那些似乎不會立即出現(xiàn)在數(shù)據(jù)業(yè)務中的行業(yè)造成困擾。例如, "傳動系統(tǒng)方法" 一詞的靈感已經(jīng)出現(xiàn)在山景的街道上。我們現(xiàn)在可以讓數(shù)據(jù)驅(qū)動我們, 而不是數(shù)據(jù)被驅(qū)動。假設(shè)我們想從舊金山到2012年圣克拉拉的斯特拉塔會議。我們可以建立一個簡單的距離/限速模型, 用一把尺子和一張路線圖來預測到達時間。如果我們想要一個更復雜的系統(tǒng), 我們可以建立另一個交通擁堵模型, 另一個模型來預測天氣狀況及其對最安全最高速度的影響。在構(gòu)建這些模型時, 有很多很酷的挑戰(zhàn), 但它們本身并不把我們帶到目的地。如今, 使用某種類型的啟發(fā)式搜索算法來預測沿各種路線 (模擬器) 的行駛時間, 然后選擇最短的路線 (優(yōu)化器), 受到避免橋梁通行費或最大限度地增加油耗等限制, 這是很微不足道的。但為什么不把它想得更大呢?而不是衛(wèi)星導航系統(tǒng)女性機器人的聲音告訴我們走哪條路, 往哪里轉(zhuǎn), 需要什么來制造一輛自己做出這些決定的汽車呢?為什么不把模擬和優(yōu)化引擎與物理引擎捆綁在一起, 都在汽車的黑匣子里呢?讓我們來看看這是如何應用傳動系統(tǒng)方法的。我們已經(jīng)確定了我們的目標: 制造一輛自己駕駛的汽車。杠桿是我們都熟悉的車輛控制: 方向盤、加速器、剎車等。接下來, 我們考慮汽車需要收集哪些數(shù)據(jù);它需要收集道路數(shù)據(jù)的傳感器, 以及能夠檢測路標、紅色或綠燈以及意外障礙 (包括行人) 的攝像頭。我們需要定義我們需要的模型, 例如預測轉(zhuǎn)向、制動和加速效果的物理模型, 以及解釋路標數(shù)據(jù)的模式識別算法。正如谷歌汽車自動駕駛項目的一位工程師在最近的一篇連線文章中所說, "我們每秒鐘分析和預測世界 2 0次"。報價中失去的是該預測的結(jié)果。車輛需要使用模擬器來檢查它可能采取的行動的結(jié)果。如果現(xiàn)在左轉(zhuǎn), 會不會撞上那個行人?如果在這樣的天氣條件下, 它以每小時55英里的速度右轉(zhuǎn), 會不會滑出道路?僅僅預測會發(fā)生什么還不夠好。自動駕駛需要采取下一步: 模擬所有的可能性后, 它必須優(yōu)化模擬的結(jié)果, 以選擇加速和制動, 轉(zhuǎn)向和信號的最佳組合, 讓我們安全到達圣克拉拉。預測只告訴我們會有意外。一個優(yōu)化者告訴我們?nèi)绾伪苊馐鹿实陌l(fā)生。
改進數(shù)據(jù)收集和預測模型非常重要, 但我們要強調(diào)的重要性, 首先是用產(chǎn)生可操作結(jié)果的杠桿來確定一個明確的目標。數(shù)據(jù)科學開始滲透, 即使是我們生活中最根本的元素。隨著科學家和工程師越來越善于將預測和優(yōu)化應用于日常問題, 他們正在擴展可能的藝術(shù), 優(yōu)化從我們的個人健康到我們居住的房屋和城市的一切。以出口和人群控制屏障的位置為杠桿, 將模擬流體動力學和湍流的模型應用于改善交通和人流。這改善了地鐵站的緊急疏散程序, 減少了體育賽事期間人群踩踏危險。Nest正在設(shè)計智能恒溫器, 了解房主的溫度偏好, 然后優(yōu)化他們的能耗。在機動車交通方面, IBM 與斯德哥爾摩市實施了一個項目, 優(yōu)化交通流量, 將交通擁堵減少了近四分之一, 并將市中心的空氣質(zhì)量提高了 2 5%。特別有趣的是, 沒有必要建立一個復雜的新數(shù)據(jù)收集系統(tǒng)。任何有按流量計費的城市都已經(jīng)掌握了所有必要的信息;他們只是還沒有找到一種方法從中萃取有價值的信息。
在另一個基于目標的數(shù)據(jù)產(chǎn)品有能力改變生活的領(lǐng)域, 硅谷的 CUM 擴展項目是建立數(shù)據(jù)產(chǎn)品的一個積極項目, 以幫助自然災害或人為災害發(fā)生后的急救人員。硅谷卡內(nèi)基梅隆大學 的珍妮·斯坦伯格向我們解釋了預測算法在災害響應中的許多可能應用, 從文本挖掘和對推特的情緒分析 (以確定損害的程度) 到成群結(jié)隊的用于偵察和救援的自主機器人, 用于物流優(yōu)化工具, 幫助多個司法管轄區(qū)協(xié)調(diào)其響應。這些災難應用程序是一個特別好的例子, 說明了為什么數(shù)據(jù)產(chǎn)品需要簡單、設(shè)計良好的接口來產(chǎn)生具體的建議。在緊急情況下, 只產(chǎn)生更多數(shù)據(jù)的數(shù)據(jù)產(chǎn)品沒有什么用處。數(shù)據(jù)科學家現(xiàn)在擁有構(gòu)建增加共同利益的產(chǎn)品的預測工具, 但他們需要意識到, 如果不同時產(chǎn)生優(yōu)化、可實現(xiàn)的結(jié)果, 構(gòu)建模型是不夠的。
數(shù)據(jù)產(chǎn)品的未來
我們引入了驅(qū)動系統(tǒng)方法, 為設(shè)計下一代偉大的數(shù)據(jù)產(chǎn)品提供了一個框架, 并描述了本質(zhì)上如何依賴于優(yōu)化。今后, 我們希望看到在商學院以及統(tǒng)計部門教授優(yōu)化。我們希望看到數(shù)據(jù)科學家推送的產(chǎn)品, 旨在產(chǎn)生理想的業(yè)務成績。這仍然是數(shù)據(jù)科學的曙光。我們不知道未來會開發(fā)什么設(shè)計方法, 但現(xiàn)在, 數(shù)據(jù)科學界需要圍繞一個共享的詞匯和產(chǎn)品設(shè)計過程進行聯(lián)合, 這些詞匯和產(chǎn)品設(shè)計過程可以用來教育其他人如何從它們的價值中獲得更大的價值。預測模型。如果我們不這樣做, 我們會發(fā)現(xiàn)我們的模型只使用數(shù)據(jù)來創(chuàng)建更多的數(shù)據(jù), 而不是使用數(shù)據(jù)來創(chuàng)建行動、擾亂行業(yè)和改變生活。
我們究竟是想要提供數(shù)據(jù)的產(chǎn)品, 還是想要基于數(shù)據(jù)交付結(jié)果的產(chǎn)品?杰里米·霍華德在他的斯特拉塔 CA 12 會議上研究了這些問題, "從預測模型到優(yōu)化: 下一個前沿"。
原文:https://www.oreilly.com/ideas...
免費領(lǐng)取驗證碼、內(nèi)容安全、短信發(fā)送、直播點播體驗包及云服務器等套餐
更多網(wǎng)易技術(shù)、產(chǎn)品、運營經(jīng)驗分享請點擊。
文章來源: 網(wǎng)易云社區(qū)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/25319.html
摘要:譯者覺得作者的比喻很適合初學者理解,特此翻譯。進一步說,回調(diào)觸發(fā)的順序是不能被保證的。所以我不必擔心代碼在同一時間訪問同一個數(shù)據(jù)結(jié)構(gòu)你確實理解了,這就是的單進程事件循環(huán)設(shè)計美麗的地方。 前言 總括 :這篇文章十分生動形象的的介紹了Node,滿足了讀者想去了解Node的需求。作者是Node的第一批貢獻者之一,德國前端大神。譯者覺得作者的比喻很適合初學者理解Node,特此翻譯。 譯者 :原...
摘要:評估目標并將其拆解成任務。依據(jù)中心思考我將這篇文章分成了四小節(jié)。為了這個我們需要分成幾步,或者幾層設(shè)計。每個人都可以用不同的方式成長,知道自己的喜歡的然后去計劃。 這次我決定不耍流氓的寫一篇雞湯,這篇是以過程到結(jié)果的文章——以前老是寫結(jié)果,總感覺不好~~。 Blabla,群聊的時候,看到一個網(wǎng)站有一個Most active GitHub users的排名,發(fā)現(xiàn)我在里面的位置是20——在...
摘要:進一步說,對于回調(diào)觸發(fā)的順序是無法保證的。時刻在向成為全球最快的動態(tài)語言解釋器之一而努力。正在為對進行實驗,正在使用它處理大規(guī)模的,并且由于而出名正在創(chuàng)建一個令人興奮的游戲引擎,其中后端使用了一些代碼。 一篇2010年的文章,自己讀完后一些對node.js的疑問迎刃而解,由于文章比較舊,所以文中描述的情況有些已經(jīng)發(fā)生了變化,在翻譯過程中會一一指出。 原文:http://debugga...
摘要:本文以管理者的視角,與大家分享下我自年月入職小菜后,與前端同學一起是如何規(guī)劃團隊的技術(shù)棧的,這條技術(shù)棧上的技能點又是如何在不同童鞋不同業(yè)務中生長出來的。 Scott 近兩年無論是面試還是線下線上的技術(shù)分享,遇到許許多多前端同學,由于團隊原因,個人原因,職業(yè)成長,技術(shù)方向,甚至家庭等等原因,在理想國與現(xiàn)實之間,在放棄與堅守之間,搖擺不停,心酸硬抗,大家可以找我聊聊南聊聊北,對工程師的宿命...
摘要:番茄工作法簡約而不簡單,本書亦然。在番茄工作法一個個短短的分鐘內(nèi),你收獲的不僅僅是效率,還會有意想不到的成就感。 @author ASCE1885的 Github 簡書 微博 CSDN 知乎本文由于潛在的商業(yè)目的,不開放全文轉(zhuǎn)載許可,謝謝! showImg(/img/remote/1460000007319503?w=728&h=792); 廣而告之時間:我的新書《Android 高...
閱讀 2657·2019-08-30 15:53
閱讀 2879·2019-08-29 16:20
閱讀 1086·2019-08-29 15:10
閱讀 1026·2019-08-26 10:58
閱讀 2198·2019-08-26 10:49
閱讀 637·2019-08-26 10:21
閱讀 707·2019-08-23 18:30
閱讀 1640·2019-08-23 15:58