摘要:上周,在舊金山召開的人工智能國際較高級會議上,來自微軟亞洲研究院的鄭宇博士及其團隊的論文首創性的將時空數據與深度學習結合起來,利用時空深度殘差網絡用于預測城市人流問題。
上周,在舊金山召開的人工智能國際較高級會議AAAI 2017上,來自微軟亞洲研究院的鄭宇博士及其團隊的論文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction首創性的將時空數據與深度學習結合起來,利用時空深度殘差網絡用于預測城市人流問題。
提及這項研究,鄭宇博士介紹到:“這個系統背后的模型研究,其目標是預測整個城市里每個區域在未來時刻有多少人進、有多少人出,從而使得管理者能迅速了解每個區域的公共安全狀況,及時采取預警措施。”他補充,“例如在上海市兩年前跨年夜的踩踏事件之前,如果有這樣的系統,就可以提前給民眾發信息,告知他們這里未來會有多少人進來,提醒民眾注意,并建議是否需要提前離開。我們這項研究的想法也正是起源于這次事件。”
微軟亞洲研究院主管研究員 鄭宇
可擴展的整體預測模型
今天,在貴陽的“塊數據”實驗室里的一塊大屏幕上,貴陽市被分為若干個1KM*1KM的小格子,它實時地輸入新數據,以熱度圖(heat map)的形式不間斷的預測每個區域會有多少輛出租車的進和出。這是一個以貴陽出租車實時上傳的數據作為樣本,基于云計算和大數據的系統。
該系統具有極強的擴展性,任何可以用于人流數據預測的來源,無論是正在采用的出租車數據,還是手機信號、地鐵刷卡記錄等,都可以通過論文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction中提出的這套系統模型進行運算,得到相應的某地將有多少人進和出的結果,并預測未來十幾個小時的城市人流情況。
?
傳統的人流預測方法一般是預測個人行為。理想狀態下,只要統計某個區域里的每個人從哪來去哪里就能測算出該區域有多少人進、多少人出。但這樣的統計本身有很大的障礙,準確性很難保證,并且涉及隱私問題。除此之外,傳統方法還有一些基于物理學模型、交通動力學模型或是土木工程的經典模型等,但這些始終難以應對大規模的人流預測。
?
鄭宇博士及其團隊提出的這套方法是一種整體預測,不涉及個人隱私。該系統將整個城市劃分成若干個相同大小的格子,進行同時預測。整體性預測的必要性在于區域和區域之間具有相關性,不能多帶帶預測,在預測 A 區域的時候,其實A區域的變化對B區域和C區域同樣可能產生影響,反之亦然。因此,把深度學習的思想引入進來進行整體預測,與傳統方法相比具有諸多優勢。
基于對時空數據的深度理解
這項工作其實面臨著諸多難點,其中一個重要原因是:影響人流量的因素非常之多。可能包括:與區域里面前一個小時有多少人進和出有關系;與周邊區域有多少人進和出也有關系;甚至很遠的地方有多少人進和出等等……但是這些區域之間的關系又是相互影響的。
?
另一個難點是,人流的變化還受很多外部因素的影響,例如天氣和事件等等。
?
第三點,人流量的預測是一種時空數據,它包括時間屬性和空間屬性。不同于圖像數據和文本數據等,這種特別的屬性就意味著傳統的深度學習方法不能直接應用。
?
為什么傳統的深度學習方法不能直接拿來用?這包括以下四點原因。
?
第一,空間屬性。空間有距離,空間有層次。根據地理學第一定律,地理事物或屬性在空間分布上互為相關,一個空間單元內的信息與其周圍單元信息有相似性。即在地圖上,兩個點的距離越遠,可以認為該兩點的如空氣質量、溫度等屬性可能差異越大。
?
第二,城市的天然層次性。一個城市它有很多區,每個區又由很多街道社區組成,它有天然的層次。不像圖像數據中的像素,像素和像素之間并不存在層次感。城市的區域、街道等這些地理信息里都蘊藏著明確的多層次的語義信息。
?
以上兩點是空間上的不同。
第三,時間變化的周期性。在相鄰兩個時間點之間,城市的交通容量和人流可能是一個平滑變化的趨勢。例如7點和8點的人流可能是平滑變化的,這很容易理解。但周期性則是一種屬性,城市的交通流量也好、人流也好,它是有一個往復的周期性。比如說今天早上8點的車流量和昨天早上8點的車流量可能很像,但是今天早上8點和今天中午12點的車流量卻大相徑庭,盡管今天中午12點鐘離今天早上8點鐘只有4個小時,而昨天早上8點鐘離今天早上8點鐘有24個小時,但反而是昨天同一時間的數據卻更為相似。不同于傳統的視頻數據和圖像數據,周期性是時空數據的特有屬性。
?
第四,時間變化的趨勢性。其實,周期性也不是固定的,它有一種趨勢性的上揚和下降,這就叫趨勢性。什么叫趨勢?比如冬天天氣越來越冷了,天亮的時間越來越晚,大家出門的時間就會越來越晚,因此早高峰來的時間就會越來越晚,這種趨勢性慢慢漸變的過程,并不是一個固定的數值,不是說永遠早高峰都是8點鐘來。
?
當空間屬性和時間屬性結合在一起,人流數據作為時空數據的一種,就區別于以往的視頻、圖像和文本等數據,已有的深度學習方法是無法直接奏效的,這也是研究這類數據的難點所在。
時空殘差網絡
說完了研究難點,那么鄭宇博士及其團隊是如何解決這個意義非凡的研究難題的呢?
?
如上文貴陽市“塊數據”實驗室的大屏幕所顯示的,鄭宇博士及團隊創造性地把城市劃分成若干個均勻且不相交的網格。例如采用1KM*1KM的格子把城市劃分成網格,接下來把收到的人流數據,例如手機數據或者是出租車軌跡等代表人流量的數據,投射在網格里面。第三步,以網格為單位計算每個格子里分別有多少人流量的進和出。第四步,根據這些數據生成簡單的熱度圖。例如某個方格顏色越亮,則說明這個地方人越多。
因此,某一個時間點的數據就能生成一張二維的平面圖。多個時間點的數據生成對應的圖像,就變成了一個時序。此外,研究員同時挖掘出了數據對應的事件和天氣信息。這些就構成了數據的輸出。
有了這些數據,是否可以直接用上深度學習了呢?答案是否定的。根據論文的描述,我們還要經過以下幾個步驟。
?
第一,把最近幾個小時的數據,即把最近這幾幀的數據,輸入到一個深度殘差網絡里面,即時空殘差網絡,來模擬相鄰時刻這些時間點的人流變化的平滑過程。
?
第二,把對應時間點不同日期的對應時刻,例如周一的兩點鐘和周二的兩點鐘,以及周五的兩點鐘,這些同一時刻的數據作為輸入,來模擬周期性。
?
第三,模擬趨勢性,即從更長的時間維度進行模擬。例如將每個月的第一周,第二周和第三周周一的下午三點鐘的對應數據作為輸入,從而模擬趨勢性。
?
以上三點均通過同樣的深度殘差網絡分別模擬三個屬性:平滑、周期、趨勢。通過這些關鍵幀的抽取,只要用幾十幀的關鍵幀作為輸入,就可以體現出城市幾個月時間里所包含的周期性和趨勢性,這極大地簡化了網絡結構,但同時保證了訓練的質量和效果。
?
接下來,將這三個結果進行融合,在這一階段僅考慮時間屬性和空間屬性。因為外部因素,例如事件和天氣等更多的是全局的、更廣域的影響。因此下一步,再把外部的天氣、事件等因素做二次融合。
那么,空間的特性在這里是如何模擬的呢?
我們都知道,深度卷積神經網絡的過程是這樣的——在將城市區域劃分成若干個格子之后,把相關的區域進行卷積運算合并到一個值,你可以認為通過一次卷積之后,相關周圍地區的人流的相關性就能有所了解。卷積多次之后,相當于把更遠的地方屬性都卷積到一起了。如果你想研究距離很遠的兩個地方的相關性,那就對網絡層次的深度提出了要求。在上海外灘的踩踏事件中,外灘觀景平臺的人流對沖被認為是事件的主要原因,但造成大規模人流對沖的原因仍不清楚。而該模型既可用于解釋人流對沖的原因和趨勢,另一方面還能對人流疏散問題提供解決方案。
?
但另一方面,一旦網絡的層次比較深,就會讓訓練變得非常復雜、非常困難,精度也無法保證。為了保證訓練效果好、提高訓練精度,研究員們引入了殘差網絡結構來解決這個問題。這樣既保證了人流量的空間相關性,又使得訓練精度變得更好。
?
在論文Deep Spatio-Temporal Residual Networks for Citywide Crowd Flows Prediction中,鄭宇博士及研究團隊用四年內的北京市出租車GPS軌跡數據和紐約自行車租賃的公開數據進行了驗證。這套模型的通用性也保證了其他類似數據同樣可以用于人流量的預測問題。
?
鄭宇博士介紹道:“這篇論文可以認為是(在國際知名學術會議上)真正把深度學習有效用在時空數據上的第一個研究成果,具有重要意義。”而深度學習在時空數據方面的應用,目前也是微軟亞洲研究院城市計算組的重點研究方向。
為城市喝彩
關于城市計算的研究已經走過了近十年的時光。從2008年初開始,通過分析和融合城市中的各種大數據,鄭宇博士和團隊實現了一系列關于智能交通、城市規劃、環境和能源等的實際案例。相關技術不僅被應用于微軟的產品,并且還在多個城市為政府決策提供服務。
?
城市計算作為一個交叉學科,包括城市感知及數據捕獲、數據管理、城市數據分析、服務提供四個環節。與自然語言分析和圖像處理等“單數據單任務”系統相比,城市計算是一個“多數據多任務”的系統。城市計算中的任務涵蓋改進城市規劃、緩解交通擁堵、保護自然環境、減少能源消耗等等。而在一個任務中又需要同時用到多種數據。比如,在城市規劃的設計過程中,我們需要同時參考道路結構、興趣點分布、交通流等多種數據源。
?
在城市計算的中文頁面介紹上,鄭宇博士寫道:“更具體的說,城市計算是一個通過不斷獲取、整合和分析城市中多種異構大數據來解決城市所面臨的挑戰(如環境惡化、交通擁堵、能耗增加、規劃落后等)的過程。城市計算將無處不在的感知技術、高效的數據管理和分析算法,以及新穎的可視化技術相結合,致力于提高人們的生活品質、保護環境和促進城市運轉效率。城市計算幫助我們理解各種城市現象的本質,甚至預測城市的未來。”
注:城市計算的中文頁面網址:https://www.microsoft.com/en-us/research/project/%E5%9F%8E%E5%B8%82%E8%AE%A1%E7%AE%97/ (請點擊文末的閱讀原文或直接復制網址至瀏覽器中打開)
如何成為一個幫助城市建設,為城市喝彩的數據科學家?鄭宇博士給出了以下幾點分享。
?
首先,數據科學家是區別于數據分析師的概念,后者通常都是針對明確的任務和明確的數據進行處理。而數據科學家往往需要自己找出問題,找出對應的數據。例如,如何解決城市的霧霾問題等。
?
其次,數據科學家需要會分析問題,知道這個問題和什么因素相關,也知道用什么樣的數據體現這樣的問題。不僅如此,他還需要知道過去解決方案的優缺點,并博采眾長,提出自己的解決思路。
?
再來,數據科學家要看懂數據,理解數據背后的洞察。例如路面上的GPS軌跡,它不光反映了路面的交通容量和速度信息,它也反映了人們的出行規律。我們知道每個人的上車地點和下車地點,如果我們有很多人的出行規律,就可以進一步反映這個區域的經濟、功能甚至環境。進而可以用領域A的數據去解決領域B的問題,做到跨數據多元融合。
?
還有就是要了解各種模型,包括數據管理、數據挖掘、機器學習、可視化等等,以及云計算平臺問題。
?
鄭宇博士總結道,一個好的數據科學家應該是站在云平臺上面看問題,想數據、關聯模型,并把這些模型有機地組合起來,部署到我們的云平臺上面,跟它產生鮮活的知識,最終解決行業問題。
?
這,也是鄭宇博士和城市計算團隊一直追求的方向,也是他們為城市喝彩的一種含蓄的表達方式吧。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4477.html
摘要:年月日,以數字金融新原力為主題的螞蟻金服城市峰會在上海隆重舉行。而其分享中最引人關注的當屬螞蟻風險大腦,它過去為螞蟻金服業務保駕護航,現已為眾多金融監管部門金融機構以及企業提供安全技術能力,做好安全的守護人。 2019年1月4日,以數字金融新原力(The New Force of Digital Finance)為主題的螞蟻金服ATEC城市峰會在上海隆重舉行。大會聚焦金融數字化轉型,分...
摘要:技術總言這次主要說最近發展的無監督特征學習和深入學習,其對于時間序列模型問題的評價。建模連續數據的傳統方法包括從假定時間序列模型參數的估計,如自回歸模型和線性動力系統,和著名的隱馬爾可夫模型。此外,時間序列對時間變量有明顯依賴性。 技術總言:這次主要說最近發展的無監督特征學習和深入學習,其對于時間序列模型問題的評價。這些技術已經展現了希望對于建模靜態數據,如計算機視覺,把它們應用到時間序列數...
摘要:工業園區發展帶動高質量發展,同時也成為城市安全發展的重要組成部分。智能安全起著是以工業互聯網為支撐的智能工業的基石。黨的十九大報告提出,我國經濟已由高速增長階段轉向高質量發展階段,正處在轉變發展方式、優化經濟結構、轉換增長動力的攻關期,防風險在經濟轉型過程中至為關鍵,城市安全風險急需化解。為此,中共中央辦公廳、國務院辦公廳印發了《關于推進城市安全發展的意見》。這是轉型期城市安全發展的一個指導...
摘要:好東西傳送門日報星期五機器學習語義分割中的弱監督學習亮點摘要解密谷歌機器學習工程最佳實踐深度解析京東個性化推薦系統演進史最著名的個機器學習項目新技術與新應用高通驍龍解析這次圍繞著人工智能和沉浸式體驗高通量人工智能一體機首次亮相北京時空大 【好東西傳送門日報】2017-12-08 星期五 【機器學習】 1) 語義分割中的弱監督學習 http://t.cn/RYBWyIZ 2) +NIPS...
閱讀 3272·2023-04-26 02:10
閱讀 2893·2021-10-12 10:12
閱讀 4594·2021-09-27 13:35
閱讀 1532·2019-08-30 15:55
閱讀 1074·2019-08-29 18:37
閱讀 3437·2019-08-28 17:51
閱讀 1969·2019-08-26 13:30
閱讀 1209·2019-08-26 12:09