摘要:通過海拔坡度到水源的距離地塊位置等特征項,對地塊植被的類型進行預測個類型。競賽結果提交請選手利用建立的模型對每階段提供的預測數據集中的地塊植被類型列進行預測類,預測結果按如下格式保存成格式提交。
參加佛山互聯網協會建模大賽,主題為植被類型預測,數據量分3個階段,10/15/15萬左右的放出,暨大教授在里面加了噪音,但我EDA沒做得很好;因此只拿到26名;
訓練環境:WIN7,16G內存,Rstudio,xgboost,CV交叉驗證;耗時比較久,因為用for語句;
最高成績加權F1值只有0.69,Kaggle實測成績0.72;
腳本和訓練過程見下面notebook;
鏈接描述
去聽前11名理論賽演講,其實大家用的都差不多,還有人會用并行結構;用spss做更多eda;
大賽規則:
“數創嶺南”職工技能賽賽題介紹與數據下載下載數據
1
賽題介紹
隨著計算能力、存儲空間、網絡的高速發展,人類所積累的數據量正在快速增長,而對特定數據的分類算法就顯得尤為重要。分類是一項非常有應用價值的技術之一,它的應用遍及了社會中的各個領域,尤其是對多標簽分類問題的解決方法,是機器學習中一個重要的研究領域。
2
數據集描述
本次大賽提供數據集反映的是不同地塊的植被類型情況。通過海拔、坡度、到水源的距離、地塊位置等特征項,對地塊植被的類型進行預測(7個類型)。數據集中共有 13個特征,由 55 列數據組成。
如下圖所示:
字段名稱 數據類型 量度單位 描述
Elevation 定量數據 米 海拔高度
Aspect 定量數據 度 方位角
Slope 定量數據 度 坡度
Horizontal_Distance_To_Hydrology 定量數據 米 與最近水文特征的水平距離
Vertical_Distance_To_Hydrology 定量數據 米 與最近水文特征的垂直距離
Horizontal_Distance_To_Roadways 定量數據 米 與最近道路的水平距離
Ground position 定性數據 a-l 地塊位置
Hillshade_9am 定量數據 0至255的索引 早上9:00光的投射度(夏至)
Hillshade_Noon 定量數據 0至255的索引 正午光的投射度(夏至)
Hillshade_3pm 定量數據 0至255的索引 下午3:00光的投射度(夏至)
Horizontal_Distance_To_Fire_Points 定量數據 米 與最近燃火點的距離
Wilderness_Area (4個二元列) 定性數據 0或1(缺失/存在) 荒野地區等級
Soil_Type (40個二元列) 定性數據 0或1(缺失/存在) 土壤類型等級
Cover_Type (7種) 整數 0至7 地表覆蓋類型
3
數據集提供方式
這是一個模擬真實情況的過程,數據是分階段提供的,并且包含約1‰~2‰的噪聲值。每個階段,會提供不等數量的訓練和預測數據集,選手通過訓練數據進行建模、優化算法,并在測試集進行預測,每個階段的預測準確率都將計入第一輪實操賽的總成績。
· 第一階段提供10萬條訓練數據,預測2萬條。時間:8月20日00:00—9月5日23:59;
· 第二階段提供12~15萬條訓練數據,預測3萬條。時間:9月6日00:00—9月21日23:59;
· 第三階段提供12~15萬條訓練數據,預測3萬條。時間:9月22日00:00—10月8日23:59。
建議選手在考慮準確率的同時,需要考慮計算效率(運算時間),計算效率將作為第三輪答辯賽的其中一個評分指標。最終總決賽評委會根據實操賽、理論賽成績以及現場答辯的表現對選手進行綜合評分。
4
評分標準
大賽平臺將自動計算每一個階段測試數據集中預測分類的準確率。 本次采用宏平均值(Macro-averaging)作為各階段的評價指標。 宏平均(Macro-averaging),是先對每一個類統計指標值(F1-Score),然后再對所有類求加權(Qi=各類型樣本量占比)平均值。 在第一輪實操賽的三個階段,將依據參賽隊伍的預測準確率(宏平均值)進行排名,準確率越高,則排名越靠前。參賽選手可以不斷優化模型,通過平臺提交結果,每天最多提交3次。
· 第一輪實操賽最終總得分規則如下:
實操賽總排名按照如下公式計算:
(第一階段預測準確率30%+第二階段預測準確率35%+第三階段預測準確率*35%)
實操賽標準分 = 100-(100*P1-50)/N1,P1為選手在實操賽的綜合排名,N1為參加實操賽的選手人數。
5
競賽結果提交
請選手利用建立的模型對每階段提供的預測數據集中的地塊植被類型(BD列)
進行預測(7類),預測結果按如下格式保存成CSV格式提交。
預測結果(1/2/3/4/5/6/7)
預測結果(1/2/3/4/5/6/7)
預測結果(1/2/3/4/5/6/7)
......
預測結果(1/2/3/4/5/6/7)
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/44966.html
摘要:最近項目用到谷歌地圖,但是看谷歌文檔,對于國人來說,還是比較吃力的,網上找資料也并沒有太多的資料,所以就想分享給大家。顯示了整個地球地圖的完全縮放。 最近項目用到谷歌地圖,但是看谷歌api文檔,對于國人來說,還是比較吃力的,網上找資料也并沒有太多的資料,所以就想分享給大家。但是因為本人太懶了,每次研究技術完事時間一久就忘了,更別提分享了,在朋友的鼓勵支持之下,重新開始寫博客,共享給大家...
摘要:我要給家里開發一個自動化的物聯網灌溉系統。大致思路有兩個一是自動控制,二是物聯網,人可以輕松查看以及控制我們可以從我后續的手機上管窺一下具體的功能。持續更新,未完待續。 ...
摘要:中主要關注的就是,對象的主要功能就是處理網頁內容。中文翻譯模型,如果你把這個詞從中抽離出來,看下面的圖片是不是就很好理解。年月制定的標準,由兩大部分組成核心和。擴展鼠標和用戶界面事件范圍遍歷,增加了對支持。 往期回顧 在上一期的《JavaScript的組成 | 核心-ECMAScript 》?里,我們有說到JavaScript 是由三大部分組成,分別是:核心ECMAScript、文檔對...
閱讀 3683·2021-11-16 11:41
閱讀 2890·2021-09-23 11:45
閱讀 695·2019-08-30 15:44
閱讀 548·2019-08-30 13:10
閱讀 1966·2019-08-30 12:49
閱讀 3534·2019-08-28 17:51
閱讀 1483·2019-08-26 12:20
閱讀 707·2019-08-23 17:56