摘要:詞頻逆向文件頻率詞頻越大越重要越大,即出現(xiàn)詞的文件數(shù)越少,越重要概述一般結(jié)構(gòu)為卷積層一組平行的,之后經(jīng)過激活函數(shù)如來決定該神經(jīng)元是否被激活。一般都是,把行進行處理。
做ML最重要的是啥!!跟我念三遍??!LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具來幫助自己理解data。
Pandas
引入:import pandas as pd
常也需import numpy as np
create df:
df = pd.DataFrame(...)
selection:
選列:df["A"] 選行:df[0:3] 多維:df.loc[:, ["A", "B"]]或df.iloc[:, 0:2] 選值:df.at[2,"A"]或者df.iloc[2,0]
處理空值:df.dropna df.fillna
apply funcs:df.apply(lambda)
SQL-like join: pd.merge(A, B, on="...")
文件:df.to_csv("...") pd.read_csv("...")
filtering的pitfall:
用于filter training data的就不可以再作為feature, e.g.
如果用age < 18來filter了training set,那么age就不可以再作為feature,否則模型就會嚴重學(xué)習(xí)到age < 18這條手動規(guī)則
Ngrams:
一段text里相臨近的n個單詞,ngram feature每次就以n為窗口計算
ngram model一般是馬爾科夫鏈算法,由前n-1個單詞預(yù)測最后一個單詞
feature engineering:
如何提出好的feature:1)憑直覺 e.g.頭發(fā)長短用于判斷性別; 2)用數(shù)據(jù)做correlation分析
ROC曲線:
橫坐標(biāo)FPR, 縱坐標(biāo)TPR, 每個點上都有threshold,可以根據(jù)距離(0,1)點最近的曲線上點來選擇threshold。(但一般都是0.5不用動。)
TFIDF:
TFIDF = TF(詞頻) * IDF(逆向文件頻率)
詞頻越大越重要
idf越大,即出現(xiàn)詞的文件數(shù)越少,越重要
CNN概述:
一般結(jié)構(gòu)為
kernals(window) --> convolution layer --> pooling operation --> vectorization
卷積層:一組平行的feature map,之后經(jīng)過激活函數(shù)(如sigmoid)來決定該神經(jīng)元是否被激活。
池化層:downsampling,有助于減少param數(shù)量并避免overfit
常見池化方法:max,min,avg,l2等
Model deployment:
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model
預(yù)處理
一般都要包括去重(!非常重要!否則會overfit和bias)和處理N/A值
train、test set split的pitfall:
注意不能有data leak?。?!所以去重真的非常重要啊。
一般的ranking backend結(jié)構(gòu):
一般first stage做filter(這樣結(jié)果才能變少啊),second stage做rank。
所以先filter model,然后再ranking models
如果應(yīng)對position bias(e.g.排第一個的結(jié)果收到的點擊最多):
predict as if they are all shown at position 0
include position feature
counterfactual evaluation
Training package:
訓(xùn)練代碼一般都會打包成package通過command來跑。
一般都是batch training,把行進行batch處理。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/19933.html
摘要:谷歌云在其官方博客上公布,確認來自卡內(nèi)基梅隆大學(xué)的計算機科學(xué)院院長教授將在年底接任李飛飛的谷歌云負責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會上,李飛飛宣布了兩年前推進的Contact Center落地、AutoML推出自然語言和翻譯服務(wù)、TPU 3.0進入谷歌云,這意味著谷歌云擁抱AI Fir...
MindsDB作為一個開源項目,它旨在將機器學(xué)習(xí)模型無縫集成到現(xiàn)有的數(shù)據(jù)庫系統(tǒng)中,為用戶提供實時的數(shù)據(jù)預(yù)測能力。這個項目的創(chuàng)新之處在于,它能夠以簡單、直觀的方式讓開發(fā)者和非技術(shù)人員都能夠利用AI進行數(shù)據(jù)分析和預(yù)測。 它是根據(jù)企業(yè)數(shù)據(jù)庫定制的AI平臺,使用者可以根據(jù)數(shù)據(jù)庫、矢量存儲和應(yīng)用程序數(shù)據(jù)實時創(chuàng)建、提供和微調(diào)模型。簡介MindsDB 的核心理念是使數(shù)據(jù)庫不僅能夠存儲和檢索數(shù)據(jù),還能基于這些數(shù)據(jù)...
摘要:在一個數(shù)據(jù)分析任務(wù)和任務(wù)混合的環(huán)境中,大數(shù)據(jù)分析任務(wù)也會消耗很多網(wǎng)絡(luò)帶寬如操作,網(wǎng)絡(luò)延遲會更加嚴重。本地更新更新更新目前,我們已經(jīng)復(fù)現(xiàn)中的實驗結(jié)果,實現(xiàn)了多機并行的線性加速。 王佐,天數(shù)潤科深度學(xué)習(xí)平臺負責(zé)人,曾擔(dān)任 Intel亞太研發(fā)中心Team Leader,萬達人工智能研究院資深研究員,長期從事分布式計算系統(tǒng)研究,在大規(guī)模分布式機器學(xué)習(xí)系統(tǒng)架構(gòu)、機器學(xué)習(xí)算法設(shè)計和應(yīng)用方面有深厚積累。在...
摘要:舉例,神經(jīng)元,感知機,神經(jīng)網(wǎng)絡(luò)行為主義智能機器人認為人工智能源于控制論。人工智能的研究領(lǐng)域包括專家系統(tǒng)推薦系統(tǒng)等等。是一種實現(xiàn)人工智能的方法根據(jù)某些算法,通過大量數(shù)據(jù)進行訓(xùn)練和學(xué)習(xí),然后對真實世界中的事件做出決策和預(yù)測。 1. 緒論 四大流派 符號主義(知識圖譜)原理主要為物理符號系統(tǒng)(即符號操作系統(tǒng))假設(shè)和有限合理性原理 用數(shù)理邏輯描述智能行為, 在計算機上實現(xiàn)了邏輯演繹系統(tǒng)。 ...
閱讀 3222·2023-04-26 02:27
閱讀 2145·2021-11-22 14:44
閱讀 4096·2021-10-22 09:54
閱讀 3201·2021-10-14 09:43
閱讀 756·2021-09-23 11:53
閱讀 12728·2021-09-22 15:33
閱讀 2714·2019-08-30 15:54
閱讀 2687·2019-08-30 14:04