国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

新時代的「數字富士康」:揭秘 AI 風口下的數據標注生意

ssshooter / 899人閱讀

摘要:目前的數據標注工廠,多集中在河北河南山東山西等地區,這同以富士康為代表的傳統人力密集企業的選址偏好重合度極高以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數據需求。

開玩笑的時候,小雪說她的男友是 AI 產業中工資較低的那個,其次就是她自己。

剛從濟南德州信息工程學校計算機專業畢業,小雪和男友正在接受手寫體錄入培訓,當她能認識這些手寫字母后,就輪到她把這些知識教給計算機——把一張張快遞單或家譜上的手寫體上的字母標注出來,告訴機器 i 可以有多種寫法。

這樣的工作并不簡單。手寫的 i 可能是頂上一點加上一豎,也可能是朝后彎的小勾,更潦草一點就和數字 9 一樣……小雪的筆記本上密密麻麻地擠滿了這些像字更像圖的墨跡。

小雪做的,是一種介于手寫錄入和圖像標記之間的工作。同服務于智能駕駛的街景標記、服務于智能醫療的人體標記、服務于語音交互的聲音標記一樣,他們共同的行業學名叫做「人工智能數據標注」——這是整個 AI 產業的基礎,是機器感知現實世界原點。

和小孩一樣,機器要認識「蘋果」,就需要不斷有人教給它哪些東西是蘋果:渾圓的、帶把的、有的像桃心有的像屁股,有的通紅有的油綠。和小孩不同的是,機器需要在不同場景、不同角度下反復學習,這個漫長的教授過程就是小雪在 AI 產業中的位置,標注大量用于訓練機器學習模型的數據,讓機器越來越像「人」。

無差別的人力,和天壤之別準確度

如果小雪標注犯錯,最直接的后果是機器也會跟著犯錯。她必須保證「喂」給機器的標注數據達到 90% 以上精度(即是指標注的正確率),否則這些數據對于機器學習將毫無意義。北京一家數據標注工廠 Basic Finder 的 CEO 杜霖說:95% 以上的準確率是理想情況;但從 95% 提到 97% 所需花的成本就不再是一兩倍了,可能是 10 倍或 100 倍。

98% 精度是小雪遇到過的較高需求,這意味著如果 100 個點里頭有兩個點不準的話,就會被打回重做。她「提心吊膽」地對每個標注點反復確認才敢提交。但 15 骨骼點標注又極耗耐心,要在人全身包括頭頂、脖子、胸口、膝蓋等骨骼處打上 15 個點,將這 15 個點連起來就出現了一個形象的火柴人。在 ?Kinect 體感游戲中,機器就是靠關鍵骨骼點的位移來識別人體是否運動。?

令小雪最郁悶的,是一張軍姿站圖。只要露出了頭、脖子、胸口,小雪就要從他的左上角開始畫矩形,框住這些動作、著裝完全一致的人。重復拖動近 40 個框后,她要再放大這些帶有藍色陰影矩形框,從頭到四肢標注完每個人的骨骼點。最后,將近 600 個點密密麻麻地落在了這張圖里。

在這個她形容為「經歷絕望」的過程中,她嘗試用眼藥水來緩解疲勞,但滴過后會不停流眼淚,直到她換了種方式,靠不停揉眼睛來放松。杜霖說:有些任務圖上密密麻麻的點,看兩個小時以上眼睛會花掉了,但他會要求員工不斷克服人本身的一些「消極因素」,才能避免標錯數據成為「漏網之魚」。

聯合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉認為,到 2030 年,人工智能將向世界經濟貢獻 16 萬億美元。從 2016 年人工智能逐漸走熱以來,任何行業都想搭上這個熱潮,投資人的評價是「每個商業計劃書上都要加上人工智能」。進入深度學習「死胡同」的人工智能需要標注的領域也帶來越來越多:機場安檢時新增的人臉識別、能識別選取商品的無人便利店、能安全行駛的無人駕駛等。

新興市場帶來了大量勞動力的涌入?!冈瓉砀商詫毸?單的,現在也能搖身一變做 AI 數據標注。」杜霖說,「在提供無差別人力勞動這件事上,大家是沒有門檻的?!?/p>

在河北衡水,由于當地政府查污染嚴重導致化工制品停產,26 歲的小蘇就帶著原先 30 多人的銷售團隊轉行數據標注,隊員小的到 20 出頭,老至年近不惑。雖然他早就知道河北做數據標注的團隊已經非常多,并且有的團隊已經垮掉,但人工智能的火熱和數據標注的低門檻還是讓他決定一搏。

高中學歷是小蘇在招人時的較高期望,「高中生花一天做的工作,初中生可能需要花五天,差別很大。」行業中,小蘇的招聘標準已經算是較高水平,那些投身數據標注的兼職者學歷更加良莠不齊。在某些眾包平臺上,有的標注者只有小學文憑,在東北還有一部分有聽力障礙的殘疾人標注團隊,而北京的全職工廠中的較高學歷是大?;蛘咧袑!?/p>

欣博友數據標注公司職員周京平認為,一個老農民在標注方言語音時可能會比不使用這種語言的大學生還好。同所有的人力密集型產業一樣,人人都能在此覓得一份營生。

人工智能專業方向的碩士生毛毛認為,能不能達到理想標注精度和學歷沒什么關系,而且操作非常簡單,只要教一下,誰都能做。她也曾做過兼職數據標注,在所給的圖片中她需要辨別出不同角度的花菜、菠菜等。一星期后,她標注了一萬張圖,沒有一張返工,每張報酬一毛錢。但她「打死也不會再做這個工作了」,因為「實在太重復」。

看似簡單的操作,要達到 90% 的精度對于大多數標注者來講卻是天方夜譚。小蘇所接觸到的兼職標注團隊較高精度只能達到 70%,即便是在全職和全把控的情況下,他們第一次項目只達到了 50% 的精度,基本上承接的每個項目他們都需要重復三次以上才能達到 90% 的精度。

如果用于訓練模型的數據精度低于 90%,就像小孩兒拿到的一年級數學課本里頭寫的是一加一等于三。一開始就教錯,機器學習和人工智能就只剩下指鹿為馬。

數字富士康

2014 年冬天,山東蓬萊積起了厚厚的雪。小雪每天都要不情愿地鉆出被窩,趟著大雪走到一家汽車工廠去插線。在固定工位站好后,她根據形狀將面前充滿不同插口的集成器及一堆接口各異的汽車線路一一匹配好,完成后迅速將其交給下一個人,再重復剛才的動作,直到下班。小雪知道,自己站一整天的工作只是整個工廠里頭很小的一部分。

相比那年冬天,她更喜歡現在的工作,數據標注工廠里,她有接近兩百個同事,大家能坐在屬于自己的工位上干活。在給用于智能駕駛采集的圖片做標注時,小雪需要選取一個可以畫出 2D 框的標注工具(即是可以根據不同物體拖動出不同形狀的畫框),把圖片中所有的機動車、非機動車、行人、紅綠燈等標注出來。

同在汽車工廠流水線上的工作相比,眼前的鍵盤鼠標顯示器替代了嗡嗡作響的流水線,從早上 8 點到晚上 5 點,小雪除了拽動鼠標外什么都不用想,重復一個動作就行,變化的只有眼前不同的圖片——但這對小雪來說,工作中的新鮮感已經足夠。

有的人說數據標注工廠就像富士康一樣。北京另一家數據標注公司瑪達科技公司 CEO 任樹亮則直言不諱,數據這一塊往往給人印象就是一個勞動密集型產業。某自動駕駛創業公司數據標注負責人經常私底下開玩笑說,這就是個「血汗工廠」。

目前的數據標注工廠,多集中在河北、河南、山東、山西等地區,這同以富士康為代表的傳統人力密集企業的選址偏好重合度極高——以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數據需求。杜霖介紹說,由于高昂的成本絕不能讓北京去做最終的生產,而是做所有新任務來時的磨合測試以及最終的質量控制。生產任務最終還是落到周邊城市。

只有招募像毛毛一樣的大學生做兼職標注時,眾包工廠能開出一張圖 1 毛錢「高價」。任樹亮對這樣的定價有些吃驚,「我們還有按厘算的呢。」在一堆不同圖片中識別某人是否是同一個人,這樣的工作只能按厘算,不過也有從幾十塊錢到上百塊錢報價的復雜標注圖。杜霖說,圖片的差異比較大,以工時來計算可能更準確,現在甲方公司至少應該給到 30 塊錢每小時才能保質保量完成。

小雪挺滿意現在的待遇,「之前的工作太累又掙不到錢」?,F在公司包吃包住,提供四人間寢室,一個月到手的工資有 4000-5000 塊,還可以和男朋友一同上下班。最近一段時間,工期趕得很急,小雪已經連續兩個周末到公司加班,從早到晚地盯著顯示器讓她倍感疲憊,但她不想停下,基礎加計件的工資構成總是多勞多得。

和傳統生產流水線不同的是,在杜霖的工廠里,工作流程被設置為可實時切換:每期作業都不同,每期作業里頭的每個任務也不相同。在一個小時的工作間隔里,小雪會碰到兩個相同的標注任務,當兩次標注結果差別較大時,就證明她已經疲勞了,這是,系統就會切換一個完全不同的任務交給小雪操作,以保持員工的「清醒」和「新鮮」,最終達成杜霖宣稱的準確率。

算上合作的周邊工廠,杜霖的公司已經有 2000 多人,他們正在同時進行著 20 多個不同項目的標注。在這樣一個人力密集型行業里存活下來,并且保障交付的數據達到 90% 的精度,他堅信,管理才是關鍵。

管理,管理,以及管理

林霞是小雪的直接管理者,她是老板杜霖最信任的人,已經有 18 年類似的工作經驗。當接到一個新項目時,她要確定整個項目流程。前段時間,林霞拿到了一個智能駕駛的標注項目,里頭既有夜間拍攝的圖片也有白天的圖片,為了保證標注質量林霞就決定讓能力強一點的員工做夜晚圖片的標注,而能力弱一些的就標注白天拍攝的圖片。這是第一步,分析客戶給到的圖像,如果是涉及到對人的標注,要分析給到的圖片包里單人和多人的圖片各占多少,明確需要標注的工作量大概多大。

分析完后,她會將具體的標注任務分配給手下的員工??赡芤恍┤松瞄L標注道路場景,而另一部分人更擅長標注骨骼點,稍有難度的標注她會交給表現出色的員工,對他們進行重點培養。辦公桌右側的日歷上每一天空白處都畫著提示,如果標注進度比林霞想像中慢,她就必須留意其中的什么原因。標注完成后,最困難的地方就過去了,接下來就是質檢、抽檢及合成數據交付給甲方公司了。

「統籌安排」是整個生產過程的核心,所有工作的底線是要按照客戶的要求按時完工。如果趕工期,林霞會要求手下員工加班,并且緊急調配人員。會出現一些讓林霞頭疼的員工,平時精度可能只能做到 50%,做出來的全是「廢品」。面對這種情況,林霞會堅持讓他換崗,「不行就不能在我這崗位呆著。因為我的作業他干不了,既浪費我時間又浪費他時間,他還掙不到錢?!?/p>

林霞的這些經驗為小雪給別人培訓打下了基礎。作為公司里比較優秀的員工,入職一年后小雪就作為培訓老師之一去了河北徐水一居民小區里,這是她公司的一家合作工廠。這棟紅色外墻的居民樓一層是數據標注工廠,樓上是老年人活動中心。進了大鐵門后,有四個教室般大的工廠里面放著新的臺式電腦。除了部分來兼職的學生們外,大部分都是些已婚中年人,有的騎自行車十分鐘左右就可以到了,而有的就住在小區里。

第一次布置任務時,小雪不想給「學生們」的心理壓力太大,她只布置了十張標注的作業。但學生們對于標注規則總有不同的理解,同樣的東西她多帶帶給一個人講過三四遍。給他們練手的骨骼點標注圖片里頭,需要先標注骨骼點再連線,但有身體特別扭曲的圖像,而規則里頭明確要求左肩和左胯在同一水平面上。那些拿不定主意的學生,會像小學生面對著自己的老師一樣,反復向小雪求助和確認。?

不清楚標注規則既影響標注速度又影響標注質量。同樣的一條眉毛,客戶給的標準是將其劃分成平眉和挑眉,但「平」和「挑」的定義,幾乎人人不同。一輪標注下來,一塌糊涂。為了熟悉各個公司需求文檔中不同的具體規則,每當遇到類似的新項目,林霞都會上手試標注。

兩個星期后,這些偶爾會將左手標簽貼在右手上的學生已經掌握了具體的標注規則,可以上崗了。小雪很享受被叫老師的時候,但還是更喜歡做數據標注,因為標注不費心,檢查要承受被用戶打回來返工的壓力,壓力更大。

對甲方公司來講,誰來標注、如何管理這些都不是他們需要擔心的問題,成本和按時保質交付才是核心。用智能程序覆蓋城市低速場景的酷哇機器人公司目前主要跟杭州一些高校合作,學生是標注主體,采用這樣的方式可以節省 1/3 的成本。曾對接過多次數據標注的工程師說,只要跟體量比較大的數據標注公司合作,一般精度和時間都可以有保障。

AI 產業的源頭和最不會被替代的人

每次回老家,當家人問起小雪的工作,她總是先說自己是「數據標注師」,再往下解釋,說是做和計算機相關一些人臉、骨骼點標注工作。但沒人聽得懂,小雪在說什么,家里人就會在此停止追問,并暗暗覺得這是一個響亮的高科技職位。小雪從來沒有想過自己的工作對于人工智能來說算什么,「只要掙錢就有意義」。

「負責靜態物體檢測/場景識別/OCR 文字識別,負責人工智能與自動作業探索」這是百度招聘圖像識別與人工智能算法工程師的工作職責描述,而「扎實的數學基礎,掌握 C/C++和 Python 語言, 掌握 OpenCV,掌握機器學習基本算法……」是對應聘者的要求。面對這些「同行業的同事」,中專文憑的小雪想不明白自己和他們的聯系究竟為何。

但「小雪們」標注的上萬張圖片才是無人駕駛能夠紅燈停、綠燈行的基礎。沒有數據的清晰標注,深度學習的發展就是巧婦無米。另一家眾包數據標注公司 CEO 任樹亮認為,人工智能就是盲人摸象,有很多不同的部位,數據標注也是人工智能產業里面很重要的環節,不過容易被認為很 low。

的確,同人工智能的響亮名號相比,數據標注幾乎沒有任何技術門檻。小雪初三時才第一次學打字,上中專后才「正式」接觸電腦,而現在她已經被老板表揚為最出色的幾個員工之一。踏實干好現在的工作是小雪從入職以來的想法,這是姥姥的囑咐,讓她給弟弟妹妹做好榜樣。其他人的情緒并不都像小雪一樣穩定。有人領到分配的骨骼標注圖片后,因為圖像里頭人太多就直接不做任務,但資源包被領取后就無法再放回資源池,如果不做,這包圖片就不會有其他任何人能標注。而更不靠譜的人還會動搖其他員工。

2015 年的初秋,吃飽了午飯的小雪坐上數據標注工廠派來接他們入職的大巴車,同行的還有 15 名將一起畢業的同學,開往北京的路上,他們嘶吼的歌聲蓋過了車內的音響,整整一路,那份一無所知的興奮感延續到了今天。每當聽到人們談論起人工智能會替代人力的時候,小雪都覺得不知所云。

「即時是被替代,數據標注師也將是最后一批被替代的人?!苟帕匕延^點灌輸給了小雪和她的同事們,這讓他們感受到了莫大的信心和驕傲。只有當真正把所有知識都教給老虎,貓才會被吃掉,在此之前老虎的獵物都只會是其他動物。作為人工智能的「老師」,他們還要不斷教會人工智能新本事。

某創業公司對接數據標注的負責人認為,商業競爭才是決定這部分人不會取代的關鍵因素。每家公司都有自己的數據標注需求,并且他們暫時不會公開自己的模型,就像在互聯網之初大家都不會開源自己的代碼一樣??赡艿侥硞€節點大家都公開自己的數據、模型后這部分人才會面對失業的擔憂。

就算到了人工真正要被取代的那天,杜霖堅信她和他的工廠也不會慌張。這位「廠長」正盤算著把他擁有的人力資源復用到其他領域,比如承接一部分內容審核、信息核查的工作,「審核滴滴司機的駕照是否真實、微信是否是真的實名制、頭條新聞是否是涉黃、涉恐」。

對于將來的發展,小雪還沒想太多。她現在正在學習 29 點的人臉標注,每只眉毛上找到三個需要標注的點,眼睛上下眼皮各兩個點、眼珠一個點外加兩個眼角的兩個點,共五個點,嘴巴有六個點……聽完這些規則后,小雪驚喜地笑了,「一個人臉就出來了,老形象了,像 『彌勒佛』一樣」。

小雪的「彌勒佛」

本文圖片來自:視覺中國 正版圖庫歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識

QQ群:81035754

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://m.specialneedsforspecialkids.com/yun/4798.html

相關文章

  • 當云走向AI化,百度云正讓整個生態走得更遠

    摘要:就國內市場而言,百度云選擇三位一體戰略的時候不乏長遠性思考。百度云將放在位的另一個用意正是在領域樹立差異化優勢,并通過等深耕垂直場景。至少就目前來看,百度云已經找到了最適合自己的競爭方式。2018年下半年,To B迎來了從未有過的熱度,也把云計算重新捧上了風口浪尖。和幾年前新興業務的身份不同,處于風暴中心的云計算,早已成為互聯網巨頭和創業者們最激烈的戰場,并相繼宣布了醞釀許久的動作。阿里在財...

    daryl 評論0 收藏0
  • AI放在C位百度云,正在將云計算引入新賽道

    摘要:百度企業智能大會現場新一輪搶灘賽將放在位的百度云,自然有著自己的考量。站在百度云的角度而言,云計算進入到綜合實力的較量,恰恰是以己所長攻彼之短的最佳時機。2018年下半年,To B迎來了從未有過的熱度,也把云計算重新捧上了風口浪尖。和幾年前新興業務的身份不同,處于風暴中心的云計算,早已成為互聯網巨頭和創業者們最激烈的戰場,并相繼宣布了醞釀許久的動作。阿里在財報中努力擴大云計算的占比,并視之為...

    tinna 評論0 收藏0
  • APICloud CEO 劉鑫做客喜馬拉雅:揭秘AI如何通過移動技術落地

    摘要:不僅如此,倒霉的不只是文科生,根據劍橋大學的數據,目前熱門的工程師居然有的幾率被淘汰,程序員也有接近的幾率被淘汰。 現如今人工智能已經在很多方面得到了應用落地,通過手機移動端的一些功能和應用程序,我們已經能夠很直觀地感受到它對我們生活的影響。比如蘋果IphoneX的人臉識別功能,包括一些主流app有語音識別和語音對話的功能。 隨著AI時代的移動技術革新大會開幕鄰近,APICloud創始...

    Shisui 評論0 收藏0
  • 2019CES釋放B端崛起全球信號 百度智能云市場預言又成真

    摘要:百度智能云戰略。年月份百度云智峰會上,百度智能云正式發布了戰略,以打造最落地的最安全的最先進的,并推出了平臺,擁有深度學習對話式搜索自然語言處理等能力,涵蓋了模型標注平臺一體機定制化訓練平臺等產品。美國時間1月8日至11日,2019年國際消費類電子產品展覽會(CES)在拉斯維加斯開幕。作為全球科技風向標,CES將引領新一年科技界潮流。2019CES,從智能家居到AR/VR等虛擬現實技術、穿戴...

    張紅新 評論0 收藏0
  • 全方位“揭秘”百度云神奇之處

    摘要:昨天,在中國市場年會現場,張志琦對百度云進行了全方位的揭秘。這些合作的基礎在于百度云上已經擁有超級鏈的能力。對于春晚不為人知的力量,百度扛住了。5000萬次/秒,10億次/分的峰值流量,成就了百度新的勛章。這枚勛章中,百度云是重中之重。百度為什么在這次能夠做到‘絲滑體驗’?核心點就在于背后的百度云給到百度全力的支持。百度云副總經理張志琦在2019中國IT市場年會上表示。他坦言兩三年前,百度還...

    wow_worktile 評論0 收藏0

發表評論

0條評論

最新活動
閱讀需要支付1元查看
<