摘要:節(jié)目中,鹿班將接受設(shè)計(jì)領(lǐng)域的兩輪檢驗(yàn),如果鹿班的作品被現(xiàn)場觀眾成功找出,則認(rèn)為鹿班通過檢驗(yàn)。
近期,央視《機(jī)智過人》的舞臺(tái)上來了位“三超設(shè)計(jì)師”——設(shè)計(jì)能力超強(qiáng);出圖能力超快;抗壓能力超強(qiáng),成功迷惑嘉賓和現(xiàn)場觀眾,更讓撒貝寧出錯(cuò)三連。
節(jié)目一開場,這位“設(shè)計(jì)師”就為現(xiàn)場嘉賓:主持人撒貝寧、演員韓雪、神經(jīng)科學(xué)家魯白生成了三張獨(dú)具特色的海報(bào)。幾乎是說話的瞬間,海報(bào)立即生成,出圖速度之快讓撒貝寧驚呼“秒完”。
這位設(shè)計(jì)師正是阿里巴巴研制的AI設(shè)計(jì)師——鹿班。鹿班是為解放人類平面設(shè)計(jì)師而生,它學(xué)習(xí)了五百萬張人類設(shè)計(jì)作品,現(xiàn)在它每秒能做八千次設(shè)計(jì)。自從2016年上線至今,鹿班已經(jīng)完成了十億次海報(bào)制作,是全球首位大規(guī)模投入使用的人工智能平面設(shè)計(jì)師。
節(jié)目中,鹿班將接受設(shè)計(jì)領(lǐng)域的兩輪檢驗(yàn),如果鹿班的作品被現(xiàn)場觀眾成功找出,則認(rèn)為鹿班通過檢驗(yàn)。究竟AI能否在設(shè)計(jì)領(lǐng)域達(dá)到人類水平?接下來,我們一起走進(jìn)檢驗(yàn)場。
第一輪挑戰(zhàn)中,鹿班與一次成稿率在80%以上的設(shè)計(jì)師、從業(yè)十二年的資深設(shè)計(jì)師等三位同臺(tái)競技,各自設(shè)計(jì)一張以“汽車卓越加速性能”為主題的商業(yè)海報(bào)。下圖即四位設(shè)計(jì)師的設(shè)計(jì)成圖,大家不妨來猜一猜哪幅是鹿班的作品。
根據(jù)現(xiàn)場觀眾投票,多數(shù)觀眾認(rèn)為4號(hào)作品出自鹿班之手。讓觀眾出乎意料的是2號(hào)才是鹿班的創(chuàng)作,這個(gè)結(jié)果讓神經(jīng)學(xué)家魯白大呼“不服氣”。
不信?眼見為實(shí)!
接下來,戰(zhàn)況升級(jí)。中央美術(shù)學(xué)院院長范迪安教授帶來畫家與服裝設(shè)計(jì)師來和鹿班同臺(tái)創(chuàng)作,為《孫子兵法》這本書設(shè)計(jì)封面。
面對(duì)設(shè)計(jì)難度升級(jí),鹿班能否成功應(yīng)對(duì)?我們馬上揭曉鹿班和兩位人類設(shè)計(jì)師為《孫子兵法》設(shè)計(jì)的封面的作品:
以上圖片中有三幅作品,其中哪一張是鹿班的設(shè)計(jì)?到底觀眾們有沒有猜對(duì)?不急,我們先請(qǐng)阿里巴巴資深技術(shù)專家星瞳為我們揭秘鹿班背后的技術(shù)。
使用場景
視覺生成引擎的使用場景大致可抽象成下圖。以顯式輸入而言,用戶可以輸入標(biāo)簽需要的風(fēng)格、色彩、構(gòu)圖等,或者輸入一個(gè)例子,或者進(jìn)行一些交互的輸入。除顯式輸入之外還可以有隱式輸入,比如人群信息、場景信息、上下文信息等。總的來說,輸入可以是千變?nèi)f化的,但通過規(guī)范化之后就會(huì)減少變化,使得生成過程可控,輸出質(zhì)量可控。
對(duì)視覺生成引擎來說,它要求輸入是規(guī)范化的。但在輸入前,可以加入各種交互方式,如自然語言處理,語音識(shí)別等,將其轉(zhuǎn)化成規(guī)范化輸入。最后輸出結(jié)構(gòu)化信息或可視成圖。
技術(shù)框架和生產(chǎn)流程
其技術(shù)框架如下圖左側(cè)。首先對(duì)視覺內(nèi)容進(jìn)行結(jié)構(gòu)化理解,如分類、量化、特征化。其次通過一系列學(xué)習(xí)、決策變成滿足用戶需求的結(jié)構(gòu)化信息即數(shù)據(jù),最后將數(shù)據(jù)轉(zhuǎn)化成可視的圖像或視頻。這一框架依賴于大量的現(xiàn)有數(shù)據(jù)。其核心是一個(gè)設(shè)計(jì)內(nèi)核。同時(shí),引入效用循環(huán),利用使用后的反饋來不斷迭代和改進(jìn)系統(tǒng)。
其生產(chǎn)流程分成六個(gè)步驟,如下圖右側(cè)所示。首先用戶提出需求,將需求特征化轉(zhuǎn)變成系統(tǒng)可以理解的結(jié)構(gòu)化信息。其次將信息進(jìn)行規(guī)劃得到草圖。有了粗略的草圖后再將其轉(zhuǎn)變成相對(duì)更精確的圖,然后調(diào)整細(xì)節(jié),最后通過數(shù)據(jù)可視化形成最終的圖。當(dāng)然其中還有很多的trick,以及各部分的優(yōu)化。
關(guān)鍵算法
下面介紹一些關(guān)鍵算法。我們希望基于下圖最左的耐克鞋生成最右的圖。先通過規(guī)劃器得到草圖,再通過強(qiáng)化學(xué)習(xí)獲得相對(duì)細(xì)致的結(jié)果,再通過對(duì)抗學(xué)習(xí)及渲染算法得到圖片,再通過評(píng)估器進(jìn)行評(píng)估,最后形成業(yè)務(wù)閉環(huán),其中還會(huì)有一些基礎(chǔ)的能力,包含更強(qiáng)的聯(lián)合特征(非普通 CNN特征)及多維度檢索算法等。
基本上,處理的第一步是將圖片中的信息結(jié)構(gòu)化,這也是與現(xiàn)有的識(shí)別理解技術(shù)結(jié)合最緊密的地方。其中的難點(diǎn)和重點(diǎn)包括,對(duì)圖像中多目標(biāo)的識(shí)別、遮擋和互包含情況如何得到分割的信息等,下圖只是個(gè)簡單的示例。
有了結(jié)構(gòu)化信息之后,需要對(duì)信息進(jìn)行量化。可以量化成特征或量化圖。量化過程中會(huì)包含很多信息,比如主題風(fēng)格、布局配色、元素種類、量化空間等。有了這些信息后可以在主題、種類、風(fēng)格、視覺特征大小位置上,量化成各種碼,用相對(duì)有限的特征來表達(dá)無限的圖。
下一步是通過用戶的輸入,得到一個(gè)相對(duì)粗略的結(jié)果即草圖。目前主要使用的是深度序列學(xué)習(xí)。從圖像角度,首先選定一個(gè)點(diǎn)的像素顏色再選擇位置,再迭代進(jìn)行操作,最后形成一張圖。規(guī)劃器模擬的就是這個(gè)過程。本質(zhì)上預(yù)測過程是一棵樹,當(dāng)然也可以拆成一條條路徑。為了簡化,可以分成幾步進(jìn)行,比如空間序列,視覺序列。最后形成量化特征模型,主要應(yīng)用的是LSTM模型。它把設(shè)計(jì)的過程轉(zhuǎn)化成基于遞歸、循環(huán)的過程。
得到草圖后,利用行動(dòng)器將草圖細(xì)化。如果將圖中的每個(gè)元素看作一個(gè)Agent,那么它將有若干個(gè)可選的行動(dòng)空間。
假設(shè)一張圖中有20個(gè)元素,每個(gè)元素在視覺上有多種可選的行動(dòng)空間,由其組合成的可選行動(dòng)空間非常龐大。我們有很多trick可以解決這一問題,比如在空間上,只允許在有限范圍內(nèi)進(jìn)行變動(dòng),且行動(dòng)方向有序,即狀態(tài)有序,行動(dòng)有限。
下一步是如何衡量結(jié)果的好壞。圖像的評(píng)估相對(duì)比較主觀,主要可以從美學(xué)和效果兩方面來評(píng)估。美學(xué)角度可以包括是否對(duì)齊、色系搭配是否合理、有無遮擋這些較低級(jí)別的判斷標(biāo)準(zhǔn),以及較高級(jí)的,比如風(fēng)格是否一致,是否切合主題。從效果上,產(chǎn)品投放后是否會(huì)在點(diǎn)擊率等方面實(shí)現(xiàn)提升。最后將多個(gè)指標(biāo)形成對(duì)應(yīng)權(quán)重并形成多個(gè)DeepLR聯(lián)合模型。
但在衡量結(jié)果之前,需要形成像素級(jí)別可見的圖。這里有以下幾種構(gòu)造器分類,包括臨摹、遷移、創(chuàng)造、搭配與生成。
前面介紹了,如何通過用戶的需求形成可見的圖。后續(xù)還需要進(jìn)行投放和反饋并進(jìn)行優(yōu)化,形成效用外循環(huán)。這樣才能使得系統(tǒng)效用不斷得到提升,形成一個(gè)在線閉環(huán),這也是智能設(shè)計(jì)相對(duì)設(shè)計(jì)師的一大優(yōu)勢。
從技術(shù)角度來說,鹿班可以滿足海量無選擇客戶的需求。相信在未來,可以做到“所想,即所見”。節(jié)目的最后,撒貝寧、韓雪、魯白紛紛為鹿班站臺(tái),鹿班也因此成功入選 “2018智能先鋒”。
本文作者:厲害了!
閱讀原文
本文來自云棲社區(qū)合作伙伴“阿里技術(shù)”,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.specialneedsforspecialkids.com/yun/19858.html
摘要:阿里巴巴集團(tuán)安全部今年在直播管控中的特色在于大量采用人工智能和深度學(xué)習(xí)等技術(shù),配合優(yōu)化后的高性能多媒體計(jì)算集群,大幅度降低人工審核成本的同時(shí),提升了對(duì)內(nèi)容風(fēng)險(xiǎn)的防控能力。 阿里巴巴直播內(nèi)容風(fēng)險(xiǎn)防控中的AI力量 直播作為近來新興的互動(dòng)形態(tài)和今年阿里巴巴雙十一的一大亮點(diǎn),其內(nèi)容風(fēng)險(xiǎn)監(jiān)控是一個(gè)全新的課題,技術(shù)的挑戰(zhàn)非常大,管控難點(diǎn)主要包括業(yè)界缺乏成熟方案和標(biāo)準(zhǔn)、主播行為、直播內(nèi)容不可控、峰值...
摘要:練習(xí)項(xiàng)目備選清單文件下載器功能概要設(shè)計(jì)實(shí)現(xiàn)新建下載功能以為基礎(chǔ)給出下載鏈接可以啟動(dòng)下載任務(wù)實(shí)現(xiàn)局域網(wǎng)內(nèi)下載傳輸文件以單線程下載方式實(shí)現(xiàn)附加功能支持?jǐn)帱c(diǎn)續(xù)傳實(shí)現(xiàn)多線程下載實(shí)現(xiàn)下載參考技術(shù)套接字編程多線程編程音視頻播放器功能概要設(shè)計(jì)實(shí)現(xiàn)播放常見 練習(xí)項(xiàng)目備選清單 Utilities 1. 文件下載器 功能概要設(shè)計(jì): 實(shí)現(xiàn)新建下載功能(以ftp為基礎(chǔ)) 給出下載鏈接可以啟動(dòng)下載任務(wù) 實(shí)現(xiàn)局...
摘要:練習(xí)項(xiàng)目備選清單文件下載器功能概要設(shè)計(jì)實(shí)現(xiàn)新建下載功能以為基礎(chǔ)給出下載鏈接可以啟動(dòng)下載任務(wù)實(shí)現(xiàn)局域網(wǎng)內(nèi)下載傳輸文件以單線程下載方式實(shí)現(xiàn)附加功能支持?jǐn)帱c(diǎn)續(xù)傳實(shí)現(xiàn)多線程下載實(shí)現(xiàn)下載參考技術(shù)套接字編程多線程編程音視頻播放器功能概要設(shè)計(jì)實(shí)現(xiàn)播放常見 練習(xí)項(xiàng)目備選清單 Utilities 1. 文件下載器 功能概要設(shè)計(jì): 實(shí)現(xiàn)新建下載功能(以ftp為基礎(chǔ)) 給出下載鏈接可以啟動(dòng)下載任務(wù) 實(shí)現(xiàn)局...
摘要:錢可以存儲(chǔ)在自己的余額中,這就相當(dāng)于微信錢包,余額可以提現(xiàn)到銀行卡的中。我們的第三方支付平臺(tái)是連連支付,杭州的一家公司。私鑰怎么加簽每個(gè)公司的加簽方式是不一樣的,支付寶有支付寶的加簽方式,微信有微信的加簽方式。 導(dǎo)讀 筆者在校期間,通過自學(xué)java。學(xué)校里也開過這門課,但是,講的都是一些基礎(chǔ),比如java的表達(dá)式、基本類型、自定義類型等等。也都是很基礎(chǔ)的東西,就連lambda表達(dá)式都沒...
閱讀 2910·2021-11-23 09:51
閱讀 1556·2021-11-15 11:36
閱讀 3015·2021-10-13 09:40
閱讀 1902·2021-09-28 09:35
閱讀 13083·2021-09-22 15:00
閱讀 1376·2019-08-29 13:56
閱讀 2930·2019-08-29 13:04
閱讀 2702·2019-08-28 18:06