知物由學(xué) | AI在Facebook清理有害內(nèi)容上扮演了什么角色？

morgan 發(fā)布于2019-06-28 11:14 / 3279人閱讀

摘要：安全部隊(duì)迅速采取報(bào)復(fù)行動(dòng)，焚燒村莊并進(jìn)行了持續(xù)數(shù)周的大規(guī)模屠殺。其中包括俄羅斯的選舉干預(yù)就業(yè)歧視，以及緬甸種族滅絕的幫兇。應(yīng)用機(jī)器學(xué)習(xí)小組的工程師對(duì)此表示贊同。

“知物由學(xué)”是網(wǎng)易云易盾打造的一個(gè)品牌欄目，詞語出自漢·王充《論衡·實(shí)知》。人，能力有高下之分，學(xué)習(xí)才知道事物的道理，而后才有智慧，不去求問就不會(huì)知道。“知物由學(xué)”希望通過一篇篇技術(shù)干貨、趨勢(shì)解讀、人物思考和沉淀給你帶來收獲的同時(shí)，也希望打開你的眼界，成就不一樣的你。當(dāng)然，如果你有不錯(cuò)的認(rèn)知或分享，也歡迎通過郵件投稿：zhangyong02@corp.netease.com

導(dǎo)讀：Facebook在過去一年面臨了一系列令人眼花繚亂的指控和丑聞。Facebook CEO Mark Zuckerberg表示人工智能將幫助解決該公司平臺(tái)上存在的問題，那么依靠人工智能真的能“治好”Facebook上的內(nèi)容問題嗎？

本文作者：Tom Simonitez；譯者：陸小鳳

2017年8月25日凌晨，緬甸羅興亞穆斯林少數(shù)民族一個(gè)衣衫襤褸的叛亂組織襲擊了該國西北部的軍事哨所，造成12人死亡。安全部隊(duì)迅速采取報(bào)復(fù)行動(dòng)，焚燒村莊并進(jìn)行了持續(xù)數(shù)周的大規(guī)模屠殺。隨著羅興亞有數(shù)千人死亡，緬甸軍方領(lǐng)導(dǎo)人開始在Facebook上發(fā)帖。

這位總司令在一篇帖子中承諾要解決“孟加拉問題”，而這是對(duì)緬甸羅興亞人的蔑稱。另一位將軍寫了贊揚(yáng)的話“為恢復(fù)地區(qū)和平所作的杰出努力”，并指出“種族不能被土地吞沒，只能被另一個(gè)種族吞沒。”同時(shí)聯(lián)合國一份有關(guān)暴力事件的調(diào)查報(bào)告后來指出，總司令的帖子暗示了種族滅絕，并指出Facebook上的帖子在緬甸激起了對(duì)羅興亞人的仇恨。代表團(tuán)的主席告訴記者，該網(wǎng)站在這次危機(jī)中發(fā)揮了“決定性作用”。今年4月在美國國會(huì)，參議員Jeff Flake問Facebook首席執(zhí)行官M(fèi)ark Zuckerberg，他的公司如何才能避免扮演這一角色。這位33歲態(tài)度冷淡的億萬富翁指出，他雇傭了更多會(huì)說緬甸語的人。然后他闡述了他最喜歡的話題——人工智能。他表示:“從長期來看，構(gòu)建人工智能工具將是一種可擴(kuò)展的方式，能夠識(shí)別并根除大部分此類有害內(nèi)容。”在兩天的國會(huì)聽證會(huì)上，扎克伯格30多次提到人工智能。他對(duì)議員們說，人工智能將打擊虛假新聞，防止具有種族或性別歧視的廣告，并阻礙恐怖主義宣傳。過去一年里，F(xiàn)acebook面臨了一系列令人眼花繚亂的指控和丑聞。其中包括俄羅斯的選舉干預(yù)、就業(yè)歧視，以及緬甸種族滅絕的“幫兇”。周一，參議院的一份報(bào)告稱，俄羅斯在Facebook上的活動(dòng)遠(yuǎn)遠(yuǎn)超過此前所知，并暗示該公司淡化了有關(guān)俄羅斯黑客利用其產(chǎn)品在2016年總統(tǒng)大選期間壓低投票率的誤導(dǎo)國會(huì)的說法。

Facebook的許多道歉表達(dá)了一個(gè)共同的主題：人工智能將幫助解決該公司平臺(tái)上存在的問題。該公司首席技術(shù)官M(fèi)ike Schroepfer表示，這項(xiàng)技術(shù)是防止壞人利用該產(chǎn)品的唯一途徑。因?yàn)閾碛?3億的常規(guī)用戶，讓所有的東西都由人工來審核將是一件恐怖而且代價(jià)很大的事情。Schroepfer說：“在我看來，人工智能是實(shí)現(xiàn)這一想法的最佳工具——我實(shí)際上不知道還有什么別的選擇。”

依靠人工智能是一場(chǎng)賭博。事實(shí)證明，算法能夠幫助監(jiān)管Facebook，但它們遠(yuǎn)不是包治百病的靈丹妙藥，或許永遠(yuǎn)也不是。該公司在檢測(cè)和屏蔽色情和裸體方面取得了巨大成功，但是訓(xùn)練軟件對(duì)文本進(jìn)行可靠的解碼比對(duì)圖像進(jìn)行分類要困難得多。為了在其龐大的平臺(tái)上壓制騷擾、仇恨言論和危險(xiǎn)的陰謀論，F(xiàn)acebook需要能夠理解100多種不同語言的細(xì)微差別的人工智能系統(tǒng)。任何不足之處都必須由Facebook約1.5萬名人工評(píng)審員來審核，但就該社交網(wǎng)絡(luò)的規(guī)模而言，尚不清楚他們的工作量將如何管理。正如緬甸發(fā)生的事件所顯示的那樣，對(duì)于那些正被Facebook塑造的世界的人來說， Menlo Park執(zhí)法網(wǎng)絡(luò)中看似微小的事情，對(duì)于那些正沉浸在Facebook塑造的世界的人來說，可能會(huì)感覺到極大的危險(xiǎn)。

肉體探測(cè)器

Facebook對(duì)內(nèi)容審核自動(dòng)化的努力是由一位廣告高管發(fā)起的，而不是網(wǎng)絡(luò)言論方面的專家。2014年，Tanton Gibbs被聘為工程總監(jiān)，從事廣告技術(shù)方面的工作，此前他曾在微軟和谷歌工作。在聽到Facebook的審核挑戰(zhàn)后，他建議采用一種更多算法優(yōu)先的方法。Facebook采用了微軟和達(dá)特茅斯學(xué)院開發(fā)的名為“PhotoDNA”的工具來屏蔽已知的兒童剝削圖片，但沒有在更廣泛的范圍內(nèi)部署圖像分析軟件或人工智能。Tanton Gibbs說:“他們嚴(yán)格利用人類來審核諸如色情、仇恨言論或暴力圖片之類的舉報(bào)。我認(rèn)為我們應(yīng)該實(shí)現(xiàn)自動(dòng)化。”于是Facebook任命Tanton Gibbs領(lǐng)導(dǎo)一個(gè)最初名為CareML的新團(tuán)隊(duì)，總部設(shè)在西雅圖。

這個(gè)新團(tuán)體很快證明了它的價(jià)值。Tanton Gibbs和他的工程師們采用了“深度學(xué)習(xí)”的技術(shù)，這是一種最近變得更加強(qiáng)大的用樣本數(shù)據(jù)來訓(xùn)練算法的方法，谷歌在開發(fā)能夠識(shí)別貓的軟件時(shí)展示了這項(xiàng)技術(shù)的強(qiáng)大。Tanton Gibbs的小組則是安靜的做著識(shí)別色情和裸體人類的深度學(xué)習(xí)算法。最初，該軟件只是對(duì)Facebook用戶舉報(bào)的圖片進(jìn)行審核。一年半之后，Tanton Gibbs得到了允許，允許他的系統(tǒng)在任何人舉報(bào)之前去審核新提交的內(nèi)容。Facebook表示，96%的成人和裸照現(xiàn)在都是在任何人舉報(bào)之前就被自動(dòng)檢測(cè)和刪除的。

96％的數(shù)字看似很成功，但仍然有很多裸體圖片和視頻通過了Facebook的算法。2018年第三季度，他們刪除了3080萬張裸體或性行為的圖片和視頻：這意味著算法沒有捕捉到130萬張這樣的圖像。事實(shí)上，據(jù)Facebook估計(jì)，截止今年9月的12個(gè)月里，瀏覽裸體或色情內(nèi)容的比例幾乎翻了一番，達(dá)到每10000次瀏覽中約9次。Facebook在其最新的社區(qū)標(biāo)準(zhǔn)執(zhí)行報(bào)告中表示:“Facebook上出現(xiàn)了更多的裸照，我們的系統(tǒng)未能及時(shí)捕捉到所有裸照去阻止瀏覽量的增長。”有很多信息被發(fā)現(xiàn)時(shí)可以看到的，但沒有被發(fā)現(xiàn)或舉報(bào)的信息量的大小是不可知的。

盡管如此，Tanton Gibbs在打擊色情方面的成功，已經(jīng)成為Facebook高管們最喜歡談?wù)摰脑掝}——人工智能在這方面很有潛力。這是一個(gè)有效的證據(jù)，證明了算法防御系統(tǒng)可以幫助Facebook用戶免受有害內(nèi)容的侵害，公司也可以免受托管內(nèi)容的影響。Facebook表示，在最近三個(gè)月從該平臺(tái)刪除的仇恨言論中，略多于一半首先被算法標(biāo)記出來，是今年早些時(shí)候比例的兩倍多。大約15%因欺凌行為而被刪除的帖子在沒有人舉報(bào)之前就被標(biāo)記并刪除了。不過，在另外的情況下算法不會(huì)直接刪除帖子，它會(huì)標(biāo)記出，由人工審核。

Facebook面臨的挑戰(zhàn)是如何讓它的技術(shù)發(fā)揮足夠好的作用，讓大約15,000名內(nèi)容審核人員可以在100多個(gè)國家/地區(qū)和服務(wù)使用的語言中輕松應(yīng)對(duì)這一問題。

然而，F(xiàn)acebook人工智能內(nèi)容審核技術(shù)在仇恨言論與欺凌上，無法達(dá)到像識(shí)別色情那樣有效。深度學(xué)習(xí)算法很擅長將圖像分類，如貓或汽車，色情或非色情。他們還使計(jì)算機(jī)在語言方面做得更好，使Alexa等虛擬助手成為可能，自動(dòng)翻譯的準(zhǔn)確性也有了顯著提高，但要像人類那樣理解相對(duì)簡單的文本還有很長的路要走。

解碼語言

為了弄清楚一篇寫著“我要打你”的帖子是威脅還是善意的玩笑，人工審核員可能會(huì)毫不費(fèi)力地把它與附近籃球場(chǎng)的圖像、或早期信息的措辭和語氣聯(lián)系起來。德克薩斯A＆M大學(xué)教授黃瑞紅表示:“目前一個(gè)模型如何能以這種方式利用上下文還不清楚。”今年秋天，在世界頂級(jí)語言處理研究會(huì)議上，她組織了一場(chǎng)學(xué)術(shù)研討會(huì)，主題是利用算法對(duì)抗網(wǎng)絡(luò)濫用。與2017年首次舉辦相比，出席人數(shù)和提交論文數(shù)量大約翻了一番，這并不是因?yàn)檠芯咳藛T嗅到了勝利的氣息。“許多公司和學(xué)術(shù)界人士都意識(shí)到這是一項(xiàng)重要的任務(wù)和問題，但到目前為止，進(jìn)展并不令人滿意，”黃瑞紅說。“簡而言之，目前的模型并不那么智能，這就是問題所在。”

Facebook應(yīng)用機(jī)器學(xué)習(xí)小組的工程師Srinivas Narayanan對(duì)此表示贊同。他為他的團(tuán)隊(duì)在掃描色情和仇恨言論的系統(tǒng)上所做的工作感到驕傲，但是人類水平的準(zhǔn)確性和細(xì)微差別仍然是一個(gè)遙遠(yuǎn)的目標(biāo)。他表示:“我認(rèn)為，我們?nèi)赃h(yuǎn)不能解決這一點(diǎn)。”“我認(rèn)為機(jī)器最終能做到，但我們不知道如何做到。”

Facebook擁有一個(gè)大型跨國人工智能實(shí)驗(yàn)室，致力于長期的基礎(chǔ)研究，或許有一天能幫助解開這個(gè)謎。現(xiàn)在也有記者、立法者、公民社會(huì)團(tuán)體，甚至聯(lián)合國，他們都期待能有所改善。Facebook的人工智能團(tuán)隊(duì)需要開發(fā)一些策略，以便在下一次丑聞爆發(fā)前取得有意義的進(jìn)展。

推動(dòng)實(shí)用新人工智能的產(chǎn)品包括今年發(fā)布的Rosetta系統(tǒng)，該系統(tǒng)可以讀取嵌入圖像和視頻中的文本，并對(duì)其做仇恨言論檢測(cè)（有證據(jù)表明，一些網(wǎng)絡(luò)巨魔已經(jīng)在測(cè)試欺騙它的方法）。另一個(gè)項(xiàng)目利用Instagram用戶的數(shù)十億個(gè)標(biāo)簽來改進(jìn)Facebook的圖像識(shí)別系統(tǒng)。該公司甚至利用Facebook上欺凌帖子的樣本來訓(xùn)練一種人工智能網(wǎng)絡(luò)欺凌，它生成文本生成器來推動(dòng)其審核算法變得更好。

這些項(xiàng)目面臨的一個(gè)重大挑戰(zhàn)是，當(dāng)今的機(jī)器學(xué)習(xí)算法必須經(jīng)過狹隘而具體的數(shù)據(jù)訓(xùn)練。今年夏天，F(xiàn)acebook改變了一些內(nèi)容審核員的工作方式，部分原因是為了產(chǎn)生更多仇恨言論有用訓(xùn)練數(shù)據(jù)。工作人員沒有利用他們對(duì)Facebook規(guī)則的理解來直接決定是否刪除一個(gè)標(biāo)記為仇恨言論的帖子，而是回答一系列較為狹隘的問題。比如那篇文章有誹謗嗎?它是否涉受保護(hù)的類別?這篇文章中是否有類別受到攻擊了?Aashin Gautam領(lǐng)導(dǎo)了一個(gè)開發(fā)內(nèi)容審核流程的團(tuán)隊(duì)，他說:“這種粒度標(biāo)記讓我們得到了非常令人興奮的原始訓(xùn)練數(shù)據(jù)來構(gòu)建分類器。”Facebook正在探索將這種新模式永久化，首先是針對(duì)仇恨言論，然后可能是針對(duì)其他類別的被禁內(nèi)容。

在其他地方，F(xiàn)acebook正試圖避免訓(xùn)練數(shù)據(jù)問題。負(fù)責(zé)全球運(yùn)營的副總裁Justin Osofsky表示，緬甸發(fā)生的悲慘事件給我們上了一課，那就是該公司需要更好地利用人工和軟件來理解不同市場(chǎng)的語言和文化。

對(duì)于Facebook來說，訓(xùn)練多種語言文本解碼算法的傳統(tǒng)方法極其昂貴。要發(fā)現(xiàn)英語中的生日祝福或仇恨言論，你需要千個(gè)樣本，最好是數(shù)百萬個(gè)樣本。每次你想要擴(kuò)展到一種新的語言，你都需要一組新的數(shù)據(jù)，這對(duì)Facebook這樣規(guī)模的公司來說是一個(gè)重大挑戰(zhàn)。

作為一種解決方案，F(xiàn)acebook正在調(diào)整為通用語言（如英語或西班牙語）構(gòu)建的系統(tǒng)，以適用于較不常用的語言（如羅馬尼亞語或馬來語）。一種方法涉及使用自動(dòng)翻譯。Facebook已經(jīng)能夠通過將帖子轉(zhuǎn)換成英語來抑制包括匈牙利語和希臘語中的clickbait（標(biāo)題黨），這樣就可以將它們送入受過內(nèi)容培訓(xùn)的clickbait探測(cè)器。它還可以通過翻譯英語為不太常用的語言提供新的培訓(xùn)集。另一個(gè)項(xiàng)目涉及創(chuàng)建基于語言間深層相似性的多語言系統(tǒng)，這意味著一旦用英語訓(xùn)練任務(wù)，他們也可以立即用意大利語做同樣的事情。Narayanan說:“這些多語言方法確實(shí)有助于我們加快將人工智能應(yīng)用于跨語言完整性問題的能力。”

該項(xiàng)目還有助于說明Facebook面臨挑戰(zhàn)的規(guī)模。到目前為止，該公司的多語言變通方法還不能適用于公司擁有相對(duì)較小數(shù)據(jù)集（如緬甸語）的語言。豪薩語（Hausa）也面臨著同樣的挑戰(zhàn)。豪薩語是西非一種用于反穆斯林仇恨言論的語言，當(dāng)?shù)鼐缴显赂嬖VBBC，這種語言已導(dǎo)致十幾起謀殺案。Facebook說，它正在擴(kuò)大與尼日利亞事實(shí)核查組織和非政府組織的關(guān)系，并利用機(jī)器學(xué)習(xí)來標(biāo)記仇恨言論和暴力圖片。

被邀請(qǐng)展望未來時(shí)，F(xiàn)acebook首席技術(shù)官M(fèi)ike Schroepfer承認(rèn)，防止此類事件的發(fā)生是不可能的。他說:“我經(jīng)常問自己的一個(gè)問題是，其他同樣復(fù)雜的工作有100%的安全記錄嗎?”他說：“我想不出一個(gè)。飛機(jī)，汽車，太空旅行，執(zhí)法。你知道有哪個(gè)城市的犯罪率是零嗎?”

盡管如此，他對(duì)Facebook的發(fā)展道路仍持足夠樂觀的態(tài)度，想象有一天，它的算法會(huì)非常有效，欺凌和仇恨言論幾乎消失了。

如果你是中小創(chuàng)業(yè)公司，在內(nèi)容安全上覺得投入成本過高，無運(yùn)營經(jīng)驗(yàn)，也擔(dān)心相關(guān)政策理解不到位，更擔(dān)心投入了那么多沒效果，那么你可以嘗試用下易盾的內(nèi)容安全業(yè)務(wù)。

點(diǎn)擊一鍵接入專業(yè)的易盾內(nèi)容安全解決方案。

文章來源：網(wǎng)易云社區(qū)

云服務(wù)器 GPU云服務(wù)器怎么在網(wǎng)站上更新內(nèi)容在服務(wù)器上動(dòng)了配置在云服務(wù)器上配置了ftp不能訪問國內(nèi)上facebook

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://m.specialneedsforspecialkids.com/yun/25426.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

morgan

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Zoom漏洞可使攻擊者攔截?cái)?shù)據(jù)攻擊客戶基礎(chǔ)設(shè)施

閱讀 2603·2021-11-18 10:02
LeetCode 刷題（九）算法入門--回溯

閱讀 2636·2021-11-15 11:38
【萬人千題】大學(xué)生算法社區(qū)火爆開啟，每日打卡學(xué)習(xí)，誠邀妳的加入

閱讀 3711·2021-11-12 10:36
小程序訪問idea后臺(tái)數(shù)據(jù)庫執(zhí)行查詢，登錄，注冊(cè)功能

閱讀 706·2021-11-12 10:34
oneprovider：AMD Ryzen EPYC服務(wù)器，新機(jī)房，月付€79.99起

閱讀 2896·2021-10-21 09:38
raksmart，洛杉磯cloud云服務(wù)器之CN2線路測(cè)評(píng)

閱讀 1491·2021-09-29 09:48
計(jì)算機(jī)秋招必備！杭州互聯(lián)網(wǎng)大廠企業(yè)整理清單！

閱讀 1504·2021-09-29 09:34
QT6安裝與使用

閱讀 1098·2021-09-22 10:02

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

知物由學(xué) | AI在Facebook清理有害內(nèi)容上扮演了什么角色？

相關(guān)文章

人工智能革命:一個(gè)在ANI上運(yùn)行的世界

一份關(guān)于人工智能、機(jī)器學(xué)習(xí)和大數(shù)據(jù)的報(bào)告

發(fā)表評(píng)論

0條評(píng)論

morgan

男|高級(jí)講師

TA的文章

Zoom漏洞可使攻擊者攔截?cái)?shù)據(jù)攻擊客戶基礎(chǔ)設(shè)施

LeetCode 刷題（九）算法入門--回溯

【萬人千題】大學(xué)生算法社區(qū)火爆開啟，每日打卡學(xué)習(xí)，誠邀妳的加入

小程序訪問idea后臺(tái)數(shù)據(jù)庫執(zhí)行查詢，登錄，注冊(cè)功能

oneprovider：AMD Ryzen EPYC服務(wù)器，新機(jī)房，月付€79.99起

raksmart，洛杉磯cloud云服務(wù)器之CN2線路測(cè)評(píng)

計(jì)算機(jī)秋招必備！杭州互聯(lián)網(wǎng)大廠企業(yè)整理清單！

QT6安裝與使用

最新活動(dòng)