提到眾包,想必大多數(shù)人都不陌生,“一個(gè)公司或機(jī)構(gòu)把過(guò)去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法。眾包的任務(wù)通常由個(gè)人來(lái)承擔(dān),但如果涉及到需要多人協(xié)作完成的任務(wù),也有可能以依靠開(kāi)源的個(gè)體生產(chǎn)的形式出現(xiàn)。”這一概念由美國(guó)《連線(xiàn)》雜志的記者杰夫·豪(Jeff Howe)在 2006 年 6 月提出,眾包模式的出現(xiàn)極大的提升了企業(yè)工作效率而且大幅降低成本。
人工智能時(shí)代即將來(lái)臨,作為實(shí)現(xiàn)人工智能的重要方法,機(jī)器學(xué)習(xí)開(kāi)始受到廣泛關(guān)注。訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)需要大量的帶標(biāo)簽數(shù)據(jù),實(shí)現(xiàn)諸如語(yǔ)音識(shí)別及圖片分類(lèi)等功能,比如將帶有花朵的圖片與“花朵”這個(gè)詞語(yǔ)捆綁起來(lái)。傳統(tǒng)基于專(zhuān)家的數(shù)據(jù)標(biāo)注緩慢而昂貴,基于此,機(jī)器學(xué)習(xí)開(kāi)始與眾包模式相融合,后者成為了當(dāng)今獲取標(biāo)注數(shù)據(jù)的基本手段。
盡管聽(tīng)起來(lái)非常簡(jiǎn)單,但如何利用眾包打造機(jī)器學(xué)習(xí)的高品質(zhì)數(shù)據(jù)庫(kù)遠(yuǎn)不是一件簡(jiǎn)單的事情。眾包背后涉及哪些技術(shù)?怎樣保證數(shù)據(jù)精準(zhǔn)?帶著這些問(wèn)題,我們采訪了美國(guó)微軟雷德蒙研究院首席研究員周登勇博士,就眾包與機(jī)器學(xué)習(xí)融合中的一些問(wèn)題進(jìn)行了請(qǐng)教。
周登勇(Dengyong Zhou),美國(guó)微軟雷德蒙研究院首席研究員。在加入微軟研究院之前,周登勇博士曾任職于德國(guó)馬普研究所智能系統(tǒng)分所(Max Planck Institute for Intelligent Systems),以及 NEC 美國(guó)研究院普林斯頓分部的機(jī)器學(xué)習(xí)部。他在中國(guó)科學(xué)院自動(dòng)化所獲得人工智能專(zhuān)業(yè)博士學(xué)位,并同時(shí)獲得中國(guó)科學(xué)院院長(zhǎng)獎(jiǎng)學(xué)金。周登勇博士在微軟工作期間曾獲研究院金星獎(jiǎng),以及擔(dān)任 NIPS 與其他若干國(guó)際會(huì)議的領(lǐng)域主席。
以下為采訪實(shí)錄:
CSDN:首先請(qǐng)與我們的讀者分享一下您與團(tuán)隊(duì)目前正在專(zhuān)注的研究領(lǐng)域,以及取得了怎樣的進(jìn)展?
周登勇:在微軟雷德蒙研究院, 我與我的團(tuán)隊(duì)一直專(zhuān)注在如何提高眾包數(shù)據(jù)的質(zhì)量這個(gè)基本問(wèn)題上。具體來(lái)說(shuō),我們主要集中在兩個(gè)方面:一是如何從非專(zhuān)家標(biāo)注的數(shù)據(jù)中提煉出高質(zhì)量的標(biāo)注,二是如何激勵(lì)數(shù)據(jù)標(biāo)注員工提供高質(zhì)量的工作。針對(duì)這兩方面問(wèn)題我們進(jìn)行了算法和理論基礎(chǔ)的研究,一些技術(shù)發(fā)明已經(jīng)應(yīng)用在產(chǎn)品中。
CSDN:我們知道,眾包是獲取大量的帶標(biāo)簽數(shù)據(jù),供機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練的一種方式,那么是什么促成了眾包模式的出現(xiàn),采用眾包模式相比傳統(tǒng)的數(shù)據(jù)收集方式具有什么優(yōu)勢(shì)?
周登勇:在建立基于機(jī)器學(xué)習(xí)的智能系統(tǒng)時(shí),只要有大量的訓(xùn)練數(shù)據(jù),一個(gè)樸素的機(jī)器學(xué)習(xí)模型往往可以完勝一個(gè)只是基于很少量數(shù)據(jù)訓(xùn)練出來(lái)的精心設(shè)計(jì)的高級(jí)模型。當(dāng)你需要短時(shí)間內(nèi)提高一個(gè)機(jī)器學(xué)習(xí)應(yīng)用的性能時(shí),大幅度增加訓(xùn)練數(shù)據(jù)應(yīng)該是優(yōu)先考慮的策略,而獲得大量標(biāo)注數(shù)據(jù)可以通過(guò)眾包達(dá)到。
一個(gè)商業(yè)化的互聯(lián)網(wǎng)眾包平臺(tái)可能有上百萬(wàn)分布在世界各地的數(shù)據(jù)標(biāo)注員。他們能以低廉的價(jià)格在幾天甚至幾小時(shí)之內(nèi)就產(chǎn)生大量的標(biāo)注數(shù)據(jù)。相比之下,傳統(tǒng)的基于專(zhuān)家的數(shù)據(jù)標(biāo)注緩慢而又昂貴。
CSDN:通常認(rèn)為,眾包的工作流程是任務(wù)準(zhǔn)備、任務(wù)執(zhí)行、任務(wù)答案整合。在此基礎(chǔ)上,微軟雷德蒙研究院有哪些創(chuàng)新?效果如何?
周登勇:微軟雷德蒙研究院的多個(gè)小組在眾包不同方面的問(wèn)題上展開(kāi)了深入而又持久的研究。我們的研究工作往往與產(chǎn)品部門(mén)緊密配合。隨著數(shù)據(jù)的類(lèi)型以及數(shù)據(jù)收集流程的不同,眾包的問(wèn)題會(huì)很不一樣。我與我的團(tuán)隊(duì)提出了一個(gè)叫極小極大熵原理的簡(jiǎn)潔的統(tǒng)計(jì)推斷模型用于眾包任務(wù)答案整合。該原理可以適用于很多類(lèi)型的數(shù)據(jù),包括多類(lèi)別的數(shù)據(jù),分級(jí)數(shù)據(jù),以及結(jié)構(gòu)化的數(shù)據(jù),也可以很容易融合先驗(yàn)知識(shí)。在任務(wù)執(zhí)行上,我們從博弈論出發(fā)提出了一種叫翻倍或者歸零的付錢(qián)機(jī)制,數(shù)據(jù)標(biāo)注員可以選擇不回答他沒(méi)有把握的問(wèn)題。采用這種付錢(qián)方式,我們觀察到數(shù)據(jù)標(biāo)注的錯(cuò)誤率大幅度降低。而且,理論上我們還證明了這也是經(jīng)濟(jì)上最節(jié)省的付錢(qián)方式。
CSDN:在眾包中,任務(wù)花費(fèi)、質(zhì)量和時(shí)間是重要的三個(gè)指標(biāo),但往往無(wú)法兼得。該如何平衡這三者的關(guān)系?
周登勇:這三個(gè)問(wèn)題的平衡與具體的眾包任務(wù)密切相關(guān)。一般來(lái)說(shuō),質(zhì)量是更重要的指標(biāo),如果沒(méi)有質(zhì)量,再低的花費(fèi)與再少的時(shí)間都是沒(méi)有意義的。我與我的團(tuán)隊(duì)考慮過(guò)任務(wù)花費(fèi)與質(zhì)量的平衡。我們的目標(biāo)是在一個(gè)給定的預(yù)算下獲得最高質(zhì)量的數(shù)據(jù)。大致說(shuō)來(lái),我們考慮一種在線(xiàn)的眾包模式。在每一步,我們需要做出兩個(gè)決定:一是哪個(gè)數(shù)據(jù)需要標(biāo)注,二是讓誰(shuí)來(lái)標(biāo)注。我們?yōu)檫@個(gè)問(wèn)題設(shè)計(jì)了一個(gè)基于馬爾科夫決策理論的數(shù)學(xué)模型,并提出了一個(gè)稱(chēng)之為知識(shí)梯度的有效算法。
CSDN:通過(guò)眾包會(huì)獲取大量的數(shù)據(jù),這些數(shù)據(jù)在應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)之前,可以通過(guò)哪些技術(shù)和操作,改善數(shù)據(jù)的質(zhì)量?存在哪些誤區(qū)?
周登勇:這些數(shù)據(jù)在應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)之前,我們要做數(shù)據(jù)整合,前面提到的極小極大熵原理的統(tǒng)計(jì)推斷模型就是服務(wù)于此。有些人或許喜歡考慮將數(shù)據(jù)整合與機(jī)器學(xué)習(xí)的訓(xùn)練算法捆綁到一個(gè)單一的模型中,技術(shù)上很容易做到,但這個(gè)或許不是好的主意。我傾向把數(shù)據(jù)整合與模型訓(xùn)練分開(kāi),這有兩方面原因,迄今為止,我還沒(méi)有觀察到這種捆綁模型有哪些有意義的性能提升。更重要的是,在實(shí)際應(yīng)用中,當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)出了問(wèn)題,我們通常需要精確知道到底是哪個(gè)環(huán)節(jié)出了問(wèn)題。捆綁模型模糊了整合與訓(xùn)練這兩個(gè)環(huán)節(jié)的界限。
CSDN:眾包中的統(tǒng)計(jì)推斷背后涉及哪些關(guān)鍵技術(shù)?哪些對(duì)質(zhì)量的影響最大?
周登勇:眾包中的統(tǒng)計(jì)推斷技術(shù)已經(jīng)比較成熟,特別是針對(duì)多類(lèi)別的數(shù)據(jù)。我們的極小極大熵原理的統(tǒng)計(jì)推斷模型能用到很多不同的數(shù)據(jù)類(lèi)型上,對(duì)不同的數(shù)據(jù)類(lèi)型當(dāng)然需要做一些適當(dāng)?shù)恼{(diào)整。但是,眾包遠(yuǎn)不只是一個(gè)靜態(tài)的數(shù)據(jù)處理問(wèn)題,為改善眾包數(shù)據(jù)質(zhì)量,我們還需要考慮其他的環(huán)節(jié)。比如說(shuō),在眾包工人執(zhí)行標(biāo)注任務(wù)之前,執(zhí)行資格考試,只有達(dá)到了一定的正確率,才有資格標(biāo)注數(shù)據(jù)。否則,需要一定的職能訓(xùn)練直到達(dá)標(biāo)。這樣的一個(gè)環(huán)節(jié)通常會(huì)帶來(lái)顯著的數(shù)據(jù)質(zhì)量改善。另外,我前面提到,付錢(qián)方式也會(huì)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生很大的影響,有效的付錢(qián)方式會(huì)讓眾包工人愿意付出足夠的努力把工作完成好。
CSDN:目前眾包平臺(tái)的激勵(lì)機(jī)制有哪些缺陷,AI 新技術(shù)能帶來(lái)哪些不同?未來(lái)的困難會(huì)在何處(例如是否有可能作弊)?請(qǐng)舉例說(shuō)明。這些研究,除了“眾包”還有可能應(yīng)用在哪些領(lǐng)域?
周登勇:目前眾包平臺(tái)的激勵(lì)機(jī)制一般都是一些經(jīng)驗(yàn)方法。比如說(shuō),隨機(jī)抽查一些結(jié)果,如果回答質(zhì)量過(guò)得去的話(huà),就付全款;否則,就不給錢(qián)。我們是把激勵(lì)機(jī)制奠定在堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)之上,并發(fā)展了實(shí)際上簡(jiǎn)單而又有效的付費(fèi)機(jī)制。目前,這方面還有諸多問(wèn)題需要更仔細(xì)的考慮。比如說(shuō),抽查結(jié)果的工作量可能太大,我們需要設(shè)法減少對(duì)抽查的依賴(lài),而一旦減少抽查會(huì)讓作弊更容易。還有,一些比較困難的標(biāo)注問(wèn)題,比如說(shuō)自然語(yǔ)言處理的標(biāo)注,需要提供有吸引力的市場(chǎng)價(jià)格吸引足夠多的眾包工人去標(biāo)注。這些問(wèn)題目前還只是有一些粗淺的經(jīng)驗(yàn)方法,還有很長(zhǎng)的路要走。對(duì)眾包中激勵(lì)機(jī)制的研究工作可以不只是用在眾包中,可以放在更大的范圍之內(nèi)考慮,特別是在人機(jī)結(jié)合的智能系統(tǒng)中我們也需要考慮如何合理激勵(lì)每位參與人員。
CSDN:擁有怎樣特征的公司應(yīng)該構(gòu)建自己或者使用第三方眾包平臺(tái),應(yīng)該考量哪些要素? 可否簡(jiǎn)單舉例說(shuō)明?
周登勇:大數(shù)據(jù)驅(qū)動(dòng)占據(jù)核心位置的公司都需要考慮使用眾包平臺(tái)。如果數(shù)據(jù)的私密性很重要,需要構(gòu)建自己的眾包平臺(tái)。否則,可以直接使用第三方平臺(tái)。平臺(tái)的易用性是一個(gè)重要考慮因素。 不管是眾包工人還是標(biāo)注任務(wù)提供者都會(huì)喜歡容易使用的平臺(tái)。平臺(tái)的靈活性也很重要,特別是任務(wù)分發(fā)以及付錢(qián)機(jī)制上需要有足夠的靈活性。還有,平臺(tái)需要提供一些基本的質(zhì)量控制功能包括檢測(cè)作弊。
CSDN:您將在今年的 CCAI 大會(huì)上發(fā)表《眾包中的統(tǒng)計(jì)推斷與激勵(lì)機(jī)制》主題演講,希望此次演講能夠?yàn)槁?tīng)眾帶來(lái)怎樣的啟發(fā),以幫助他們解決當(dāng)前在人工智能領(lǐng)域哪些共性問(wèn)題?
周登勇:通過(guò)做這個(gè)眾包工作的報(bào)告,我希望大家看到人機(jī)結(jié)合的智能系統(tǒng)的潛力。在可以預(yù)見(jiàn)的將來(lái),機(jī)器智能完全代替人的智能幾乎沒(méi)有任何可能。我們應(yīng)該是讓人與機(jī)器各施所長(zhǎng)互相補(bǔ)充。數(shù)據(jù)標(biāo)注是一個(gè)比較簡(jiǎn)單的人機(jī)系統(tǒng),但是這里面包含的技術(shù)已經(jīng)相當(dāng)有挑戰(zhàn)性。如果我們要建立更復(fù)雜的人機(jī)智能系統(tǒng)解決更大的問(wèn)題,會(huì)有更多的新的困難需要克服。另外, 我們也通過(guò)報(bào)告展示出如何在一個(gè)看起來(lái)實(shí)際得不能再實(shí)際的問(wèn)題上發(fā)展出堅(jiān)實(shí)優(yōu)雅的數(shù)學(xué)理論并產(chǎn)生有效的實(shí)用技術(shù)。這是基礎(chǔ)研究的魅力,這需要足夠的時(shí)間,耐心與環(huán)境支持。在我們的工作之前,眾包領(lǐng)域的工作基本是處于非常初級(jí)的經(jīng)驗(yàn)主導(dǎo)的階段。
CSDN:在此次 CCAI 大會(huì)上,您對(duì)哪些內(nèi)容比較感興趣?
周登勇:我非常高興參加這次中國(guó)人工智能大會(huì)。人工智能正在國(guó)內(nèi)呈現(xiàn)爆炸性的發(fā)展,從各種互聯(lián)網(wǎng)公司到學(xué)術(shù)研究。我對(duì)這次人工智能大會(huì)的所有的內(nèi)容都很有興趣。特別是,我許多朋友都來(lái)參加這次大會(huì),他們?cè)谌斯ぶ悄茴I(lǐng)域做了杰出的工作,我非常高興我們能聚在杭州這個(gè)美麗的城市一起談?wù)撊斯ぶ悄茴I(lǐng)域的最新進(jìn)展。
關(guān)于 CCAI
中國(guó)人工智能大會(huì)(CCAI),由中國(guó)人工智能學(xué)會(huì)發(fā)起,目前已成功舉辦兩屆,是中國(guó)國(guó)內(nèi)級(jí)別最高、規(guī)模最大的人工智能大會(huì)。秉承前兩屆大會(huì)宗旨,由中國(guó)人工智能學(xué)會(huì)、阿里巴巴集團(tuán) & 螞蟻金服主辦,CSDN、中國(guó)科學(xué)院自動(dòng)化研究所承辦的第三屆中國(guó)人工智能大會(huì)(CCAI 2017)將于 7 月 22-23 日在杭州召開(kāi)。
作為中國(guó)國(guó)內(nèi)高規(guī)格、規(guī)??涨暗娜斯ぶ悄艽髸?huì),本次大會(huì)由中國(guó)科學(xué)院院士、中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)譚鐵牛,阿里巴巴技術(shù)委員會(huì)主席王堅(jiān),香港科技大學(xué)計(jì)算機(jī)系主任、AAAI Fellow 楊強(qiáng),螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn),南京大學(xué)教授、AAAI Fellow 周志華共同甄選出在人工智能領(lǐng)域本年度海內(nèi)外最值得關(guān)注的學(xué)術(shù)與研發(fā)進(jìn)展,匯聚了超過(guò) 40 位頂級(jí)人工智能專(zhuān)家,帶來(lái) 9 場(chǎng)權(quán)威主題報(bào)告,以及“語(yǔ)言智能與應(yīng)用論壇”、“智能金融論壇”、“人工智能科學(xué)與藝術(shù)論壇”、“人工智能青年論壇”4 大專(zhuān)題論壇,屆時(shí)將有超過(guò) 2000 位人工智能專(zhuān)業(yè)人士參與。
目前,大會(huì) 8 折優(yōu)惠門(mén)票正在火熱發(fā)售中,掃描下方圖片中的二維碼或直接點(diǎn)擊鏈接火速搶票。