CCAI 2017 當(dāng)機(jī)器學(xué)習(xí)遇見(jiàn)“眾包”

2017-07-12 14:12

提到眾包，想必大多數(shù)人都不陌生，“一個(gè)公司或機(jī)構(gòu)把過(guò)去由員工執(zhí)行的工作任務(wù)，以自由自愿的形式外包給非特定的（而且通常是大型的）大眾網(wǎng)絡(luò)的做法。眾包的任務(wù)通常由個(gè)人來(lái)承擔(dān)，但如果涉及到需要多人協(xié)作完成的任務(wù)，也有可能以依靠開(kāi)源的個(gè)體生產(chǎn)的形式出現(xiàn)。”這一概念由美國(guó)《連線(xiàn)》雜志的記者杰夫·豪（Jeff Howe）在 2006 年 6 月提出，眾包模式的出現(xiàn)極大的提升了企業(yè)工作效率而且大幅降低成本。

人工智能時(shí)代即將來(lái)臨，作為實(shí)現(xiàn)人工智能的重要方法，機(jī)器學(xué)習(xí)開(kāi)始受到廣泛關(guān)注。訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)需要大量的帶標(biāo)簽數(shù)據(jù)，實(shí)現(xiàn)諸如語(yǔ)音識(shí)別及圖片分類(lèi)等功能，比如將帶有花朵的圖片與“花朵”這個(gè)詞語(yǔ)捆綁起來(lái)。傳統(tǒng)基于專(zhuān)家的數(shù)據(jù)標(biāo)注緩慢而昂貴，基于此，機(jī)器學(xué)習(xí)開(kāi)始與眾包模式相融合，后者成為了當(dāng)今獲取標(biāo)注數(shù)據(jù)的基本手段。

盡管聽(tīng)起來(lái)非常簡(jiǎn)單，但如何利用眾包打造機(jī)器學(xué)習(xí)的高品質(zhì)數(shù)據(jù)庫(kù)遠(yuǎn)不是一件簡(jiǎn)單的事情。眾包背后涉及哪些技術(shù)？怎樣保證數(shù)據(jù)精準(zhǔn)？帶著這些問(wèn)題，我們采訪了美國(guó)微軟雷德蒙研究院首席研究員周登勇博士，就眾包與機(jī)器學(xué)習(xí)融合中的一些問(wèn)題進(jìn)行了請(qǐng)教。

周登勇（Dengyong Zhou），美國(guó)微軟雷德蒙研究院首席研究員。在加入微軟研究院之前，周登勇博士曾任職于德國(guó)馬普研究所智能系統(tǒng)分所（Max Planck Institute for Intelligent Systems），以及 NEC 美國(guó)研究院普林斯頓分部的機(jī)器學(xué)習(xí)部。他在中國(guó)科學(xué)院自動(dòng)化所獲得人工智能專(zhuān)業(yè)博士學(xué)位，并同時(shí)獲得中國(guó)科學(xué)院院長(zhǎng)獎(jiǎng)學(xué)金。周登勇博士在微軟工作期間曾獲研究院金星獎(jiǎng)，以及擔(dān)任 NIPS 與其他若干國(guó)際會(huì)議的領(lǐng)域主席。

以下為采訪實(shí)錄：

CSDN：首先請(qǐng)與我們的讀者分享一下您與團(tuán)隊(duì)目前正在專(zhuān)注的研究領(lǐng)域，以及取得了怎樣的進(jìn)展？

周登勇：在微軟雷德蒙研究院，我與我的團(tuán)隊(duì)一直專(zhuān)注在如何提高眾包數(shù)據(jù)的質(zhì)量這個(gè)基本問(wèn)題上。具體來(lái)說(shuō)，我們主要集中在兩個(gè)方面：一是如何從非專(zhuān)家標(biāo)注的數(shù)據(jù)中提煉出高質(zhì)量的標(biāo)注，二是如何激勵(lì)數(shù)據(jù)標(biāo)注員工提供高質(zhì)量的工作。針對(duì)這兩方面問(wèn)題我們進(jìn)行了算法和理論基礎(chǔ)的研究，一些技術(shù)發(fā)明已經(jīng)應(yīng)用在產(chǎn)品中。

CSDN：我們知道，眾包是獲取大量的帶標(biāo)簽數(shù)據(jù)，供機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行訓(xùn)練的一種方式，那么是什么促成了眾包模式的出現(xiàn)，采用眾包模式相比傳統(tǒng)的數(shù)據(jù)收集方式具有什么優(yōu)勢(shì)？

周登勇：在建立基于機(jī)器學(xué)習(xí)的智能系統(tǒng)時(shí)，只要有大量的訓(xùn)練數(shù)據(jù)，一個(gè)樸素的機(jī)器學(xué)習(xí)模型往往可以完勝一個(gè)只是基于很少量數(shù)據(jù)訓(xùn)練出來(lái)的精心設(shè)計(jì)的高級(jí)模型。當(dāng)你需要短時(shí)間內(nèi)提高一個(gè)機(jī)器學(xué)習(xí)應(yīng)用的性能時(shí)，大幅度增加訓(xùn)練數(shù)據(jù)應(yīng)該是優(yōu)先考慮的策略，而獲得大量標(biāo)注數(shù)據(jù)可以通過(guò)眾包達(dá)到。

一個(gè)商業(yè)化的互聯(lián)網(wǎng)眾包平臺(tái)可能有上百萬(wàn)分布在世界各地的數(shù)據(jù)標(biāo)注員。他們能以低廉的價(jià)格在幾天甚至幾小時(shí)之內(nèi)就產(chǎn)生大量的標(biāo)注數(shù)據(jù)。相比之下，傳統(tǒng)的基于專(zhuān)家的數(shù)據(jù)標(biāo)注緩慢而又昂貴。

CSDN：通常認(rèn)為，眾包的工作流程是任務(wù)準(zhǔn)備、任務(wù)執(zhí)行、任務(wù)答案整合。在此基礎(chǔ)上，微軟雷德蒙研究院有哪些創(chuàng)新？效果如何？

周登勇：微軟雷德蒙研究院的多個(gè)小組在眾包不同方面的問(wèn)題上展開(kāi)了深入而又持久的研究。我們的研究工作往往與產(chǎn)品部門(mén)緊密配合。隨著數(shù)據(jù)的類(lèi)型以及數(shù)據(jù)收集流程的不同，眾包的問(wèn)題會(huì)很不一樣。我與我的團(tuán)隊(duì)提出了一個(gè)叫極小極大熵原理的簡(jiǎn)潔的統(tǒng)計(jì)推斷模型用于眾包任務(wù)答案整合。該原理可以適用于很多類(lèi)型的數(shù)據(jù)，包括多類(lèi)別的數(shù)據(jù)，分級(jí)數(shù)據(jù)，以及結(jié)構(gòu)化的數(shù)據(jù)，也可以很容易融合先驗(yàn)知識(shí)。在任務(wù)執(zhí)行上，我們從博弈論出發(fā)提出了一種叫翻倍或者歸零的付錢(qián)機(jī)制，數(shù)據(jù)標(biāo)注員可以選擇不回答他沒(méi)有把握的問(wèn)題。采用這種付錢(qián)方式，我們觀察到數(shù)據(jù)標(biāo)注的錯(cuò)誤率大幅度降低。而且，理論上我們還證明了這也是經(jīng)濟(jì)上最節(jié)省的付錢(qián)方式。

CSDN：在眾包中，任務(wù)花費(fèi)、質(zhì)量和時(shí)間是重要的三個(gè)指標(biāo)，但往往無(wú)法兼得。該如何平衡這三者的關(guān)系？

周登勇：這三個(gè)問(wèn)題的平衡與具體的眾包任務(wù)密切相關(guān)。一般來(lái)說(shuō)，質(zhì)量是更重要的指標(biāo)，如果沒(méi)有質(zhì)量，再低的花費(fèi)與再少的時(shí)間都是沒(méi)有意義的。我與我的團(tuán)隊(duì)考慮過(guò)任務(wù)花費(fèi)與質(zhì)量的平衡。我們的目標(biāo)是在一個(gè)給定的預(yù)算下獲得最高質(zhì)量的數(shù)據(jù)。大致說(shuō)來(lái)，我們考慮一種在線(xiàn)的眾包模式。在每一步，我們需要做出兩個(gè)決定：一是哪個(gè)數(shù)據(jù)需要標(biāo)注，二是讓誰(shuí)來(lái)標(biāo)注。我們?yōu)檫@個(gè)問(wèn)題設(shè)計(jì)了一個(gè)基于馬爾科夫決策理論的數(shù)學(xué)模型，并提出了一個(gè)稱(chēng)之為知識(shí)梯度的有效算法。

CSDN：通過(guò)眾包會(huì)獲取大量的數(shù)據(jù)，這些數(shù)據(jù)在應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)之前，可以通過(guò)哪些技術(shù)和操作，改善數(shù)據(jù)的質(zhì)量？存在哪些誤區(qū)？

周登勇：這些數(shù)據(jù)在應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)之前，我們要做數(shù)據(jù)整合，前面提到的極小極大熵原理的統(tǒng)計(jì)推斷模型就是服務(wù)于此。有些人或許喜歡考慮將數(shù)據(jù)整合與機(jī)器學(xué)習(xí)的訓(xùn)練算法捆綁到一個(gè)單一的模型中，技術(shù)上很容易做到，但這個(gè)或許不是好的主意。我傾向把數(shù)據(jù)整合與模型訓(xùn)練分開(kāi)，這有兩方面原因，迄今為止，我還沒(méi)有觀察到這種捆綁模型有哪些有意義的性能提升。更重要的是，在實(shí)際應(yīng)用中，當(dāng)機(jī)器學(xué)習(xí)系統(tǒng)出了問(wèn)題，我們通常需要精確知道到底是哪個(gè)環(huán)節(jié)出了問(wèn)題。捆綁模型模糊了整合與訓(xùn)練這兩個(gè)環(huán)節(jié)的界限。

CSDN：眾包中的統(tǒng)計(jì)推斷背后涉及哪些關(guān)鍵技術(shù)？哪些對(duì)質(zhì)量的影響最大？

周登勇：眾包中的統(tǒng)計(jì)推斷技術(shù)已經(jīng)比較成熟，特別是針對(duì)多類(lèi)別的數(shù)據(jù)。我們的極小極大熵原理的統(tǒng)計(jì)推斷模型能用到很多不同的數(shù)據(jù)類(lèi)型上，對(duì)不同的數(shù)據(jù)類(lèi)型當(dāng)然需要做一些適當(dāng)?shù)恼{(diào)整。但是，眾包遠(yuǎn)不只是一個(gè)靜態(tài)的數(shù)據(jù)處理問(wèn)題，為改善眾包數(shù)據(jù)質(zhì)量，我們還需要考慮其他的環(huán)節(jié)。比如說(shuō)，在眾包工人執(zhí)行標(biāo)注任務(wù)之前，執(zhí)行資格考試，只有達(dá)到了一定的正確率，才有資格標(biāo)注數(shù)據(jù)。否則，需要一定的職能訓(xùn)練直到達(dá)標(biāo)。這樣的一個(gè)環(huán)節(jié)通常會(huì)帶來(lái)顯著的數(shù)據(jù)質(zhì)量改善。另外，我前面提到，付錢(qián)方式也會(huì)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生很大的影響，有效的付錢(qián)方式會(huì)讓眾包工人愿意付出足夠的努力把工作完成好。

CSDN：目前眾包平臺(tái)的激勵(lì)機(jī)制有哪些缺陷，AI 新技術(shù)能帶來(lái)哪些不同？未來(lái)的困難會(huì)在何處（例如是否有可能作弊）？請(qǐng)舉例說(shuō)明。這些研究，除了“眾包”還有可能應(yīng)用在哪些領(lǐng)域？

周登勇：目前眾包平臺(tái)的激勵(lì)機(jī)制一般都是一些經(jīng)驗(yàn)方法。比如說(shuō)，隨機(jī)抽查一些結(jié)果，如果回答質(zhì)量過(guò)得去的話(huà)，就付全款；否則，就不給錢(qián)。我們是把激勵(lì)機(jī)制奠定在堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)之上，并發(fā)展了實(shí)際上簡(jiǎn)單而又有效的付費(fèi)機(jī)制。目前，這方面還有諸多問(wèn)題需要更仔細(xì)的考慮。比如說(shuō)，抽查結(jié)果的工作量可能太大，我們需要設(shè)法減少對(duì)抽查的依賴(lài)，而一旦減少抽查會(huì)讓作弊更容易。還有，一些比較困難的標(biāo)注問(wèn)題，比如說(shuō)自然語(yǔ)言處理的標(biāo)注，需要提供有吸引力的市場(chǎng)價(jià)格吸引足夠多的眾包工人去標(biāo)注。這些問(wèn)題目前還只是有一些粗淺的經(jīng)驗(yàn)方法，還有很長(zhǎng)的路要走。對(duì)眾包中激勵(lì)機(jī)制的研究工作可以不只是用在眾包中，可以放在更大的范圍之內(nèi)考慮，特別是在人機(jī)結(jié)合的智能系統(tǒng)中我們也需要考慮如何合理激勵(lì)每位參與人員。

CSDN：擁有怎樣特征的公司應(yīng)該構(gòu)建自己或者使用第三方眾包平臺(tái)，應(yīng)該考量哪些要素？可否簡(jiǎn)單舉例說(shuō)明？

周登勇：大數(shù)據(jù)驅(qū)動(dòng)占據(jù)核心位置的公司都需要考慮使用眾包平臺(tái)。如果數(shù)據(jù)的私密性很重要，需要構(gòu)建自己的眾包平臺(tái)。否則，可以直接使用第三方平臺(tái)。平臺(tái)的易用性是一個(gè)重要考慮因素。不管是眾包工人還是標(biāo)注任務(wù)提供者都會(huì)喜歡容易使用的平臺(tái)。平臺(tái)的靈活性也很重要，特別是任務(wù)分發(fā)以及付錢(qián)機(jī)制上需要有足夠的靈活性。還有，平臺(tái)需要提供一些基本的質(zhì)量控制功能包括檢測(cè)作弊。

CSDN：您將在今年的 CCAI 大會(huì)上發(fā)表《眾包中的統(tǒng)計(jì)推斷與激勵(lì)機(jī)制》主題演講，希望此次演講能夠?yàn)槁?tīng)眾帶來(lái)怎樣的啟發(fā)，以幫助他們解決當(dāng)前在人工智能領(lǐng)域哪些共性問(wèn)題？

周登勇：通過(guò)做這個(gè)眾包工作的報(bào)告，我希望大家看到人機(jī)結(jié)合的智能系統(tǒng)的潛力。在可以預(yù)見(jiàn)的將來(lái)，機(jī)器智能完全代替人的智能幾乎沒(méi)有任何可能。我們應(yīng)該是讓人與機(jī)器各施所長(zhǎng)互相補(bǔ)充。數(shù)據(jù)標(biāo)注是一個(gè)比較簡(jiǎn)單的人機(jī)系統(tǒng)，但是這里面包含的技術(shù)已經(jīng)相當(dāng)有挑戰(zhàn)性。如果我們要建立更復(fù)雜的人機(jī)智能系統(tǒng)解決更大的問(wèn)題，會(huì)有更多的新的困難需要克服。另外，我們也通過(guò)報(bào)告展示出如何在一個(gè)看起來(lái)實(shí)際得不能再實(shí)際的問(wèn)題上發(fā)展出堅(jiān)實(shí)優(yōu)雅的數(shù)學(xué)理論并產(chǎn)生有效的實(shí)用技術(shù)。這是基礎(chǔ)研究的魅力，這需要足夠的時(shí)間，耐心與環(huán)境支持。在我們的工作之前，眾包領(lǐng)域的工作基本是處于非常初級(jí)的經(jīng)驗(yàn)主導(dǎo)的階段。

CSDN：在此次 CCAI 大會(huì)上，您對(duì)哪些內(nèi)容比較感興趣？

周登勇：我非常高興參加這次中國(guó)人工智能大會(huì)。人工智能正在國(guó)內(nèi)呈現(xiàn)爆炸性的發(fā)展，從各種互聯(lián)網(wǎng)公司到學(xué)術(shù)研究。我對(duì)這次人工智能大會(huì)的所有的內(nèi)容都很有興趣。特別是，我許多朋友都來(lái)參加這次大會(huì)，他們?cè)谌斯ぶ悄茴I(lǐng)域做了杰出的工作，我非常高興我們能聚在杭州這個(gè)美麗的城市一起談?wù)撊斯ぶ悄茴I(lǐng)域的最新進(jìn)展。

關(guān)于 CCAI

中國(guó)人工智能大會(huì)（CCAI），由中國(guó)人工智能學(xué)會(huì)發(fā)起，目前已成功舉辦兩屆，是中國(guó)國(guó)內(nèi)級(jí)別最高、規(guī)模最大的人工智能大會(huì)。秉承前兩屆大會(huì)宗旨，由中國(guó)人工智能學(xué)會(huì)、阿里巴巴集團(tuán) & 螞蟻金服主辦，CSDN、中國(guó)科學(xué)院自動(dòng)化研究所承辦的第三屆中國(guó)人工智能大會(huì)（CCAI 2017）將于 7 月 22-23 日在杭州召開(kāi)。

作為中國(guó)國(guó)內(nèi)高規(guī)格、規(guī)?？涨暗娜斯ぶ悄艽髸?huì)，本次大會(huì)由中國(guó)科學(xué)院院士、中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)譚鐵牛，阿里巴巴技術(shù)委員會(huì)主席王堅(jiān)，香港科技大學(xué)計(jì)算機(jī)系主任、AAAI Fellow 楊強(qiáng)，螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)，南京大學(xué)教授、AAAI Fellow 周志華共同甄選出在人工智能領(lǐng)域本年度海內(nèi)外最值得關(guān)注的學(xué)術(shù)與研發(fā)進(jìn)展，匯聚了超過(guò) 40 位頂級(jí)人工智能專(zhuān)家，帶來(lái) 9 場(chǎng)權(quán)威主題報(bào)告，以及“語(yǔ)言智能與應(yīng)用論壇”、“智能金融論壇”、“人工智能科學(xué)與藝術(shù)論壇”、“人工智能青年論壇”4 大專(zhuān)題論壇，屆時(shí)將有超過(guò) 2000 位人工智能專(zhuān)業(yè)人士參與。

目前，大會(huì) 8 折優(yōu)惠門(mén)票正在火熱發(fā)售中，掃描下方圖片中的二維碼或直接點(diǎn)擊鏈接火速搶票。

消息來(lái)源：CSDN

財(cái)經(jīng)TMT 更多

CCAI 2017 當(dāng)機(jī)器學(xué)習(xí)遇見(jiàn)“眾包”

中益網(wǎng)：為掌控極限而生新一代GORE-TEX PRO產(chǎn)品亮相2024年ISPO國(guó)際體育用品博覽會(huì)

新華財(cái)經(jīng)報(bào)道｜從成本驅(qū)動(dòng)轉(zhuǎn)向技術(shù)驅(qū)動(dòng) 中國(guó)企業(yè)出海向高質(zhì)量發(fā)展邁進(jìn)

移動(dòng)云：高性能網(wǎng)絡(luò)是AI時(shí)代關(guān)鍵基礎(chǔ)設(shè)施技術(shù)底座

中益網(wǎng)：AI賦能發(fā)力，影游齊頭并進(jìn)，中國(guó)儒意火力全開(kāi)多維進(jìn)擊

至頂網(wǎng)科技：2024中國(guó)AI大模型產(chǎn)業(yè)發(fā)展報(bào)告發(fā)布展望五大產(chǎn)業(yè)趨勢(shì)

戴爾科技袁洪偉：用現(xiàn)代化的IT服務(wù)，打造智能時(shí)代的“超級(jí)管家”

CCAI 2017 當(dāng)機(jī)器學(xué)習(xí)遇見(jiàn)“眾包”

中益網(wǎng)：為掌控極限而生 新一代GORE-TEX PRO產(chǎn)品亮相2024年ISPO國(guó)際體育用品博覽會(huì)

新華財(cái)經(jīng)報(bào)道｜從成本驅(qū)動(dòng)轉(zhuǎn)向技術(shù)驅(qū)動(dòng) 中國(guó)企業(yè)出海向高質(zhì)量發(fā)展邁進(jìn)

移動(dòng)云：高性能網(wǎng)絡(luò)是AI時(shí)代關(guān)鍵基礎(chǔ)設(shè)施技術(shù)底座

中益網(wǎng)：AI賦能發(fā)力，影游齊頭并進(jìn)，中國(guó)儒意火力全開(kāi)多維進(jìn)擊

至頂網(wǎng)科技：2024中國(guó)AI大模型產(chǎn)業(yè)發(fā)展報(bào)告發(fā)布 展望五大產(chǎn)業(yè)趨勢(shì)

戴爾科技袁洪偉：用現(xiàn)代化的IT服務(wù)，打造智能時(shí)代的“超級(jí)管家”

中益網(wǎng)：為掌控極限而生新一代GORE-TEX PRO產(chǎn)品亮相2024年ISPO國(guó)際體育用品博覽會(huì)

中益網(wǎng)：AI賦能發(fā)力，影游齊頭并進(jìn)，中國(guó)儒意火力全開(kāi)多維進(jìn)擊

至頂網(wǎng)科技：2024中國(guó)AI大模型產(chǎn)業(yè)發(fā)展報(bào)告發(fā)布展望五大產(chǎn)業(yè)趨勢(shì)

戴爾科技袁洪偉：用現(xiàn)代化的IT服務(wù)，打造智能時(shí)代的“超級(jí)管家”