深圳2021年5月26日 /美通社/ -- 近日,澳鵬Appen憑借業(yè)界高度認可的“人工智能輔助數(shù)據(jù)標注平臺”在2021第二屆深圳(國際)人工智能展上斬獲“優(yōu)秀產(chǎn)品獎”?;顒蝇F(xiàn)場,澳鵬Appen(中國)高級研發(fā)總監(jiān)蔣孟杰接受CSDN記者鄧曉娟Carol的專訪。訪問原文如下:
2021年5月20日~23日,由深圳市科學技術(shù)協(xié)會、深圳市商務局、深圳市福田區(qū)人民政府共同指導,深圳市科技開發(fā)交流中心、深圳市人工智能行業(yè)協(xié)會聯(lián)合主辦的2021第二屆深圳國際人工智能展開幕式暨智能制造創(chuàng)新高峰論壇在深圳會展中心(福田)圓滿舉行。
深圳市科協(xié)主席蔣宇揚在大會致辭中指出:“人工智能既是引領(lǐng)未來的戰(zhàn)略性技術(shù),也是新一輪產(chǎn)業(yè)變革的核心驅(qū)動力”。誠然,在當今社會發(fā)展中,人工智能技術(shù)所占據(jù)的地位已是舉足輕重。
#01 人工智能到底“智不智能”?
正如蒸汽時代的蒸汽機、電氣時代的發(fā)電機、信息時代的計算機和互聯(lián)網(wǎng),人工智能正在成為推動人類進入智能時代的決定性力量。
然而回溯過往,我們會發(fā)現(xiàn)熱門如人工智能技術(shù),在發(fā)展的過程中也未必“星途坦蕩”的。在人工智能歷史上曾出現(xiàn)過“三次高潮”:
在世紀50年代~80年代,由于許多應用難題無法解決和基礎(chǔ)研究知識難以突破而沒有達到人們預期的成果和推進。從起步-應用-低迷-平穩(wěn)-蓬勃發(fā)展,人工智能的道路上充滿著未知的探索,道路曲折起伏。
如今,我們正處于信息時代到智能時代的過渡期中,人工智能作為主要的推動因素,讓全球產(chǎn)業(yè)界充分意識到人工智能技術(shù)引領(lǐng)新一輪產(chǎn)業(yè)變革的重大意義,紛紛轉(zhuǎn)型發(fā)展。而“新基建”的提出與疫情的影響,讓2020年成為人工智能史上的一個重要拐點。如果說在2020年之前人工智能技術(shù)還在摸索著落地應用場景,那么在2020年開始,人工智能已經(jīng)加速進入人們的生活。
只是,在人工智能飛速發(fā)展的今天,人們的需求也不斷在上升。對于人工智能企業(yè)或轉(zhuǎn)型企業(yè)而言,如何跟上時代是首要考慮的問題。但落到群眾當中,落到人們的衣食住行當中,人工智能到底“智不智能”,才是人們所關(guān)注的重點。
企業(yè)想要把AI技術(shù)/產(chǎn)品真正落地,真正做出“好的人工智能”,首先不能讓AI技術(shù)/產(chǎn)品只停留在實驗或原型階段,AI模型的高質(zhì)量訓練是重中之重。
那么,AI模型如何才能得到高質(zhì)量訓練?在AI項目部署的生命周期當中,有哪些可優(yōu)化的地方?數(shù)據(jù)在這個過程中起到了哪些關(guān)鍵性作用?企業(yè)在轉(zhuǎn)型路上又該如何挑選數(shù)據(jù)平臺/相關(guān)服務商?帶著這些問題,CSDN記者對話了知名人工智能數(shù)據(jù)服務商澳鵬Appen的高級研發(fā)總監(jiān)蔣孟杰。
值得一提的是,澳鵬在2021第二屆深圳國際人工智能展開幕式暨智能制造創(chuàng)新高峰論壇中斬獲“優(yōu)秀產(chǎn)品獎”,也曾連續(xù)六年入圍德勤高科技成長50強企業(yè)(澳大利亞)、維科杯·OFweek2020人工智能行業(yè)優(yōu)秀產(chǎn)品應用獎(澳鵬人工智能輔助數(shù)據(jù)標注平臺)、CIAI 2020年度中國人工智能行業(yè)“十大創(chuàng)新力企業(yè)獎”等獎項。
這樣一個專注于人工智能數(shù)據(jù)標注的行業(yè)領(lǐng)軍服務商,是如何用數(shù)據(jù)推動人工智能技術(shù)與產(chǎn)品的?一起來聽聽蔣孟杰的真知灼見。
#02 “用AI的方式服務AI”
蔣孟杰在加入澳鵬之前,曾在國際知名電商公司eBay任職,主要專注于搜索引擎搜索算法領(lǐng)域。大約在11年前,也就是2010年互聯(lián)網(wǎng)蓬勃發(fā)展的階段,就與澳鵬合作利用人工審核商品和搜索關(guān)鍵字之間的相關(guān)性來做相關(guān)度算法以及線下算法評測平臺,在該領(lǐng)域有著豐富的經(jīng)驗及思考。
2019年3月加入澳鵬后,蔣孟杰負責中國區(qū)技術(shù)團隊的研發(fā)、及全球部分模塊研發(fā)等。他所帶領(lǐng)的團隊致力于打造全流程的數(shù)據(jù)平臺,包含數(shù)據(jù)采集,數(shù)據(jù)標注和數(shù)據(jù)管理。另外,針對成熟且復雜的場景開發(fā)更加高效的標注工具,如自動駕駛、人臉關(guān)鍵點、長語音轉(zhuǎn)寫等。
蔣孟杰表示,越來越多的企業(yè)正在走向AI的道路,與此同時,對訓練數(shù)據(jù)也有了更高的要求。AI模型想要真正落地,需要大量高質(zhì)量的、安全無偏差的數(shù)據(jù),澳鵬的目標是幫助企業(yè)能夠把AI技術(shù)/產(chǎn)品真正的落地,,而不是只停留在實驗或者原型階段,將采標流程一體化。
深耕行業(yè)20多年澳鵬,在數(shù)據(jù)采集和數(shù)據(jù)標注的過程中,積累了大量的行業(yè)經(jīng)驗和案例,同時也擁有了自己先進的技術(shù)、資深的項目管理和標注團隊,并且提出“用AI的方式服務AI”的理念。
澳鵬如今擁有一個數(shù)據(jù)科學家團隊,一方面會在服務企業(yè)之前了解場景,設計如何采集數(shù)據(jù)/標注數(shù)據(jù)能真正幫助到企業(yè)成功訓練模型,以結(jié)果導向。另一方面也把AI技術(shù)應用到整個服務的流程中。用AI模型進行以下工作:
#03 技術(shù)不能閉門造車
在人工智能數(shù)據(jù)標注領(lǐng)域,純自動化標注是不現(xiàn)實的,邏輯上也不成立?!澳阌盟惴ㄉ傻臄?shù)據(jù)去訓練另一個算法,最完美的情況下,也就是訓練出跟之前一模一樣的一個算法?!笔Y孟杰說道。但也不能只做純手工標注,傳統(tǒng)的數(shù)據(jù)標注是個純?nèi)肆γ芗偷娜蝿?,對于技術(shù)從業(yè)者而言是非常誘人的領(lǐng)域,因為稍微有一點技術(shù)的引入,就能給企業(yè)降本增效。
在平臺的設計理念和系統(tǒng)架構(gòu)上,蔣孟杰有著自己的思考。業(yè)務在設計之初就引入AI中臺的概念, 圍繞著AI中臺為業(yè)務賦能,引入Apache Pulsar作為數(shù)據(jù)湖,圍繞這個核心組件設計了靈活的標注任務的分發(fā)和工作流管理。因為業(yè)務數(shù)據(jù)都落地Pulsar里面,借助Pulsar的高吞吐量,可以多次重復高效得消費這些數(shù)據(jù)進行快速且松耦合得進行業(yè)務擴展,比如結(jié)合 Flink 做實時進度/工作量/質(zhì)量的報表計算用來做項目管理,也可以對標注員進行畫像,可以實時進行反欺詐監(jiān)測,另外也可以對在線標注數(shù)據(jù)實現(xiàn)邊標注邊訓練,同時反過頭來輔助標注等。
澳鵬在全球市場已經(jīng)累積了25+年的行業(yè)經(jīng)驗,進入中國市場后,澳鵬借鑒了海外的平臺實踐,在中國獨立自主打造了適合國內(nèi)行業(yè)特點的高精度AI數(shù)據(jù)服務平臺。那么,中國區(qū)的技術(shù)和產(chǎn)品方面如何與其他地區(qū)并進?迭代過程又是怎樣的?
蔣孟杰認為,產(chǎn)品迭代一定要跟隨業(yè)務發(fā)展一起錨定的。在平臺設計和技術(shù)架構(gòu)搭建初期,事先做好技術(shù)的總體架構(gòu)設計,在此基礎(chǔ)上做未來的發(fā)展規(guī)劃。同時,要確保團隊成員的目標一致,再定期討論調(diào)整優(yōu)先級。在剛起步的時候,每個迭代只能完成MVP,非核心的功能會提供功能上的兼容支持,在真正的使用過程中,這些未被產(chǎn)品化的功能使用起來相當痛苦,比如招人的時候,最開始的版本中先專注在標注業(yè)務本身,如果要添加,標注員就上傳一個Excel文件, 而沒有一個完整人員招募和審核流程。
令記者感到意外的是,澳鵬的技術(shù)團隊并沒有閉門造車,關(guān)起門來自己解決問題。他們還擁有一支項目支持工程師團隊,所有當下平臺滿足不了的功能,該團隊就會準備一次性的腳本和工具進行處理。隨后,平臺一步步根據(jù)優(yōu)先級把手工處理的任務產(chǎn)品化,平臺發(fā)布一個版本后及時拿到反饋,然后在下一個版本中進一步提升。所以,在與產(chǎn)品研發(fā)團隊、項目管理團隊、業(yè)務團隊的緊密合作下,技術(shù)/產(chǎn)品迭代速度是相當快的。
#04 人工智能數(shù)據(jù)與質(zhì)量決定上層建筑
如果說優(yōu)秀技術(shù)架構(gòu)與高效迭代是決定一家人工智能數(shù)據(jù)服務商是否站得穩(wěn)的關(guān)鍵,那么真正決定它是否走得更遠的,就在于產(chǎn)品本身解決問題的能力到底有多強。
在這個問題上,蔣孟杰提出了一個關(guān)鍵點:“AI項目部署生命周期”。
一般 AI 項目部署的生命周期會包含:數(shù)據(jù)采集、數(shù)據(jù)標注、數(shù)據(jù)探索、模型開發(fā)、模型發(fā)布、定期監(jiān)控。
那么,數(shù)據(jù)在這個生命周期里扮演著怎樣的角色?澳鵬又解決了哪些問題?蔣孟杰描述數(shù)據(jù)的重要性時引用了Andrew Ng(吳恩達,人工智能和機器學習領(lǐng)域國際最權(quán)威學者之一)的話:成功的 AI 部署, 80%是數(shù)據(jù)準備(包括數(shù)據(jù)清洗/數(shù)據(jù)標注等), 20%是花在模型開發(fā)上。而澳鵬在整個生命周期中幫助客戶解決數(shù)據(jù)采集,數(shù)據(jù)標注, 模型發(fā)布后期監(jiān)控。
除此之外,數(shù)據(jù)的可用性質(zhì)量也是澳鵬服務的核心。蔣孟杰打了個比喻:“AI模型就像小孩子,你教給他什么,他便學會什么。如果數(shù)據(jù)質(zhì)量很糟糕,那么AI模型學會的也是這些錯誤?!彼栽诎涅i有一整套方案保障數(shù)據(jù)的質(zhì)量:
蔣孟杰認為,項目管理是一門藝術(shù),尤其是人工參與的場景,可能會在整個流程中任意環(huán)節(jié)出現(xiàn)變化。澳鵬的優(yōu)勢在于其針對各個企業(yè)的業(yè)務進行深度的打磨,融入了自己的高效的項目管理方式以及標注細節(jié)優(yōu)化。
#05 撥開迷霧
CSDN:聽說澳鵬正在密切關(guān)注自動駕駛領(lǐng)域,那么在自動駕駛領(lǐng)域的數(shù)據(jù)方面,目前存在哪些挑戰(zhàn)?澳鵬又做了哪些解決方案?
蔣孟杰:這個問題可以分為5個部分。
CSDN:每個企業(yè)的技術(shù)架構(gòu)與實力不同,對于初創(chuàng)、中型、大型的企業(yè)來說,如何選擇合適的數(shù)據(jù)標注平臺/相關(guān)服務商?其中有哪些不同嗎?
蔣孟杰:初創(chuàng)業(yè)務場景變化非??欤话銟俗⑿枨罅坎粫艽?。而且公司沒有精力或者資源開發(fā)或維護數(shù)據(jù)標注平臺。我們會推薦純SaaS模式,可以讓初創(chuàng)企業(yè)快速開啟標注,快速試錯調(diào)整方向。
中型企業(yè)已經(jīng)有較為成熟的業(yè)務模式和自有系統(tǒng),另外也有資源去開發(fā)或者運維數(shù)據(jù)標注平臺,會比較關(guān)心是否有開放 API 進行系統(tǒng)集成和二次開發(fā),是否有全面的功能。這類企業(yè),我們會推薦混合云部署模式或者私有化部署模式,并且結(jié)合我們 Managed Service 進行數(shù)據(jù)標注。
而一般大型的互聯(lián)網(wǎng)企業(yè)比較早地使用AI 技術(shù),已經(jīng)自己開發(fā)了一些標注平臺。在選服務商的時候會特別看重服務商“是否有能力快速得招到大量高質(zhì)量的標注員、是否標注工具層面會比自己公司的效率更高、數(shù)據(jù)安全是否有保障”等。這類企業(yè)我們也會推薦混合云部署模式或者私有化部署模式,并且結(jié)合我們Managed Service 進行數(shù)據(jù)標注。
CSDN:您認為未來人工智能數(shù)據(jù)標注領(lǐng)域或該領(lǐng)域的服務商,會有哪些發(fā)展趨勢?
蔣孟杰:現(xiàn)階段標注領(lǐng)域魚龍混雜,價格競爭激烈,其中不乏大量傳統(tǒng)人力服務商進入這個領(lǐng)域。隨著行業(yè)的洗牌,有快速招人能力、擁有大量項目管理經(jīng)驗、有自有平臺研發(fā)能力的供應商會逐漸脫穎而出。
標注平臺會沿著采集和標注一體化方向發(fā)展。對很多AI 企業(yè)來說,往往同時需要數(shù)據(jù)采集和標注。比如剛才的例子,采集日常交流語音,采集完以后需要對語音進行文字轉(zhuǎn)寫。如果把采集和標注分成兩個獨立階段,時間交付周期很長,另外如果標注覺得采集的語音里面完全沒法聽清,很難及時打回給采集人員重新錄制。
另一方面,未來可能會向AI數(shù)據(jù)中臺發(fā)展。不僅管理非結(jié)構(gòu)化數(shù)據(jù)的,也會慢慢延伸到結(jié)構(gòu)化數(shù)據(jù)的管理。數(shù)據(jù)標注在整個生命周期中不會是一個獨立的存在。如果分裂的多個系統(tǒng),數(shù)據(jù)科學家會浪費大量時間在搬運數(shù)據(jù)上,效率不高,另外也影響創(chuàng)新。如果以集成式的AI數(shù)據(jù)中臺為基礎(chǔ),數(shù)據(jù)科學家可以開發(fā)算法和數(shù)據(jù)標注互相迭代提升。比如邊標注邊實時訓練模型,效果沒法再次提升的時候就停止標注,這個在業(yè)界叫主動學習。
原文鏈接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/117256727