上海2021年7月13日 /美通社/ -- 一份最新的全球《2021人工智能與機(jī)器學(xué)習(xí)現(xiàn)狀》調(diào)研報告顯示:2021年,53%的AI團(tuán)隊報告預(yù)算在50萬美元到500萬美元之間(而2020年約為三分之一),這個強(qiáng)烈的信號表明AI對于各行各業(yè)各種規(guī)模企業(yè)的成功變得越來越重要。這份由全球領(lǐng)先的AI數(shù)據(jù)服務(wù)平臺公司澳鵬(Appen)連續(xù)第7年發(fā)布的AI現(xiàn)狀年度報告還強(qiáng)調(diào),在2020年由于新冠疫情,各規(guī)模的企業(yè)都加速推進(jìn)了AI戰(zhàn)略,并且在2021年還將繼續(xù)保持這種勢頭。
在中國,AI技術(shù)應(yīng)用開始全面覆蓋日常生活、科學(xué)研究、社會治理、商業(yè)創(chuàng)新和國家安全等經(jīng)濟(jì)社會的關(guān)鍵領(lǐng)域,以空前的廣度和深度推動社會發(fā)展。由中國信通院與中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟推出的《2021人工智能核心產(chǎn)業(yè)白皮書》指出,工程技術(shù)正在引領(lǐng)AI產(chǎn)業(yè) -- 技術(shù)成本快速下降,同等算法水平所需計算量每8個月降低一倍、成本降低百倍,涌現(xiàn)了多樣化的研發(fā)和技術(shù)服務(wù)平臺,這些說明AI正從技術(shù)理論突破過渡到工程化落地應(yīng)用的階段。
深度神經(jīng)網(wǎng)絡(luò)是當(dāng)前AI的主要模型,而監(jiān)督學(xué)習(xí)則是構(gòu)建(訓(xùn)練)深度神經(jīng)網(wǎng)絡(luò)的主要方法,監(jiān)督學(xué)習(xí)所需要的大規(guī)模、高質(zhì)量的人工標(biāo)注數(shù)據(jù)集是AI產(chǎn)業(yè)發(fā)展的剛需,也是AI工業(yè)化的主要瓶頸之一。在中國,正在大量涌現(xiàn)AI數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地,但當(dāng)前的AI數(shù)據(jù)標(biāo)注產(chǎn)業(yè)仍處于初級階段。澳鵬公司產(chǎn)品研發(fā)總監(jiān)張童皓表示,用戶對于數(shù)據(jù)規(guī)模、質(zhì)量和多樣性等要求越來越高,專業(yè)化數(shù)據(jù)服務(wù)平臺是AI工業(yè)化的突破口。
AI領(lǐng)先一步的秘訣
獲得大規(guī)模、高質(zhì)量的人工標(biāo)注數(shù)據(jù),這不僅是中國企業(yè)AI實踐成功和AI工業(yè)化的關(guān)鍵,在全球也是類似的剛需。無論從全球還是中國市場來說,專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)商都是AI工業(yè)化領(lǐng)先一步的關(guān)鍵。澳鵬《2021人工智能與機(jī)器學(xué)習(xí)現(xiàn)狀》調(diào)研報告指出,獲取足夠的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)來部署AI是各種規(guī)模企業(yè)成功的重大障礙,而全球絕大多數(shù)企業(yè)都在某種程度上采用了專業(yè)數(shù)據(jù)供應(yīng)商 -- 這反映了數(shù)據(jù)采集、準(zhǔn)備和管理是AI面臨的首要挑戰(zhàn)。
根據(jù)澳鵬的調(diào)研,使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)表示他們在AI部署方面領(lǐng)先于其他企業(yè)的可能性要高1.5倍,而落后的可能性要低4倍,也就是說使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)部署了更多的AI項目,而且實現(xiàn)了更大的投資回報率。特別是,澳鵬發(fā)現(xiàn)使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)更有可能將AI部署到生產(chǎn)環(huán)境。
此外,AI部署是一個持續(xù)的過程,而不是一勞永逸。去年,80%的被調(diào)研企業(yè)至少每季度更新一次模型,今年已增加到87%;2021 年,57%的受訪者表示至少每月更新一次模型,高于 2020年的45%。而與較小的企業(yè)相比,大型企業(yè)更有可能更新AI模型,至少每季度更新一次的比例為91%。其中,使用專業(yè)數(shù)據(jù)供應(yīng)商的企業(yè)最有可能每月更新其模型。
就中國市場來說,以數(shù)據(jù)標(biāo)注為代表的專業(yè)數(shù)據(jù)服務(wù)行業(yè)才剛剛起步,相關(guān)技術(shù)發(fā)展程度低,屬于勞動力密集型行業(yè),而且該行業(yè)缺乏大型專業(yè)數(shù)據(jù)供應(yīng)商和服務(wù)商,行業(yè)以中小企業(yè)為主,呈現(xiàn)高度的競爭狀態(tài)。在另一方面,數(shù)據(jù)標(biāo)注正從簡單、重復(fù)的拉框標(biāo)注向精細(xì)化方向發(fā)展,也就是說數(shù)據(jù)標(biāo)注行業(yè)正從簡單的勞動力密集型向?qū)I(yè)型數(shù)據(jù)服務(wù)過渡。
AI數(shù)據(jù)服務(wù)專業(yè)化
當(dāng)前,中國的AI行業(yè)和AI應(yīng)用正在高速發(fā)展,相應(yīng)帶動了AI數(shù)據(jù)標(biāo)注行業(yè)的快速成長。特別是AI用戶對于AI數(shù)據(jù)標(biāo)注質(zhì)量的要求越來越高、越來越精細(xì)化和專業(yè)化,諸如自動駕駛、工業(yè)制造等智能應(yīng)用場景越來越復(fù)雜,高質(zhì)量、精細(xì)化的標(biāo)注數(shù)據(jù)將直接影響算法模型的效果。
張童皓在加入澳鵬之前供職于人工智能視覺公司,再之前在攜程和e-Bay都從事過大數(shù)據(jù)和數(shù)據(jù)智能相關(guān)產(chǎn)品的研發(fā)工作。張童皓介紹,自2015年國內(nèi)AI行業(yè)掀起新一輪熱潮以來,用戶對于AI訓(xùn)練數(shù)據(jù)的要求越來越高。以圖像類項目為例,由于支持高清圖像設(shè)備的大量出現(xiàn)、流媒體的普及等,相應(yīng)對訓(xùn)練數(shù)據(jù)質(zhì)量要求水漲船高,例如對圖像分割任務(wù)就要求標(biāo)注打點的位置與實際像素之間的偏離不超過1到3個像素,對語音的切分要在毫秒級且前后兩段不能有重疊或空隙。
除了要求更高質(zhì)量的訓(xùn)練數(shù)據(jù)外,由于深度神經(jīng)網(wǎng)絡(luò)的模型效果與訓(xùn)練數(shù)據(jù)的規(guī)模呈正相關(guān)性,當(dāng)前很多客戶不僅需要海量的高質(zhì)量訓(xùn)練數(shù)據(jù),而且還要覆蓋更多的場景,也就是對同一個場景提出不同的數(shù)據(jù)標(biāo)注要求。再加上很多AI場景都仍屬于探索階段、場景需求多變,例如智能駕駛從早期的目標(biāo)跟蹤到后來的遮擋、連續(xù)性等出現(xiàn)了不同的訴求,因此不同團(tuán)隊需要標(biāo)注不同的數(shù)據(jù)屬性,很容易出現(xiàn)一個圖像數(shù)據(jù)集卻有多種不同標(biāo)注要求的情況。當(dāng)然,在AI模型生命周期的不同研發(fā)階段,也可能提出完全不同的數(shù)據(jù)標(biāo)注要求。這是由于AI模型在迭代的過程中,需要用數(shù)據(jù)進(jìn)行模型訓(xùn)練和效果驗證,如果模型效果不理想就需要調(diào)整方向,這就意味著新一輪的數(shù)據(jù)標(biāo)注處理。
此外,由于數(shù)據(jù)合規(guī)性和隱私保護(hù)的要求越來越高,純云端的數(shù)據(jù)標(biāo)注平臺和服務(wù)就無法全部滿足企業(yè)用戶要求,這就要求私有化部署的數(shù)據(jù)標(biāo)注平臺和眾包管理平臺。不過,私有化部署固然能夠更好的保障數(shù)據(jù)安全,但其部署和維護(hù)成本較高,這也帶來了相應(yīng)的挑戰(zhàn)。
突破AI工業(yè)化瓶頸
專業(yè)化的AI訓(xùn)練數(shù)據(jù)標(biāo)注平臺及眾包管理平臺是當(dāng)前中國AI工業(yè)化瓶頸的重要突破口之一,這也是澳鵬(Appen)進(jìn)入中國市場的重要原因。澳鵬迄今已經(jīng)有25年的歷史,擁有業(yè)內(nèi)先進(jìn)的人工智能輔助數(shù)據(jù)標(biāo)注平臺和一體化AI數(shù)據(jù)及資源管理平臺,以及全球100多萬名技能嫻熟的眾包資源 -- 來自全球170多個國家和70,000個地區(qū),支持235多種語言和方言。澳鵬中國團(tuán)隊從2019年就開始就重新構(gòu)建面向中國市場的AI數(shù)據(jù)標(biāo)注平臺、相應(yīng)的工具以及眾包資源渠道和管理平臺,2021年澳鵬大中華區(qū)正式成立并獨立運作。
作為全球領(lǐng)先的AI訓(xùn)練數(shù)據(jù)服務(wù)提供商,澳鵬的拳頭產(chǎn)品和服務(wù)就是數(shù)據(jù)標(biāo)注平臺和眾包資源。針對中國市場,澳鵬中國研發(fā)中心借鑒公司在海外的實戰(zhàn)經(jīng)驗,重新獨立開發(fā)了中國版本的數(shù)據(jù)服務(wù)平臺。張童皓強(qiáng)調(diào),之所以選擇重新開發(fā)中國市場的數(shù)據(jù)標(biāo)注平臺版本,這一方面是針對中國客戶的用戶習(xí)慣與特色需求,另一方面是切合中國市場的數(shù)據(jù)監(jiān)管和法規(guī)遵從要求。例如,澳鵬中國數(shù)據(jù)標(biāo)注平臺的公有云版就部署在國內(nèi),完全符合中國企業(yè)用戶對數(shù)據(jù)安全的要求。
澳鵬中國數(shù)據(jù)標(biāo)注平臺共有三大功能:資源管理、項目管理和標(biāo)注工具箱。其中,資源管理部分對接了澳鵬全渠道資源,包括簽約供應(yīng)商以及眾包人員和澳鵬在無錫和大連的內(nèi)部標(biāo)注中心團(tuán)隊;項目管理部分,作為一家綜合性數(shù)據(jù)服務(wù)公司,澳鵬平臺提供了項目配置和管理、工作流配置、數(shù)據(jù)資源分配和質(zhì)檢等功能;標(biāo)注工具箱方面,支持視頻、圖像和音頻的標(biāo)注和轉(zhuǎn)錄、文本標(biāo)注與翻譯,全覆蓋文本、音頻、2D和3D圖像等,還提供了智能輔助標(biāo)注工具。
數(shù)據(jù)標(biāo)注是一個復(fù)雜的系統(tǒng)工程,由標(biāo)注員和質(zhì)檢員一起協(xié)同工作。在這個協(xié)同的過程中,有數(shù)據(jù)的提交和打回等復(fù)雜操作。此外,澳鵬作為一家綜合性專業(yè)數(shù)據(jù)服務(wù)公司,平臺上往往存在多個并行任務(wù),任務(wù)屬性各不相同,有的要求流轉(zhuǎn)非??臁⒂械膯螚l數(shù)據(jù)工作時間很長,項目組規(guī)模從幾十人到上萬不等,因此澳鵬中國數(shù)據(jù)標(biāo)注平臺選擇了開源的分布式消息隊列Pulsar作為底層基礎(chǔ)架構(gòu)。Pulsar被視為下一代企業(yè)級分布式消息系統(tǒng),是Kafka的替代型技術(shù),其特點包括多租戶、低延遲、讀寫分離、跨地域復(fù)制、快速擴(kuò)容、靈活容錯等特性。
張童皓強(qiáng)調(diào),較前沿的技術(shù)架構(gòu)給平臺帶來了吞吐性能方面的競爭優(yōu)勢,除此以外,澳鵬全球眾包資源的對接也是其獨有優(yōu)勢,而即使是在國內(nèi)也有獨到的眾包資源 -- 3000人規(guī)模的中文專業(yè)醫(yī)學(xué)數(shù)據(jù)標(biāo)注團(tuán)隊,都具有臨床執(zhí)業(yè)資格和豐富醫(yī)學(xué)項目經(jīng)驗,可對醫(yī)學(xué)影像和問答進(jìn)行高效標(biāo)注。
自研專業(yè)化數(shù)據(jù)標(biāo)注平臺
專業(yè)化數(shù)據(jù)標(biāo)注平臺是數(shù)據(jù)標(biāo)注行業(yè)的核心競爭力,也是AI工業(yè)化的關(guān)鍵平臺之一。在全球,具備專業(yè)化數(shù)據(jù)標(biāo)注平臺及其能力的數(shù)據(jù)服務(wù)商屈指可數(shù),澳鵬就是其中之一。隨著澳鵬進(jìn)入中國市場,也將專業(yè)化數(shù)據(jù)標(biāo)注平臺的實踐帶入中國市場,由澳鵬中國研發(fā)中心全自研的澳鵬中國數(shù)據(jù)標(biāo)注平臺是一個國產(chǎn)化的數(shù)據(jù)標(biāo)注平臺,該平臺定位于全流程一站式人機(jī)協(xié)同高質(zhì)量數(shù)據(jù)平臺,具備從數(shù)據(jù)需求提出到策略制定、數(shù)據(jù)收集、高精度標(biāo)注/分類、數(shù)據(jù)分析和數(shù)據(jù)服務(wù),直到數(shù)據(jù)全量交付的核心場景功能。
張童皓介紹,澳鵬中國數(shù)據(jù)標(biāo)注平臺具有多種獨到的專業(yè)技術(shù)。其中的標(biāo)注工具箱在多語言和復(fù)雜圖像處理方面極具競爭力:圖像語義分割技術(shù),可以在保證像素級精度同時,實現(xiàn)10分鐘處理一張圖的高速處理;隨著2D圖像的視頻全結(jié)構(gòu)化趨勢,澳鵬平臺可以同時識別視頻中的多類型目標(biāo),可進(jìn)行點、線、框和多邊型融合的復(fù)雜標(biāo)注而且支持連續(xù)幀,而傳統(tǒng)工具僅為單模式單幀;在3D圖像處理方面,由于3D圖像數(shù)據(jù)難于理解以及查看不便(即3D空間中的點狀物密集聚集在一起形成的3D點云),澳鵬投入了大量研發(fā)資源,開發(fā)了拉框標(biāo)注和語義分割等一整套的標(biāo)注工具,其中拉框標(biāo)注支持2D&3D融合標(biāo)注、自動貼合、連續(xù)幀跟蹤、可定義對象實例關(guān)系、高度集成質(zhì)檢和交付流程等,而最具特色的2D&3D融合標(biāo)注可將3D物體映射到2D圖像中進(jìn)行關(guān)聯(lián)。
澳鵬中國數(shù)據(jù)標(biāo)注平臺還提供了:數(shù)據(jù)有效性驗證規(guī)則配置功能,例如一輛車消失了多長時間就被視為數(shù)據(jù)異常,可及時提醒標(biāo)注員或質(zhì)檢員進(jìn)行糾正;在數(shù)據(jù)驗收方面,為客戶提供了最低粒度驗收或打回,即不是對一整張圖進(jìn)行驗收或打回,而是對其中的一個框或一個點進(jìn)行精準(zhǔn)的驗收和打回,這樣標(biāo)注員就可以直接對被打回的問題數(shù)據(jù)進(jìn)行修正;澳鵬中國數(shù)據(jù)標(biāo)注平臺的標(biāo)注工具可實現(xiàn)99.9%的準(zhǔn)確率,可達(dá)到5分鐘一張、1秒一幀極速質(zhì)檢,在交互、超大數(shù)據(jù)加載、實時切幀進(jìn)行渲染等方面都達(dá)到了行業(yè)第一。
在澳鵬中國數(shù)據(jù)標(biāo)注工具底層有一個通用的技術(shù)組件,這就是模板引擎。開發(fā)模板引擎的目的,在于澳鵬是一家綜合數(shù)據(jù)服務(wù)提供商,支持多家客戶并行并發(fā)多種標(biāo)注任務(wù),因此通過模板引擎讓內(nèi)部團(tuán)隊可以簡單編寫腳本代碼后就能定制化不同標(biāo)注工具,以支持不同客戶的不同標(biāo)注任務(wù)。
澳鵬中國數(shù)據(jù)標(biāo)注平臺也可以被私有化部署到企業(yè)內(nèi)部,因此對于企業(yè)客戶來說,該平臺還提供了多種企業(yè)級能力,包括靈活的工作流配置、多資源組合管理、多種部署方式等。在靈活的工作流配置方面,企業(yè)的項目經(jīng)理通過選項勾選,就可以靈活配置不同的工作流,實現(xiàn)不同的數(shù)據(jù)流轉(zhuǎn)策略和流程。例如,有的文本標(biāo)注項目,單條數(shù)據(jù)處理的速度非??欤涂梢耘渲脼樽寴?biāo)注員一次領(lǐng)取多條數(shù)據(jù);有的翻譯標(biāo)注項目,當(dāng)標(biāo)注時出現(xiàn)錯別字時,就可以配置為質(zhì)檢員直接修改而無須打回,這樣就避免了反復(fù)提交數(shù)據(jù)的時間浪費;而對于3D點云標(biāo)注項目,一條圖像數(shù)據(jù)可達(dá)300多幀,標(biāo)注時間不僅非常長而且需要處理完成后馬上提交質(zhì)檢以及及時修正問題。
在多資源組合管理方面,澳鵬中國數(shù)據(jù)標(biāo)注平臺可以讓企業(yè)同時配置管理內(nèi)部的標(biāo)注團(tuán)隊和外部的供應(yīng)商及眾包資源。在多種部署方式方面,澳鵬中國數(shù)據(jù)標(biāo)注平臺支持SaaS、私有化部署、混合云方式等,可實現(xiàn)從標(biāo)注員向客戶提交數(shù)據(jù)文件全程不經(jīng)由澳鵬中國的服務(wù)器,通過物理切割而最大限度保障企業(yè)數(shù)據(jù)的隱私與安全。澳鵬中國數(shù)據(jù)標(biāo)注平臺還支持白名單、后臺日志審計等運營方式,從而在大幅縮減企業(yè)服務(wù)器運營成本的同時,加速項目上線時間,達(dá)到兼顧安全與效率的項目運營優(yōu)化。
張童皓強(qiáng)調(diào)澳鵬中國數(shù)據(jù)標(biāo)注平臺作為國產(chǎn)自研的數(shù)據(jù)標(biāo)注平臺,還研發(fā)了很多獨有的數(shù)據(jù)標(biāo)注能力,包括3D點云車道線自動識別、專業(yè)的ASR智能語音識別引擎、AI輔助標(biāo)注等,不僅克服了行業(yè)中的難點和挑戰(zhàn),還大幅提升了標(biāo)注和審核的效率和生產(chǎn)力。作為一家服務(wù)于AI產(chǎn)業(yè)和項目的數(shù)據(jù)服務(wù)商,澳鵬在AI倫理道德、法規(guī)遵從等方面都有專門的策略、技術(shù)和管理機(jī)制,確保客戶的項目在最大程度上避免這些方面的問題。
總結(jié)而言:以澳鵬為代表的專業(yè)數(shù)據(jù)標(biāo)注服務(wù)商及其國產(chǎn)自研專業(yè)數(shù)據(jù)標(biāo)注平臺,是AI工業(yè)化的一大標(biāo)志。這代表了AI數(shù)據(jù)標(biāo)注服務(wù)正從簡單的勞動力密集型向?qū)I(yè)數(shù)據(jù)服務(wù)和工業(yè)化組織過渡,而高質(zhì)量、大規(guī)模、多樣化的標(biāo)注數(shù)據(jù)及其工業(yè)化生產(chǎn),將進(jìn)一步推動AI工業(yè)化的早日到來。屆時,AI技術(shù)無疑將更廣泛和更深刻的影響社會與經(jīng)濟(jì)發(fā)展。
《人工智能與機(jī)器學(xué)習(xí)現(xiàn)狀》白皮書
更多詳情,請至澳鵬Appen官網(wǎng)下載。
(*作者:云科技時代 吳寧川, 原文鏈接:https://mp.weixin.qq.com/s/9p2klq-VMOg_Iw1QOMBsGA)