微軟為ASC18世界超算競賽出題，機器閱讀理解將被挑戰(zhàn)

浪潮集團

2018-02-05 19:27 8815

北京2018年2月5日電 /美通社/ -- 1月30日，由亞洲超算協(xié)會和浪潮集團聯(lián)合發(fā)起的ASC世界大學生超級計算機競賽在京正式啟動18賽季（ASC18）。參加ASC18超算競賽的全球300多支隊伍，將在接下來的幾個月里，挑戰(zhàn)一項由微軟出具的極具挑戰(zhàn)性的人工智能賽題——機器閱讀理解。ASC18各參賽隊將使用CNTK深度學習框架，獨立開發(fā)機器閱讀理解和問答的算法模型，使用最新超算技術結合MS MARCO數(shù)據(jù)集進行訓練，以試圖讓機器更準確地回答問題。

讓機器具備自然語言的閱讀理解與問答能力，是人工智能的核心難題之一，也是目前智能語音交互和人機對話的核心難題。一般來說，人們在讀完一篇文章之后能夠很輕而易舉地歸納出文章中的重點內容，例如這篇文章講的是什么人、在什么地點、做了什么事情等。機器閱讀理解的研究就是賦予計算機與人類同等的閱讀能力，即讓計算機閱讀一篇文章，隨后讓計算機解答與文中信息相關的問題。這種對人類而言輕而易舉的能力，對計算機來說卻并非如此。很長一段時間以來，自然語言處理的研究都是基于句子級別的閱讀理解。例如給計算機一句話，理解句子中的主謂賓、定狀補，誰做了何事等，但長文本的理解問題一直是研究的一個難點，因為這涉及到句子之間的連貫、上下文和推理等更高維的研究內容。

現(xiàn)在，包括微軟、卡內基梅隆大學、斯坦福大學在內的頂級人工智能專家和學者們正在研究這項復雜的任務，這一目標若能實現(xiàn)，將意味著當前的弱人工智能向強人工智能邁進了一大步。在前不久的由斯坦福大學發(fā)起的SQuAD（Stanford Question Answering Dataset）文本理解挑戰(zhàn)賽的最新榜單上，微軟亞洲研究院自然語言計算組于2018年1月3日提交的R-NET模型在EM值（Exact Match, 表示預測答案和真實答案完全匹配）上以82.650的較高分領先，并率先超越人類分數(shù)82.304。

而從ASC世界大學生超級計算機競賽已經(jīng)發(fā)布的ASC18賽題可以看到，此次比賽采用的是一個更具難度的機器閱讀理解與問答數(shù)據(jù)集——微軟MS MARCO。這個數(shù)據(jù)集是基于Bing和Cortana上收集的真實數(shù)據(jù)構建的，包括10萬個問題，100萬個段落，以及超過20萬個文件的鏈接。此次ASC18競賽的初賽階段，微軟將提供該數(shù)據(jù)集中的部分數(shù)據(jù)供訓練模型使用。而在決賽階段，微軟將提供一個全新的測試集來供選手們挑戰(zhàn)。同時為了更好的讓大學生入手和了解該賽題，微軟也同時提供基于CNTK的基準代碼和相關論文作為參考。

此次ASC18人工智能賽題評判標準是基于各參賽隊訓練模型的機器閱讀理解回答預測的準確率，這就要求隊員們盡快學習掌握機器閱讀理解與問答的算法特點，并熟練應用CNTK深度學習框架。由于賽題的數(shù)據(jù)集規(guī)模較大，如何充分發(fā)掘利用超算硬件的計算潛力也成為贏得比賽的關鍵。這次ASC18的人工智能賽題要求參賽隊伍自己動手開發(fā)機器閱讀理解的算法模型，運用最新超算技術來加速訓練速度及提高精度，更要用真實的問題數(shù)據(jù)集來驗證模型訓練的成果，這對處于本科階段的大學生參賽選手來說，無疑是一次“超級挑戰(zhàn)”。

ASC世界大學生超級計算機競賽(ASC Student Supercomputer Challenge)是由亞洲超算協(xié)會和浪潮集團聯(lián)合發(fā)起的世界較大規(guī)模的大學生超算競賽，發(fā)韌于2012年，經(jīng)過7年發(fā)展，影響力不斷攀升。迄今為止，ASC 競賽已吸引到全球超過 5500 名年輕人才參與，參賽隊伍總數(shù)超過1100支。

消息來源：浪潮集團