<var id="vpyjs"><label id="vpyjs"></label></var>

    首頁 > 資訊 > 深度

    阿里達摩院出手,超越人類的AI會帶給我們什么?

    2021/08/13 17:11      maomaobear   


      自從2016年Alphago戰勝李世石后,最近幾年全球幾乎所有技術公司,幾乎都投入了AI的競爭之中。我們也很快在我們的日常生活中用上科技公司的AI智能音箱,接觸到AI智能客服,用上AI的人臉識別。

      同時,眾多一流科技公司追求AI技術進步的腳步也從未停歇。2021年8月10日,阿里巴巴達摩院的AliceMind團隊再次刷新全球最權威機器視覺問答榜單VQA(Visual Question Answering) ,并以81.03分的成績讓AI在“讀圖會意”上首次超越人類表現。

    343833c4265a37265aee9f60771e2333.jpg

      AI技術雖然發展很早,但是一度停滯了很多年,一直到新世紀深度神經網絡復興,應用到AlphaGo上擊敗手李世石,AI才開始重新進入快車道。

      AI的機器視覺,是一個非常重要而且有實用性的分支,通過CNN卷積模型,AI在2015年實現了視覺分類超越人類。但是應用到真實世界,AI僅僅識別是不夠的。

      所以,全球計算機視覺頂會CVPR從2015年起連續6年舉辦VQA挑戰賽,聚集微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多世界最強AI研究機構,形成了國際上規模最大、認可度最高的VQA數據集。對AI技術進行攻關。

      VQA測試,是給定一些圖片,然后用自然語言針對圖片中的內容提出問題,讓AI理解自然語言提出的問題,識別圖片,然后正確回答。

      我們看VQA的一道試題,給定下面這張玩具的圖片。然后提出問題。

      What are those toys there for?(這些玩具用在什么地方?)正確答案是Wedding(婚禮)。

      這個問題,對人類來說似乎不太難,但是對AI來說非常大的挑戰。

      整個測試都是各種各樣不同的圖和各種各樣不同的問題,2016年水平的AI,在進行VQA測試的時候,分數都是非?蓱z,被諷刺為人工智障。

      而經過多年的努力,2021年,阿里在這個測試中取得了非常好的成績,這是與微軟、Facebook、百度等一流公司,一流大學,一流研發機構競爭。阿里達摩院取得高分來之不易。

      而且,這也是VQA測試以來,AI第一次超過人類水平,這是標志性的重大成就。

      最近幾年,AI的成果一直在轉化,今天,我們用自然語言可以給阿里的智能音箱下命令,像要求仆人一樣要求智能音箱控制我們中的聯網家電。

      這在短短十年前,都是科幻片的情況。而背后的技術僅僅是一個語音語義識別。

      那么,這次阿里達摩院在VQA這個高難度領域突破,超越人類,又會給我們帶來什么?

      一、皇冠上的明珠

      過去幾年,人類在AI上有很多突破,這些突破主要都是單模的,也就是替代人類一種感官。譬如機器視覺用于人臉識別、物體識別。語音識別用于識別人類語音,判斷語義。這都是依賴于深度神經網絡的發展。

      從DNN(深度神經網絡)到RNN(循環神經網絡),CNN(卷積神經網絡),GAN(生成式對抗網絡)。人類在最近10多年中取得了巨大進步。

      我們用上了智能音箱,普及了基于AI技術的人臉識別,有了能夠交談的AI客服。

      但是,VQA就不同了。VQA是為了解決真實世界復雜問題的。

      VQA給你一幅圖像,一個自然語言描述的問題,讓你用自然語言回答。這個東西是多模的

      首先,讓AI明白VQA所提出問題就是一個高難度的任務。這個屬于自然語言理解。

      人類理解自然語言描述的一個問題,首先要懂語言,譬如一個英文問題,你先得懂英語才行。

      要懂英語,你得學單詞,被語法,了解固定搭配,知道句型。而AI要看懂也得有這個過程。

      對VQA來說,并不是我們普通語言識別看懂就行了,而是要根據圖了解VQA問題的意圖。這個就難了。

      人類除了看懂問題的詞匯,理解句型,還要有一個人類的常識,要有人類的知識學習記憶,要聯想記憶去理解問題。

      對人工智能里說,要理解問題,也需要先認識詞匯,然后理解意圖,還需要搜索知識庫明白問題問的是什么。還要結合影像識別的結果。

      僅僅是正確了解VQA的問題意圖,就是比普通語言識別更困難的任務。而這只是第一步。

      就圖像識別來說,目前人工智能技術已經比較成熟,畢竟2015年在這方面AI已經超過人類,現在已經有類似于產品檢驗機的東西都已經應用到生產之中了,單一物體人工智能識別是什么已經不太難。

      但是對于VQA來說,所提出的問題并不是關于整張圖片的,而是針對圖片中某一個或者某幾個物體的。

      譬如,圖片中有10個人,VQA所提出的問題只與一個人有關,AI要從10個中聚焦到問題相關的人,這就難了。

      人工智能要根據對問題的理解,把把目標物體從復雜影像中聚焦出來,這是高難度。而這還是第二步。

      因為,你正確理解問題意圖,正確聚焦出來還不行,還得根據問題的意思回答,你能夠聚焦出來一幅圖的重點物體是衣服,但是要回答的問題是衣服的文字代表什么球隊。

      這樣你還要做推理,看衣服上什么文字是和球隊相關的,然后再搜索球隊標識的數據回答。還需要一個推理的過程。

      最后,你推理完畢了,還要通過GAN(生成式對抗網絡)產生出自然語言的回答。這才算是完成任務。

      我們現在日常用的AI識別,還屬于感知級別的AI,譬如認個人臉,認個身份證,聽懂語音。而VQA這個已經是認知了,是多種AI技術的綜合,屬于多模態,可以算AI技術皇冠上的明珠之一。

      所以,一開始這類測試,盡管參加者都是世界一流的科技公司,大學,研發機構,但是得分都很低,在50分以下,后來一年年隨著技術和算力的進步逐漸提升。

      今天,阿里已經取得了80多分,超過人類認識的水平,這是非常不容易的。

      二、達摩院的獨門秘籍

      如同我們前面說的,VQA挑戰的核心難點在于,需在單模態精準理解的基礎上,整合多模態的信息進行聯合推理認知,最終實現跨模態理解。

      這相當于人類通過多個認知途徑獲取信息,最后綜合判斷做出結論。

      對于這個挑戰,阿里達摩院的AliceMind團隊,用整合方案對整合問題,對AI視覺-文本推理體系進行了系統性的設計,融合了大量算法創新,作出來一個整體的解決方案,具體包括四個方面:

      一是先把盡可能的提升單模態理解的精度。主要是對圖片識別的精確。阿里從多個方面刻畫圖片的局部和全局的語義信息,同時使用Region,Grid,Patch等視覺特征表示,更清楚的把圖片上的東西都識別清楚了,這樣可以更精準地進行單模態理解。相當于人類在識別物體的時候看得更清楚。為后續打基礎。

      二是做大量多模態預訓練

      阿里達摩院的AliceMind團隊用大數據的海量圖文數據和多粒度視覺特征做多模態預訓練,用于更好地進行多模態信息融合和語義映射,發展出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等預訓練模型。

      這個相當于人類上學學基礎知識,你有了基礎知識,才能對看到的東西做個判斷,古代人不認識汽車,現代人因為學過什么是汽車,所以看到汽車就知道這是汽車。計算機也得學習,多模態的預訓練就是這個學習過程。學習的越多,識別的越準。

      三是研發自適應的跨模態語義融合和對齊技術,創新性地在多模態預訓練模型中加入Learning to Attend機制來進行跨模態信息地高效深度融合。就是說你不能看圖全看,而是要逐漸聚焦到問題相關的東西上面。用這個去做多模態的預訓練。

      四是采用Mixture of Experts (MOE)技術進行知識驅動的多技能AI集成。因為VQA本身是多模態的,人工智能的神經網絡當然不能用一個,也得多個一起來,A神經網絡適合算A,就去算A。B神經網絡適合算B,就去算B。把這些神經網絡集成起來,取得最好的效果。

      至于看懂問題,阿里達摩院前身IDST早在2018年就在斯坦福SQuAD挑戰賽中歷史性地讓機器閱讀理解首次超越人類,轟動全球。2021年阿里的深度語言模型體系AliceMind入選2021 世界人工智能大會最高獎 SAIL 獎 TOP30。VQA無非是把阿里的自然語言理解功力與圖形識別再結合一下,萬變不離其宗。

      所以,阿里能獲得這個成就不是一朝一夕之功,是阿里強大的技術實力多年積累的結果。阿里通過積累的強大技術實力,針對VQA挑戰做系統性的解決方案。利用數據和算力資源,最終實現了超越人類的奇跡。

      實力、創新性方案、資源,這是阿里達摩院的成功秘笈。

      三、超越人類的AI會帶給我們什么

      最近幾年,人類在AI上的每次突破,都會給我們的生活帶來極大的便利。自動駕駛的突破雖然沒有讓無人駕駛普及,但是自動泊車,自動跟車,高速路自動巡航已經非常普及。

      VQA這種多模態的AI應用屬于高級技術,阿里在VQA上技術突破也很快落到了阿里的產品。

      阿里達摩院的對話式AI已經在為淘寶天貓商家服務,已經提供百萬級調用量的VQA看圖問答能力,已經有數萬家商家開通使用店小蜜客服VQA功能。

      客戶提出問題,阿里的AI技術能夠理解客戶的問題,直接從產品網頁圖像中截取相關內容展示給客戶,解決客戶的需求。相當于一個高效人工客服。

      同時,阿里的VQA也已作為中臺能力,拓展至盒馬和考拉客服場景及閑魚的圖文同款匹配場景。用戶可以通過VQA的技術,文字意圖匹配到相關產品。

      當然,這些VQA相關技術的應用僅僅是牛刀小試。

      因為VQA其實并不是一張圖片的識別那么簡單。而是測試性的,未來真正的識別,不是圖片而是現實世界的影像。而解決方案,也未必是語言回答,也可以是控制行動。VQA的技術成熟以后,我們可以通過自然語言,命令AI做事。

      現在你的語音識別只能通過智能音箱控制家電。而未來,是我們給機器人下命令,機器人理解你的語言意圖,然后掃描周邊環境,找到符合你意圖的東西,執行行動。

      譬如,未來有一天,你對這機器人說,給我洗衣服。

      機器人理解你的意圖,然后識別房間內影像,聚焦到臟衣籃這個物體,移動到臟衣籃,然后聚焦到臟衣服這個物體,把臟衣服用機械手拿起來。

      然后再聚焦到洗衣機這個物體,把衣服放進去。邏輯判斷洗衣機如何操作,給你完成洗衣甩干烘干,最后拿出衣服,聚焦到你的衣柜,把衣服放進衣柜整理好。

      整個過程的識別都需要VQA技術基礎,這是VQA技術未來的應用。

      這個技術成熟以后,就會有真正的AI時代,人類大量厭惡性工作可以讓AI替代,人類聚焦精力于創造。這才是AI應該給我們的未來。

      當然,這個過程是漸進的,阿里超越人類的AI技術會先從細微專用領域開始,慢慢替代。而阿里一方面會在這種替代中獲得豐厚的經濟回報,一方面也會不斷迭代技術,提升水平,引領AI科技。

      榜單收錄、高管收錄、融資收錄、活動收錄可發送郵件至news#citmt,cn(把#換成@)。

    相關閱讀

    伊人久久大香线蕉亚洲五月天,国内大量揄拍人妻在线视频,japonensisjava水多多,相亲第一天就日了她