http://007sbw.cn 2011-02-21 11:54 來源:中國計算機報
深藍余波未盡,沃森熱浪又起。超級計算機系統(tǒng)再次與人類對決,究竟誰能獲勝?剛剛結(jié)束的美國智力競賽節(jié)目《危險邊緣》的人機對戰(zhàn)中,IBM超級計算機系統(tǒng)沃森戰(zhàn)勝了人類冠軍!沃森是20多名IBM研究人員4年心血的結(jié)晶,正是他們突破性地給予了沃森理解自然語言和精確回答問題的能力,才將人工智能推向新的階段。 所以,盡管沃森取得了比賽的勝利,但是人類才是最終的智者。
“在20年前,可能所有人都會認為機器在智力問答中戰(zhàn)勝人類是不可能的。”圖靈獎獲得者、斯坦福大學人工智能專家Edward Feigenbaum就曾發(fā)出這樣的感嘆。但是,今天它變成了現(xiàn)實!
在美國家喻戶曉的電視智力競賽節(jié)目《危險邊緣( Jeopardy!)》中,IBM超級計算機系統(tǒng)沃森(WATSON)在北京時間2月17日上午戰(zhàn)勝了該節(jié)目有史以來最優(yōu)秀的兩位人類冠軍Ken和Brad,圓滿結(jié)束了這場歷時三天的人機大戰(zhàn)。
相較1997年人機大戰(zhàn)第一役中的主角深藍,沃森可謂是另一個里程碑式的超級計算機系統(tǒng)。和它的前輩相比,沃森的計算能力已不可同日而語,更大 的差異還在于它們所應(yīng)對的算法挑戰(zhàn)。第一次人機大戰(zhàn),深藍對國際象棋的精熟曾讓世人震驚,因為國際象棋定義明確,主要涉及數(shù)學方面的處理能力,計算機可以 輕易計算每一個游戲狀態(tài)及相應(yīng)步驟。然而,《危險邊緣》節(jié)目中的智力問答,則要求計算機必須理解人類的語言。與國際象棋不同,人類語言是完全開放式的,往 往模棱兩可,需要上下文才能理解其意思。雖然IBM的研究人員可以輕松理解人類語言,但開發(fā)理解人類語言的超級計算機系統(tǒng)卻極具挑戰(zhàn)性。
盡管存儲了大量的百科全書和其他信息,但《危險邊緣》的問題并不會讓沃森輕易地找到答案,因為尋找答案從來不是計算機的強項。搜索引擎沒法回答 問題,只能給出符合搜索關(guān)鍵詞的成千上萬個似是而非的可能答案,而沃森要通過各種不同的算法對所有的候選答案取得更多的證據(jù)支持,再根據(jù)證據(jù)的強度對每個 候選答案給出其置信度,最后根據(jù)置信度來決定是否向用戶提供置信度最高的唯一答案。這一過程是極其復(fù)雜的,因此需要動用幾千個處理器的超級計算機來處理一 個問題。
沃森需要掌握大量的知識,并在相關(guān)和不相關(guān)的信息中發(fā)現(xiàn)線索。對計算機來說,這是一個巨大的挑戰(zhàn)。因為人類可以在瞬間辨別出事物之間的聯(lián)系,但是電腦卻必須并行地考慮所有事情,從而得出結(jié)論。
這次人機大戰(zhàn),沃森勝利了。這意味著IBM掌握了對人類信息需求和問題給予更準確響應(yīng)的技術(shù)能力,并預(yù)見到了這個領(lǐng)域存在巨大商機。這項成果還 將被廣泛應(yīng)用于多個領(lǐng)域,例如更快、更準確地進行醫(yī)療診斷,研究潛在的藥物交互作用,幫助律師和法官尋找案例,在金融領(lǐng)域?qū)崿F(xiàn)“假設(shè)”場景分析和法規(guī)遵 從,幫助公司培養(yǎng)更精明的銷售人員……沃森的出現(xiàn),顛覆了此前簡單的人機關(guān)系,并將帶來一個嶄新的人機合作時代。
沃森善思
盡管IBM沃森項目語義分析部門負責人David Ferrucci表示:“我們的目標并不是模擬人類大腦,而在于開發(fā)一臺能更好地理解并通過語言與用戶交流的計算機,它理解和交流的方式并不需要與人一 樣。”不過,我們?nèi)匀幌M牢稚降资侨绾嗡伎紗栴}的,它思考問題的過程和人類有什么區(qū)別?
沃森首先要理解問題。一個問題可能有多種理解,沃森會針對不同的理解,在存儲的信息里尋找可能的答案;而這又會得到多個答案,對于每個答案,沃 森需要研究相應(yīng)的證據(jù);因為證據(jù)的數(shù)量是龐大的,所以沃森需要為所有的答案根據(jù)其證據(jù)的關(guān)聯(lián)強度進行比較和排除;最后,根據(jù)其答案的信心級別決定是否向外 提供答案。
最了不起的是,沃森是一個能夠與人類回答問題的能力相匹敵的超級計算機系統(tǒng),具有足夠的速度、精確度和可信度,并且能使用自然語言回答問題。而 對人類自然語言的理解,也是超級計算機系統(tǒng)所要解決的核心問題,特別是如何更快地利用各種非結(jié)構(gòu)化和結(jié)構(gòu)化的知識來幫助其進行自然語言的理解。這其中涉及 到語義分析處理、計算機自學習能力、大規(guī)模并行計算等多個領(lǐng)域,IBM把這些技術(shù)整合在一個體系架構(gòu)下,幫助沃森來應(yīng)對自然語言理解的巨大挑戰(zhàn)。
理解自然語言
沃森的問世與三大領(lǐng)域的進步密不可分:計算機自然語言的進步、巨大的計算能力、海量的數(shù)字化全球信息。
沃森的第一大突破正是,在回答以自然語言提出的針對各個知識領(lǐng)域的問題方面取得的巨大成功。自然語言是人類實際使用的語言,包含雙關(guān)語、俚語、 行話、縮寫,甚至在錯誤語境中使用的詞匯。計算機非常擅于計算,但是自然語言具有模糊、與語境高度相關(guān)、模棱兩可,甚至不嚴密等特點,特別是《危險邊緣》 節(jié)目的設(shè)計,向IBM研究人員提出了更大的挑戰(zhàn)。這項比賽的題目涉及各個知識領(lǐng)域,需要分析人類語言中微妙的含義、諷刺口吻、謎語等,這些通常是人類擅長 的方面,而計算機對此則毫無優(yōu)勢。沃森的DeepQA(深度開放域問答系統(tǒng))采用突破性分析技術(shù),能夠理解問題的內(nèi)容,分析海量的信息,然后根據(jù)它找到的 證據(jù),給出最佳答案。
精確回答問題
沃森的第二大突破在于,它通過高級分析技術(shù)對信息需求和問題給予更準確的響應(yīng)。在《危險邊緣》的比賽中,有一個問題是“一種出現(xiàn)在14世紀的有色彩的瘟疫,后被阿瑟·米勒改寫成了著名戲劇”,其正確答案應(yīng)該是《推銷員之死》。
當沃森被問到一個問題的時候,數(shù)百種算法會通過不同的方式對問題進行分析,并給出可能的答案以及選擇它們的證據(jù),而這些分析都是同步進行的。對 于每個候選答案,沃森都會找出支持以及反對這個答案的證據(jù)。因此,這上百個答案中的每一個又都會有數(shù)百條證據(jù),然后由數(shù)百種算法對這些證據(jù)支持答案的程度 進行評估。證據(jù)評估的結(jié)果越好,置信度也就越高,其中置信度最高的一個答案會最終成為被沃森挑中的答案。在比賽中,如果置信度最高的答案沒有達到或超過閥 值,它可能會根據(jù)情況決定不進行搶答,以免輸?shù)舄劷稹_@所有的一切計算、選擇與決策,都必須在三秒鐘之內(nèi)完成。
中國團隊的分析力量
值得一提的是,在研制沃森的全球團隊中,IBM中國研究院的團隊也是重要的力量。IBM美國總部的研究團隊主要研究如何利用非結(jié)構(gòu)化知識源來進 行統(tǒng)計和分析,破解對人類語言進行理解的難題。但是,研究人員對從非結(jié)構(gòu)化知識源中所獲得知識的準確性和可靠性,通常很難把握,而結(jié)構(gòu)化知識源則能夠提供 一個互補的幫助。中國團隊的任務(wù)之一,就是盡可能利用結(jié)構(gòu)化的知識來幫助沃森回答問題,更準確地評估答案的可靠性。
IBM研究院沃森團隊的高級經(jīng)理潘越表示:“在計算機科學和人工智能領(lǐng)域,即使是針對一個固定結(jié)構(gòu)的完全可靠的知識,如何用它來回答自然語言的 提問也仍然是一個難題。”最重要的是,如何理解問題,并在大量的結(jié)構(gòu)化知識中根據(jù)問題定位答案并評估其可靠性。其中一個重要的內(nèi)容就是評估答案的類型與問 題所問的類型是否匹配,這樣就可以幫助沃森排除那些“愚蠢”的答案。。
但是,這種類型的排斥和重疊不是絕對的。例如,問:鄧布利多教授的哪個學生打敗了伏地魔?問題所問的類型是“學生”。這就需要評估“哈利·波 特”是“學生”類型的可靠性。這對人來說輕而易舉,而對于計算機來說就需要在各種結(jié)構(gòu)化知識中進行匹配。例如,在電影數(shù)據(jù)庫中會發(fā)現(xiàn),這是電影名稱也是角 色名稱;在小說數(shù)據(jù)庫中會發(fā)現(xiàn),這是小說名稱;可是很難找到一個列有世界上所有學生名稱的數(shù)據(jù)庫。因此在結(jié)構(gòu)化知識中,“哈利·波特”的類型不包括“學 生”。在這種困難的情況下,算法一方面要避免給沃森錯誤的信號,另外一方面,甚至要告訴沃森結(jié)構(gòu)化知識不排除“哈利·波特”是“學生”的可能,因為“角 色”類型和“學生”類型是有重疊的。
神秘的自學習能力
對人類來講,最重要的是大腦儲存的知識,而對計算機而言,就是后臺的數(shù)據(jù)庫了。如果沃森可以像人類一樣具有自我學習的能力,也能通過讀書、看報、瀏覽互聯(lián)網(wǎng)獲得新的知識,那么計算機將變得更加智能。
對計算機自我學習能力的研究,是計算機科學和人工智能領(lǐng)域的一個重要課題。令人驚喜的是,沃森目前已經(jīng)具備了一定的學習能力?!段kU邊緣》節(jié)目 的“粉絲”創(chuàng)建和維護了大量的關(guān)于該節(jié)目的數(shù)據(jù),其中就包括所有往期節(jié)目的問題和答案。如何讓沃森從往期節(jié)目的問題和答案中學習提高,是研發(fā)過程中的一個 關(guān)鍵。
據(jù)潘越介紹,每次沃森在分析和解答往期問題時,都會產(chǎn)生大量的數(shù)據(jù)。有的時候,一次實驗就會產(chǎn)生幾百GB的數(shù)據(jù),中國團隊試驗和研究了各種不同 的數(shù)學模型和方法,并把它們應(yīng)用到實際數(shù)據(jù)中。其中,中國團隊關(guān)于“兩階段”的學習方法被證明十分有效,全球團隊還把這一方法擴展成復(fù)雜的多階段學習,應(yīng) 用在沃森項目中,極大地提高了它的學習能力。
不過,目前沃森還是得依靠專家來決定收錄何種信息源,因為互聯(lián)網(wǎng)具有海量的信息,這些信息源良莠不齊,信息的完整性和可靠度也很難保證。目前沃 森還沒有自動評估信息源可靠度的能力,而是依靠專家來決定收錄何種信息源,當然這也是因為涉及到信息源的版權(quán)問題。IBM研究人員期望,將來沃森可以根據(jù) 問題的類型,來自動評估信息源的相關(guān)度和可靠度,從而自己決定是否收錄。這樣將它連入互聯(lián)網(wǎng),就可以很快更新知識,提高解決問題的能力。
沃森其“人”
雖然沃森能在智力問答中挑戰(zhàn)人類,但它與人類依舊有很多區(qū)別。不妨讓我們看看,超級計算機系統(tǒng)和人類相比的優(yōu)劣勢。
性格激進
和人類相比,沃森最缺少的是什么?毫無疑問是人類特有的性格要素和情感。如果非要沃森有所表示,只能看到它在比賽過程中,一直在動態(tài)變化的圖 表。觀眾可以從中看到沃森對答案的自信程度,數(shù)字閾值將決定它是否回答問題。環(huán)繞中央核心的彩線和思維射線在不停根據(jù)游戲過程中發(fā)生的情況,改變顏色和變 換速度。例如,當沃森覺得對答案充滿信心,射線會變?yōu)榫G色;答錯時,射線則會變?yōu)槌燃t色,這也許可以代表沃森“臉紅了”。當沃森回答某個問題時,觀眾會看 到圖表動畫的速度明顯加快,表明它正在努力思考。
從某種角度講,沃森也有自己的“性格”。它回答問題的聲音是頗具磁性的男士嗓音,在面對不同獎金選擇題目的分值時,它的行為表現(xiàn)也和普通人不 同,沃森的戰(zhàn)術(shù)相當激進。比如,它一開始可能就會選擇獎金數(shù)額較大的問題,因為它毫無人類的心理壓力,而且這樣還會給它的人類對手帶來更大的壓力。
膽大心細
雖然沃森的戰(zhàn)術(shù)激進,但它卻從不魯莽行事。這是因為,在IBM沃森項目組中,專門有策略團隊負責研究博弈與投注策略?!段kU邊緣》的游戲規(guī)則相 當復(fù)雜,例如組別不同、問題分值不同,答錯要扣分,有的問題可以讓現(xiàn)有分值雙倍增加,而最后一個問題則可自行投注,最高可與現(xiàn)有分值相等,可謂步步驚險, 翻盤機會甚多。比如進行到?jīng)Q賽的最后一題需要自行投注時,由于沃森已經(jīng)領(lǐng)先兩名人類選手較高分值,所以它就“膽小”地選擇了很小的投注額,恰好這個問題它 回答錯誤,扣分后也未能影響比賽結(jié)果。又如,一般情況下,沃森只搶答結(jié)果高于信息級別閥值的問題,但是當比分落后的情況下,它也會“大膽”回答信心級別低 的問題。在第二天的比賽中就有這樣一個問題:
問:2003年這個古老的“Lion of Nimrud”在這個城市的國家博物館被偷,一起丟失的還有很多其他東西。(文化組別題,還是復(fù)式下注題)
答:巴格達。(這就是正確答案)
點評:此題沃森答案的置信度只有32%,但由于得分并不領(lǐng)先,所以它還是搶答了這道題?;ヂ?lián)網(wǎng)中關(guān)于“Lion of Nimrud”(象牙浮雕藝術(shù)品)只有很少的網(wǎng)頁提及,而包含正確答案巴格達的網(wǎng)頁則更少。沃森在沒有聯(lián)網(wǎng)的情況下,居然根據(jù)很少的信息準確找到了答案, 得到了讓人驚喜的結(jié)果。
由此可見,沃森確實“膽大心細”。精確的計算為沃森取得勝利提供了重要的策略支持,而人類選手基本不可能在短時間內(nèi)綜合計算出精確投注分數(shù)。
[page_break]
語文欠佳
沃森在語義理解上相比其他計算機獲得了重大突破,它能夠處理很多難題,如具有雙關(guān)語的問題和字謎類的問題等。但是,這個聰明的機器,依舊無法與人類相比,因為人類的語言天賦是與生俱來的。
沃森的短板在于對語義的理解上,尤其是在《危險邊緣》這樣復(fù)雜的智力比賽中,與語言相關(guān)的問題,它回答的準確度遠比不上其他組別的問題。比如,沃森在第一天的比賽中,就一連答錯了數(shù)個與語言有關(guān)的問題。
問:來自拉丁語,意思是“end”,火車也可以從這里出發(fā)。
答:finis(正確答案是英文單詞terminal)
點評:問題里面包含了多條線索,沃森只能利用拉丁語“end”這條線索,而起到關(guān)鍵性作用的“火車也可以從這里出發(fā)”卻沒有用到,沃森把帶雙引號的詞作為更重要的線索了。
“聾盲”沃森
沃森在功能上聽不到、看不見,它不能回答以往《危險邊緣》中以音頻或視頻呈現(xiàn)的問題,為此在沃森參與的游戲中這些都被放棄了。特別是與人類的主觀體驗相關(guān)的問題,沃森還難以應(yīng)對。在第一場的題目中就有這樣一題:
問:這是生理的奇觀,1904年,美國體操運動員George Eyser贏得了雙杠的金牌。
答:腿。(正確答案是他少了一條腿)
點評:這是一道最高獎金1000美元的問題。Ken搶到了第一次,但“他只有一支手”的答案是錯的。沃森搶到了第二次,回答的是“腿”,但卻不 是“少了一條腿”。因為“奇聞”是一個比較主觀的詞,對于缺少主觀意識的計算機來說,理解奇聞的確切意義是不容易的。他不僅需要知道Eyser少了一條 腿,還需要知道這是一件奇聞,這是很困難的。
沃森闖關(guān)
圖靈測試,這是人工智能之父——阿蘭·圖靈在1950年的著名論文《機器能思考嗎》中,提出的一種測試計算機人工智能的方法。這篇論文第一次提 出“機器思維”的概念,并提出一個假想:即一個人在不接觸對方的情況下,通過一種特殊的方式,和對方進行一系列的問答,如果在相當長的時間內(nèi),他無法根據(jù) 這些問題判斷對方是人還是計算機,那么就可以認為這個計算機具有同人類相當?shù)闹橇ΑN稚A得了比賽勝利,它能通過圖靈測試嗎?答案就在《危險邊緣》決賽的 智力問答中。
問:第一個現(xiàn)代的填字游戲發(fā)布&奧利奧餅干出現(xiàn)。(年代類別題)
答:1920年。(正確答案是1910年)
點評:其實,Ken第一次搶答的答案就是1920年,主持人已經(jīng)表示錯誤,這樣沃森才獲得了再次搶答的機會,但它居然又把錯誤答案重復(fù)了一遍。 對人類來說,這是不可能出現(xiàn)的情況。但由于IBM研究人員在設(shè)計沃森的時候,認為分析對手的錯誤答案是沒有必要的,所以沃森不能“聽到”或“看到”Ken 之前的錯誤答案,導(dǎo)致它出現(xiàn)了這樣的低級錯誤。難怪沃森回答問題的時候總是“旁若無人”。
問:彭布羅克學院和伊曼紐爾學院的小禮堂是這個建筑師設(shè)計的。(劍橋類別題)
答:克里斯托弗·雷恩。(這就是正確答案)
點評:答案本身并無可非議,關(guān)鍵在于這是一個可以復(fù)式下注的題目。不同于人類的是,沃森下的賭注是6435美元,以至于現(xiàn)場的觀眾都笑了起來。 要知道,人類下注一般更喜歡用整數(shù),很少精確到個位,而沃森則使用了一個數(shù)學模型來計算如何冒最小的風險獲得最大的收益。這也體現(xiàn)了計算機和人類的不同。
問:這座城市的最大機場是以二戰(zhàn)中一個英雄的名字命名的,而它的第二大機場則是以二戰(zhàn)中一場戰(zhàn)役的名稱命名的。(美國城市類別題。是第一場比賽的《最終危險邊緣》題目,不少選手可以借助這樣的賽點翻盤)。
答:多倫多。(正確答案是芝加哥,多倫多是加拿大城市)
點評:沃森給出了一個可笑的答案,以致主持人在第二場比賽的開場白中打趣地說道:“感謝沃森讓多倫多加入到了美國城市的行列。”引起現(xiàn)場一片笑聲。的確,在美國民眾看來,這是一般人類不會出現(xiàn)的常識性錯誤。
IBM研發(fā)人員分析認為,沃森答錯有以下幾點原因:第一,這道題在美國城市類別中,而題目本身并沒有提到美國城市一詞?!段kU邊緣》的類別經(jīng)常 不能給任何提示,因此IBM研究人員將其作為重要性很低的線索,但恰恰這道題中類別是重要的限制條件;第二,也許只有沃森知道,美國的確有叫多倫多的地 方,還不止一個,只不過沒有大到有機場的地步,但這成了沃森答題的“噪音信息”;第三,沃森也沒有找到足夠的證據(jù)將城市機場和二戰(zhàn)關(guān)聯(lián)起來。
由此可見,雖然沃森在比賽中獲勝,并以大比分超出人類冠軍;雖然沃森可以接受人類自然語言,并能夠用磁性的男聲搶答問題,但是它仍然會犯人類認為很簡單的錯誤。
鏈接
真正的沃森
IBM超級計算機系統(tǒng)"沃森"以 IBM 創(chuàng)始人 Thomas J. Watson 的姓氏命名。雖然在比賽中它以"智慧地球"的形象出現(xiàn)在舞臺上,但舞臺背后的機房中,擁有多個龐大的機身的設(shè)備才是沃森的本來"面目"。
它通過 10 臺由 IBM POWER7 系統(tǒng)組成的冰箱大小的機架提供動力,運行 Linux 操作系統(tǒng),包含 15 TB 內(nèi)存和 2880 個處理器內(nèi)核,運行速度高達 80 Teraflops,即每秒執(zhí)行 80 萬億次浮點計算。沃森能夠快速回答棘手的問題完全得益于采用了 IBM POWER 7 系統(tǒng)作為分析引擎。POWER7 系統(tǒng)經(jīng)過專門的工作負載優(yōu)化,能夠同時處理大量信息并且運行數(shù)千個分析任務(wù),以便跟上參賽者的速度,通過分析微妙的含義、諷刺口吻、謎語等理解線索并提供 準確的答案。沃森能夠在不到三秒鐘的時間內(nèi)研讀存儲在內(nèi)存中的約 2 億頁自然語言內(nèi)容(相當于100萬本書),并找到問題的確切答案。
為什么還是IBM?
1997年IBM深藍戰(zhàn)勝卡斯帕羅夫,2011年IBM沃森贏得《危險邊緣》大賽,這并非偶然。從上個世紀40年代到80年代,人工智能曾一度 被認為是未來計算機的制高點,無數(shù)專家學者投入其中,但始終沒有獲得突破。在漫長的低潮期中,多數(shù)商業(yè)公司停止了對人工智能的研究,但IBM卻是少數(shù)堅持 投入的企業(yè)之一。
它還是一家專注未來20 年創(chuàng)新的公司,每年都要投入約 60 億美元用于研發(fā)和聘請全球頂級研究人員。在分析能力方面,IBM在過去 4 年投資超過 110 億美元,進行了20 余次收購;超過200名IBM研究院的數(shù)學家在專門從事分析工作;迄今為止,IBM 已收到近500項與分析相關(guān)的專利。分析能力正是沃森核心的DeepQA所需的技術(shù)基礎(chǔ)。IBM預(yù)計在 2015 年之前將在業(yè)務(wù)分析及優(yōu)化方面創(chuàng)造160 億美元的收入,此次“沃森”的成功無疑將為IBM回報更多的社會和商業(yè)價值。