吳恩達發(fā)文將在4月底離職百度。幾乎在同一時間,百度也宣布進一步深度整合,將包括NLP、KG、IDL、Speech、Big Data等在內(nèi)的百度核心技術(shù),組成百度AI技術(shù)平臺體系(AIG),并任命百度副總裁王海峰為AI技術(shù)平臺體系(AIG)總負責人,同時晉升為Estaff成員,轉(zhuǎn)向百度集團總裁和首席運營官陸奇匯報。
王海峰是自然語言處理領(lǐng)域的權(quán)威科學家,是該領(lǐng)域最具影響力的國際學術(shù)組織ACL 50多年歷史上唯一出任主席(President)的華人,同時也是截至目前最年輕的ACL Fellow,也是唯一來自中國大陸的ACL Fellow。此外,王海峰博士還是中文信息學會理事、中文信息學報編委、中國計算機學會(CCF)高級會員、國家自然科學基金委員項目評審會評審專家組成員。此前,雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))也整理過王海峰博士在AAAI2017上的演講《深度 | 百度副總裁王海峰:百度在NLP領(lǐng)域都做了什么?》。NLP (Natural Language Processing自然語言處理) 是人工智能(AI)的一個子領(lǐng)域。
王海峰博士出席的媒體活動不多,但在Quora上比較活躍。雷鋒網(wǎng)根據(jù)王海峰博士在Quora上的五個精華問答整理成本文。
1、從一名科學家轉(zhuǎn)變?yōu)橐粋€IT公司的總裁,你如何看待這種職業(yè)變化?
我對技術(shù)感到著迷,并樂于沉浸在研究工作里。我始終相信,科技能夠改變世界。百度為我提供了一個理想的平臺,在這里我從事的技術(shù)工作可以快速直接地讓用戶受益。這就是我一開始加入百度的原因。在百度最初的幾年時間里,我領(lǐng)導了NLP、語音、圖像、數(shù)據(jù)挖掘、知識圖譜、機器學習、深度學習等多個團隊。后來,我意識到偉大的產(chǎn)品將會連接技術(shù)與廣大用戶,反過來也會更加促進技術(shù)進步。偉大的產(chǎn)品,不僅需要先進的技術(shù),還需要杰出的設計、優(yōu)秀的營銷和高效管理。因此我漸漸改變了自身的角色,從一個單純的研發(fā)團隊負責人,轉(zhuǎn)變?yōu)楣芾韺拥囊粏T。我如今領(lǐng)導的團隊有3000多人,包括技術(shù)、產(chǎn)品和營銷成員,他們都很年輕、精力充沛、富有激情。我們擁有著一個共同目標:用技術(shù)和產(chǎn)品改變大眾日常生活。
當掌管一個大型商業(yè)團隊的時候,我需要首先制定策略和目標,然后建立一個合適的執(zhí)行團隊。對于一個大型團隊來說,良好的規(guī)則和文化,開始成為支撐和保證業(yè)務運行的重要因素。與此同時,對于科技領(lǐng)域的重大突破、用戶需求的演變,以及整個社會的發(fā)展趨勢,我都保持極大的關(guān)注。
2、未來5-10年,NLP領(lǐng)域?qū)惺裁催M展?
機器翻譯、語義理解、問答和對話技術(shù)將會有重大突破。這些技術(shù)將會被廣泛應用,并最終改變?nèi)伺c計算機、人與各種硬件設備、以及人與人之間的溝通方式。
這些技術(shù)的發(fā)展將得益于以下四個領(lǐng)域的發(fā)展:大數(shù)據(jù)、學習機制、知識圖譜、推理和規(guī)劃。
大數(shù)據(jù)。隨著互聯(lián)網(wǎng)的繁榮,數(shù)據(jù)量和種類都在高速增長。即便是非常傳統(tǒng)的商業(yè)領(lǐng)域,都在開始把數(shù)據(jù)放到網(wǎng)上。一切都在網(wǎng)上進行,一切都在互聯(lián)。大數(shù)據(jù)的價值將繼續(xù)在物聯(lián)網(wǎng)領(lǐng)域增長。
學習機制。學習機制的發(fā)展將會持續(xù)進行,這使得我們能從大數(shù)據(jù)中學習更多的東西。
知識圖譜。通過大數(shù)據(jù)和更多強大的學習機制,我們可以打造更大的知識圖譜,來對整個世界進行建模。
推理和規(guī)劃。通過大型知識圖譜,我們可以在推理和規(guī)劃領(lǐng)域取得突破。推理和規(guī)劃的能力將會把更多智能注入NLP系統(tǒng)中。
3、在NLP領(lǐng)域,中文和英文的主要區(qū)別是什么?
從語言學上來說, 中文與英文有很大不同。中文書面文本單詞之間是沒有空間的,中文的語法關(guān)系是通過單詞的順序來表達的。這些因素增加了中文在詞匯、語法和語義層次上的模糊性,因為現(xiàn)代語言概念和原則更適用于英文,而非中文。
目前,主流NLP方法都是語言無關(guān)性(language-independent)的。這些統(tǒng)計學或神經(jīng)網(wǎng)絡算法,根據(jù)不同的應用,都更進一步優(yōu)化了特定語言 。
比如,在2015年5月,百度發(fā)布了第一個大型在線神經(jīng)機器翻譯系統(tǒng)?;A(chǔ)的NMT模型就是語言無關(guān)的,并輸出了非常好的翻譯結(jié)果。為了進一步改善翻譯性能,我們使用特定語言特征優(yōu)化了翻譯系統(tǒng)。
4、NLP技術(shù)如何應用于百度產(chǎn)品里?
在百度,我們開發(fā)出很多NLP技術(shù),包括知識圖譜、語義理解、內(nèi)容標注、情感分析、生成、摘要、問答、機器翻譯和對話系統(tǒng)等等。這些技術(shù)已經(jīng)應用于許多百度的產(chǎn)品里,比如搜索、新聞流(news feed)和智能助理,每天為數(shù)億用戶服務。我們將以上這些技術(shù)通通整合進一個名為NLP Cloud的平臺中。
NLP Cloud提供20多種NLP模塊和方案,服務于百度產(chǎn)品。我們的NLP Cloud服務每天被調(diào)用1千多億次。
以搜索為例,典型的NLP模塊,比如切詞、命名實體識別、語法分析、釋義都是基本特征。這些模塊一直在持續(xù)優(yōu)化并取得突破。另一個典型的NLP技術(shù)應用案例就是問答系統(tǒng)。一個高性能的問答系統(tǒng)需要對查詢語句進行精準的語義分析,構(gòu)建覆蓋面廣的知識圖譜,同時對網(wǎng)頁搜索結(jié)果進行全面分析。當用戶在搜索框輸入查詢語句時,搜索引擎能夠立馬提供答案。很多用戶也使用搜索引擎來查詢相關(guān)性高的信息,幫助做決策。這種情況下,情感分析(也稱觀點挖掘)技術(shù)可以幫助提取多種備選觀點,并將聚合的信息提供給用戶。
另一個案例就是新聞流,這個領(lǐng)域文章質(zhì)量是極其重要的。NLP技術(shù)可以幫助檢測各種垃圾文章,比如謠言、抄襲等等;而文本分析技術(shù)可以幫助識別高質(zhì)量文章,并生成最能夠描述該文章的標簽。此外,從不同維度描述用戶偏好的“用戶模型”也十分依賴于NLP技術(shù)。
總而言之,在所有跟自然語言相關(guān)的產(chǎn)品里,NLP技術(shù)都是不可或缺的。
5、在未來10年,搜索引擎將會如何演變?
今天當我們談及搜索引擎的時候,首先想到的就是搜索框和搜索結(jié)果。而未來的搜索引擎將會是什么樣子呢?我們并沒有確切答案。但是我們樂于擁有更強大的搜索引擎,讓我們在不同的場景、不同的產(chǎn)品或不同的交互界面里,能夠看見、聽見和感受到。搜索,將會無處不在。
第一點,更深入理解用戶的意圖、更深入理解內(nèi)容,并將兩者更精準地進行匹配,這將會使搜索引擎更為強大。用戶的意圖理解并不是依賴于單一查詢語句,也還依賴于更廣泛的搜索語境,包括查詢session、時間、地點、設備以及用戶性格特征。另一方面,內(nèi)容理解涉及的范圍也非常廣,需要更好地理解每一部分內(nèi)容的語義、語境、觀點,以及從內(nèi)容中提取的知識。意圖與內(nèi)容的匹配,將會涉及到以上提到的所有因素,使得在任何一個特定語境下,為每一個查詢提供最好的結(jié)果。此外,搜索引擎將會變得更像一個“回答引擎”和“執(zhí)行引擎”。大部分用戶的查詢,將會得到直接的回答或執(zhí)行。
第二點,搜索交互界面將會發(fā)生很多新變化。除了鍵盤以外,其它輸入方式,比如聲音和圖像,將會越來越廣泛地使用。伴隨更實際的語音和圖像等技術(shù),用戶會十分青睞高效和便利的多模式搜索。特別地,自然語言交互將會成為搜索引擎的主流交互方式。用戶可以跟搜索引擎“對話”,告訴它自己想要什么,這絕對比現(xiàn)有的鍵盤輸入文字查詢要方便和自然的多。用戶也可以跟搜索引擎進行多輪對話交互。百度搜索已經(jīng)率先應用了這類新型交互方式,提升用戶體驗。
第三點,搜索將會超越現(xiàn)有的搜索引擎的范圍。搜索會嵌入各種產(chǎn)品當中。比如,搜索會是AI硬件產(chǎn)品的基本特征之一。未來,搜索將會包圍在我們身邊,無處無在。相應地, 我們也將重新定義什么是可以被搜索的。除了現(xiàn)有的被索引的內(nèi)容,在未來,服務、物品、設備和數(shù)據(jù)都可以被索引,變得可搜索。
很長時間以來,搜索引擎在人們?nèi)粘I钪邪缪葜陵P(guān)重要的角色。人們的需求決定了搜索引擎演變的方向,而技術(shù)進步則決定了這種演變將走向多遠。
來源:雷鋒網(wǎng)
原標題:百度王海峰Quora精華整理:未來5-10年,NLP領(lǐng)域?qū)惺裁催M展?
更多專業(yè)報道,請點擊下載“界面新聞”APP