清華大學(xué)史元春:人工智能使人機交互成為現實(shí)
1月15日消息,在“新時(shí)代 新發(fā)展”的清華五道口金融EMBA&EE 2018年新年思想匯活動(dòng)中,清華大學(xué)計算機系人交互與媒體集成研究所長(cháng)、信息科技術(shù)國家實(shí)驗室普適計算研究部主任、全球創(chuàng )新學(xué)院 (GIX) 學(xué)院院長(cháng)史元春,進(jìn)行了題為“智能交互——讓機器更懂你”的分享。她認為在普適計算機時(shí)代,隨著(zhù)更多的嵌入式設備的出現,如何更加自然地進(jìn)行人機之間的信息交換具有重要意義。
本文引用地址:http://dyxdggzs.com/article/201801/374416.htm史元春指出,在計算機幾十年的發(fā)展過(guò)程中,人機交互也就是人和機器之間的信息交換的技術(shù),我們可以不夸張的說(shuō),也是一項引領(lǐng)性的技術(shù)。而人工智能和大數據的進(jìn)步使人機交互成為現實(shí)、可用。
史元春認為,人機交互的目的是為了讓機器更懂“你”,讓用戶(hù)更加自如。她還通過(guò)“胖手指”、“空中打字”等案例分享了人機交互領(lǐng)域一些前沿的技術(shù)突破。
“智能技術(shù)的研究,也就是我們把一些模糊和用戶(hù)行為習慣識別為具體、準確交互意圖的研究,大有可為”,史元春認為,未來(lái)有望通過(guò)數據采集和建模來(lái)捕捉用戶(hù)的所有姿態(tài)和行為,從而生產(chǎn)出真正理解用戶(hù)的手機,讓手機交互行為的感知更加精準和智能。
史元春表示,人工智能技術(shù)的深度應用,能做到從模糊的行為習慣中解讀出準確的意圖,將為未來(lái)人機共生提供可靠的技術(shù)基礎。(王上)
以下為史元春演講實(shí)錄:
各位下午好,非常榮幸有這個(gè)機會(huì )和五道口金融學(xué)院的老師和學(xué)生們交流,我叫史元春。我跟大家的經(jīng)歷不太一樣,來(lái)自于計算機系。并且我在這個(gè)學(xué)校和計算機系有30多年了,從學(xué)生到老師。簡(jiǎn)介中談到我是GIX學(xué)院院長(cháng)。GIX的英文叫Global Innovation Exchange,是清華大學(xué)全球創(chuàng )新學(xué)員,它也是清華第一個(gè)在海外辦起來(lái)的學(xué)院。
是我們在兩年多以前在美國的西雅圖和華盛頓大學(xué)聯(lián)合創(chuàng )辦,也很歡迎我們更多的五道口金融學(xué)院的同學(xué),能夠有機會(huì )去西雅圖,我們清華那樣一個(gè)特別的學(xué)區來(lái)學(xué)習和交流。
今天這個(gè)演講的題目是關(guān)于我的科研的,科目叫智能交互。這里的交互是指人機交互。我們知道計算機的發(fā)展歷史只有幾十年,不是很長(cháng),但是這幾十年來(lái)它已經(jīng)和正在為我們的社會(huì )發(fā)展帶來(lái)了巨大的變化,在計算機幾十年的發(fā)展過(guò)程中,人機交互也就是人和機器之間的信息交換的技術(shù),我們可以不夸張的說(shuō),也是一項引領(lǐng)性的技術(shù)。
從我的這個(gè)表上大家應該可以看的出來(lái),隨著(zhù)接口技術(shù)的變化,交互模式也發(fā)生了變化,計算機從實(shí)驗室、機房已經(jīng)走到了我們的辦公室、家庭,甚至今天已經(jīng)都走到了我們的手上,計算機的臺數也發(fā)生了極大的數量級變化。
到了今天,我們已經(jīng)走到了所謂的普適計算的時(shí)代,也就是說(shuō)在我們的工作和生活的很多方面,我們有特殊的手持的設備,像今天的手機,也有更多的嵌入式的系統,像家電設備,還有更多實(shí)業(yè)以及社會(huì )生活場(chǎng)景會(huì )有越來(lái)越多這樣的設備,我們人們會(huì )有更多、更頻繁的,并且希望與更自然的方式,和這個(gè)機器發(fā)生著(zhù)關(guān)系。
也就是說(shuō)我們可能會(huì )與手持的設備、家電的設備、穿戴的設備,機器人和無(wú)人車(chē),以更自然的模態(tài),G比如說(shuō)包括用語(yǔ)音、用語(yǔ)義豐富的手勢,甚至是我們日常的行為,在很多的場(chǎng)景中,可以跟機器的系統,計算的系統發(fā)生互動(dòng),有效的來(lái)進(jìn)行信息訪(fǎng)問(wèn)和信息系統提供給我們的現實(shí)服務(wù)。這些接口、終端和任務(wù),我都在我們使用過(guò)程中,首位的自然,就是需要我們的人不需要那樣很精準的表達,是一種模糊的表達和傳達的方式。
但是,在機器端能夠給我們精準的理解和服務(wù)。
我們今天的這些交互方式其實(shí)還是很規范的,甚至我們都在用的手機,它是一個(gè)嚴謹的結構,一個(gè)抽象的概念,我們有一點(diǎn)的學(xué)習甚至是記憶的附和,還要有比較準確的表達。
如果要實(shí)現這個(gè)人的模糊的表達,到精準的服務(wù)之間,需要克服這樣一些技術(shù)挑戰:
比如我們的交互意圖很內在,那么我們獲得的數據隨機性很大,用故行為的差異性也非常大,應用的場(chǎng)景也是各式各樣的。因此,這些問(wèn)題需要我們在相應的研究中來(lái)進(jìn)行克服,并且人機交互它既包括我們所使用的各種直接的、離用戶(hù)很近的接口也包括一個(gè)交互過(guò)程的優(yōu)化。這里我簡(jiǎn)單看看接口,它應該保包括從我們人機交互的研究來(lái)看,包括計算機用戶(hù),輸入接口和計算機處理結果,反饋給用戶(hù)的輸出接口。
從輸入來(lái)看也就是說(shuō)我們的人意念產(chǎn)生了一個(gè)訪(fǎng)問(wèn)的請求,當然未來(lái)如果我們的腦機接口的技術(shù),也就是所謂讀腦的技術(shù)能夠發(fā)明的話(huà),那我們就可以直接來(lái)獲取這個(gè)用戶(hù)的意圖。但是,大家可以看到我這個(gè)圖上畫(huà)的還是一個(gè)虛線(xiàn),今天還是不太現實(shí)的,那么我們的意念還是要通過(guò)我們的行為系統傳達給機器。
我們的行為可以是在使用工具,也可以剛才講到,像自然語(yǔ)言和各種姿態(tài)。
今天在我們的傳感技術(shù)和識別的技術(shù)都有了很多的進(jìn)步,比如說(shuō)大家用的這個(gè)手機屏,可能留了一個(gè)小劉海,今天的大手機屏,那是因為那個(gè)上面有10幾個(gè)傳感器,還不能在屏下,只能單獨的露出來(lái)。我們現在的家庭里面可能已經(jīng)有智能音箱來(lái)幫助我們服務(wù),這個(gè)是語(yǔ)音識別技術(shù)的進(jìn)步。甚至于人臉識別已經(jīng)變成了我們這種身份ID。
這些技術(shù)實(shí)際上在幾十年前都已經(jīng)提出來(lái),最近的人工智能和大數據的進(jìn)步使得成為現實(shí)、可用。但是,在交互接口上還有很多需要優(yōu)化和需要創(chuàng )新的的一些方面。這里我舉兩個(gè)具體的例子:
大家都有用手機,手機上面我們還是要有我們本輸入這樣一個(gè)基本的任務(wù)的。大家在用微信,今天這個(gè)場(chǎng)合也有幾個(gè)人在用,這個(gè)時(shí)候你通常是在敲,而不是用語(yǔ)音識別,因為需要一個(gè)靜默的環(huán)境。你敲的時(shí)候,大家如果用過(guò)電腦的話(huà),你會(huì )覺(jué)得你的速度比用物理鍵盤(pán)慢了一倍,為什么慢?這就是人機交互中很典型的一個(gè)問(wèn)題“胖手指問(wèn)題”,是因為我們的手指,遠比我們點(diǎn)擊的對象要模糊的多。也就是對象的精準點(diǎn)擊,用我們的fat finger是很難完成的,所以點(diǎn)不準你就慢下來(lái)了。
今天在場(chǎng)有不少人也戴了智能手表,就像這個(gè)圖一樣,我可以給你裝一個(gè)軟件,也會(huì )有一個(gè)軟件全鍵盤(pán),但有人會(huì )用嗎?你肯定想著(zhù)我不會(huì )用,因為與我們在手機上進(jìn)行輸入的速度和體驗來(lái)說(shuō),2毫米的小鍵盤(pán)根本不可能用,這是一個(gè)典型的fat finger問(wèn)題。
可以給大家看一個(gè)我們在實(shí)驗室的研究結果,我們在手機上做了一個(gè)全鍵盤(pán),會(huì )看到輸入的速度還是可以接受的,實(shí)際速度一個(gè)實(shí)測的結果,跟你在用手機進(jìn)行輸入的速度是一樣的,每秒30-40個(gè)字左右。這是靠我們對電容圖像的智能處理和自然語(yǔ)言模型相結合獲得的結果,在一定程度上克服了所謂的胖手指問(wèn)題。
用同樣的原理,我們還可以提供比如現在手機上很現實(shí)的技術(shù),叫防誤觸。手機的屏幕現在越來(lái)越大,有全面屏和曲面屏,同時(shí)也會(huì )帶來(lái)一個(gè)問(wèn)題,你握著(zhù)它的時(shí)候會(huì )誤處。
同樣我們在多特征的圖像處理算法上的一些進(jìn)展,使得我們在防誤觸上有比較大的進(jìn)步。最近華為剛發(fā)布的mate10以及剛剛在美國發(fā)布的,相信在座也有人在用這個(gè)手機,如果你再用它的話(huà),它上面每秒120次,一直在運行,是一個(gè)高性能的算法,就是我們實(shí)驗室給它做出來(lái)的。
這個(gè)做的結果是什么?是從其他原有產(chǎn)品,誤觸率在13%,這個(gè)體驗很不好,我們給它的算法直接降到0.3%,這個(gè)體驗還是非常好。
自然交互中,我們還很期待一些很科幻的場(chǎng)景,比如我們在很多科幻片中會(huì )有這樣的,像手勢、姿態(tài)的交互和識別。實(shí)際上手勢識別或者姿態(tài)的識別,在人機交互是一個(gè)很難的命題,像一些具體的任務(wù)上,比如空中打字,也就是我抬手,現在很多人有盲打的能力,實(shí)際上你一抬手就在敲你想打的字,你已經(jīng)有了這個(gè)習慣。
在20多年前,大家就已經(jīng)設想,未來(lái)應該能夠實(shí)現這樣的技術(shù)。這個(gè)圖雖然不是很清楚,右下角是蘋(píng)果20多年前曾經(jīng)設想的,在臺式機上,不用這個(gè)鍵盤(pán),抬手就可以打字。
上面這個(gè)照片,是我在hollow lens即將發(fā)布的時(shí)候,在微軟的時(shí)候帶著(zhù)它的,今天如果你帶了hollow lens,就是VR、AR的技術(shù)使得我們眼前可以呈現三維的虛擬對象,那么你跟他進(jìn)行交互的時(shí)候,我那個(gè)照片在打的時(shí)候,因為hollow lens只支持這樣一個(gè)動(dòng)作。那么它的軟鍵盤(pán)在我面前,我只能一個(gè)一個(gè)的點(diǎn),并且非常不準確。
看一下我們做的實(shí)驗結果,對人在空中打字行為所攜帶的信息量充分挖掘而進(jìn)行建模。處理充分挖掘是說(shuō),我們的主動(dòng)手、被動(dòng)手,主動(dòng)手指、被動(dòng)手指,以及位置隨意的變化、落點(diǎn)和語(yǔ)言模型的結合,可以使得我們實(shí)現幾十年的理想,科幻的一個(gè)結果。實(shí)際上用這樣的技術(shù),我們還可以實(shí)現很多場(chǎng)景下跟蹤、交互和自動(dòng)理解用戶(hù)的意圖。
交互意圖的理解,我們建立了一套,通過(guò)數據采集、行為建模以及AI的一些分類(lèi)算法,最終實(shí)現特定交互任務(wù)的一套研究方法和體系。我們把它用在手機上,目前希望能有更多的捕捉,因為手機上其實(shí)大家不知道,里面有非常多的傳感器,并且進(jìn)去更多所謂的building sensor,還會(huì )專(zhuān)門(mén)從體系結構上制造一個(gè)sensor heart的出現,我們可能能夠捕捉更多外在用戶(hù)的心態(tài),包括臥姿、面部甚至眼神等能力,我們會(huì )提供一個(gè)手機交互全行為感知的能力,未來(lái)大家在使用手機上會(huì )有更好的體驗。
從這個(gè)角度,所謂智能技術(shù)的研究,也就是我們把一些模糊和用戶(hù)行為習慣識別為具體、準確交互意圖的研究,大有可為。即便從我們今天在手機這個(gè)問(wèn)題上來(lái)看,我們也僅僅剛剛開(kāi)始。大家不要以為我們今天的智能手機只是10年前才有,其實(shí)30年前就有,這是美國很普及的一本雜志叫《大眾科學(xué)》,這是它1995年的封面文章,這個(gè)圖上大家注意到,是1988年左右帕克研制的智能手機,實(shí)際上是iPhone原型系統。這cap model當時(shí)有各種計算、傳感和應用,以及識別的能力。
這個(gè)照片上我們可以看到,它跟我們人類(lèi)的思想者緊密的結合在一起,共同互相了解和支持,更多的發(fā)現世界和獲得能力的過(guò)程。隨著(zhù)計算超速手機滲入到我們生活更多方面,智能技術(shù)的進(jìn)步,也將為人機共生的美好前景提供支撐的技術(shù)。
很高興有這樣的機會(huì )跟大家分享,祝大家新年好!
評論