一張估值20億的“笑臉”,正在拆掉OpenAI的圍墻
Warning: file_get_contents(): SSL: connection timeout in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 220 Warning: file_get_contents(): Failed to enable crypto in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 220 Warning: file_get_contents(https://mmbiz.qpic.cn/mmbiz_png/cn2WtQ1Q5KQAQL2y4WJLZZF39kwOGoMOtBARSqMdnLQnfXAoPQ10iao9ftpN0iaCyIe4tSJJXVlibAakop8ukpVzw/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1): failed to open stream: operation failed in /var/www/html/www.edw.com.cn/www/rootapp/controllersspace/ArticlesmanageController.php on line 220
它正成為人工智能界的Github
文| Juny 編輯| VickyXiao
由ChatGPT引發(fā)的人工智能風(fēng)潮還在猛烈地刮著(zhù)。但從各個(gè)角度來(lái)看,目前這都是一個(gè)巨頭爭霸的戰場(chǎng):更大的模型、更強的算力、更多的用戶(hù)、更雄厚的資金……這些都似乎成為了想要加入這場(chǎng)角逐的門(mén)票。與此同時(shí),核心技術(shù)的研究也逐漸開(kāi)放走向封閉。
而在這高墻正在筑起的過(guò)程中,也有一些新銳的創(chuàng )業(yè)公司想要高舉旗幟來(lái)一場(chǎng)革命。其中,尤其引人注目的是一家名為Hugging Face開(kāi)源創(chuàng )業(yè)公司。
目前,Hugging Face已經(jīng)是全球最受歡迎的開(kāi)源機器學(xué)習社區和平臺,不僅創(chuàng )下了GitHub有史以來(lái)增長(cháng)最快的AI項目記錄,估值也一路沖破了20億美元。近期,微軟和浙江大學(xué)聯(lián)合發(fā)布的一篇關(guān)于HuggingGPT的論文更是把Hugging Face推到了舞臺中心,也讓更多人關(guān)注到了當前這股與眾不同的人工智能發(fā)展力量。
|HuggingGPT火了,Hugging是啥?
本月初,微軟亞洲研究院和浙江大學(xué)聯(lián)合發(fā)布了一項最新的名為HuggingGPT的研究,介紹了一個(gè)全新的協(xié)作系統,讓開(kāi)發(fā)者能夠在ChatGPT的幫助下快速、準確地去選擇合適的人工智能模型,從而完成包括文字、視頻、語(yǔ)音等多模態(tài)在內的復雜任務(wù)。
該項目目前已經(jīng)在Github上開(kāi)源,還有一個(gè)超拉風(fēng)的名字叫JARVIS(沒(méi)錯,就是跟鋼鐵俠的助手一個(gè)名字)。在這個(gè)研究中,主要涉及到了兩個(gè)主體,一個(gè)是眾所周知的ChatGPT,另一個(gè)則是AI社區Hugging Face。
圖片來(lái)自HuggingGPT研究論文
那么Hugging Face是做什么的?
簡(jiǎn)單來(lái)說(shuō),Hugging Face是一個(gè)針對人工智能的開(kāi)源平臺,用戶(hù)可以在上邊發(fā)布和共享預訓練模型、數據集和演示文件等。目前Hugging Face上已經(jīng)共享了超過(guò)10萬(wàn)個(gè)預訓練模型,1萬(wàn)多個(gè)數據集,包括微軟、谷歌、Bloomberg、英特爾等各個(gè)行業(yè)超過(guò)1萬(wàn)家機構都在使用Hugging Face的產(chǎn)品。
在HuggingGPT中,ChatGPT通過(guò)扮演了“操作大腦”的角色,能夠自動(dòng)解析用戶(hù)提出的需求,接著(zhù)在 Hugging Face 的“AI模型池”里進(jìn)行自動(dòng)模型選擇、執行和報告,為開(kāi)發(fā)者們開(kāi)發(fā)更復雜的人工智能程序提供了極大的便利。
雖然在模型上ChatGPT跟Hugging Face能夠牽手,但從本質(zhì)上來(lái)說(shuō),Hugging Face跟OpenAI目前是在做兩個(gè)相反方向的事。其中最大的不同點(diǎn)在于,在開(kāi)發(fā)者服務(wù)方面,OpenAI現在正在搭建人工智能開(kāi)發(fā)的圍墻,僅允許滿(mǎn)足條件的機構和個(gè)人進(jìn)入,但Hugging Face則希望每個(gè)人都可以訪(fǎng)問(wèn)生成式 AI 模型,包括各類(lèi)企業(yè)和所有普通開(kāi)發(fā)者。
今年2月,OpenAI上線(xiàn)了一個(gè)名為Foundry的新開(kāi)發(fā)者平臺,允戶(hù)可以在這個(gè)平臺上運行OpenAI最新的機器學(xué)習模型,但在產(chǎn)品的描述中,OpenAI明確表示Foundry是為運行較大工作負載的尖端客戶(hù)設計,而根據一份價(jià)格表顯示,即使是 GPT-3.5 的輕量級版本,三個(gè)月費用高達7.8萬(wàn)美元,一年費用為 26.4萬(wàn)美元。
就在Foundry發(fā)布后,Hugging face便立刻宣布了其與 AWS 的最新合作伙伴關(guān)系,并發(fā)出了“讓人工智能走向開(kāi)放”的呼吁。通過(guò)該合作,任何開(kāi)發(fā)人員都將能夠使用 AWS 的托管服務(wù)并處理 Hugging Face 上可用的任何模型。
圖片來(lái)自Hugging face CTO推特
在現在巨頭林立的人工智能戰場(chǎng)上,Hugging Face就像是一支強有力的民間力量。當巨頭們都在努力保持自己生成式 AI 的霸主地位的時(shí)候,Hugging Face 的目標則是尋找各種途徑來(lái)保持 AI 研究空間的開(kāi)放。
而這樣特點(diǎn)也讓Hugging Face目前頗有一些“中立”的色彩。無(wú)論微軟、谷歌、亞馬遜、Meta這些大公司打得再激烈,但它們幾乎全都是Hugging Face的支持者。
那么,Hugging Face究竟是如何發(fā)展起來(lái)的,它具體做著(zhù)什么樣的業(yè)務(wù)?
|一次歪打正著(zhù)的創(chuàng )業(yè),造就AI界的頂流“笑臉”
在普通人的眼中,人工智能一向都屬于“冷感”很強的技術(shù)領(lǐng)域,無(wú)論是充斥著(zhù)大量數字、模型的算法,還是由各種機械零件組裝成的機器人,都不免讓人感到有些距離感。但作為專(zhuān)為人工智能開(kāi)發(fā)者服務(wù)的Hugging Face卻主打了一個(gè)反差萌,笑臉Emoji再加上一雙攤開(kāi)的小手,logo甚至有點(diǎn)過(guò)份可愛(ài)。
之所以有這樣一個(gè)可愛(ài)的logo,是因為一開(kāi)始Hugging Face做的產(chǎn)品其實(shí)是一款針對青少年群體的聊天機器人。
當時(shí)Hugging Face的想法是基于自然語(yǔ)言處理 (NLP) 的人工智能技術(shù),來(lái)為年輕人們開(kāi)發(fā)一個(gè)帶有娛樂(lè )性、類(lèi)似于電子寵物一樣的個(gè)性化聊天機器人,讓大家可以在無(wú)聊的時(shí)候跟它聊八卦、問(wèn)它問(wèn)題、讓它生成一些有趣的圖片之類(lèi)的事情。
這種新穎的人機社交模式得到了一些關(guān)注。2017年3月9號,Hugging Face App在iOS App Store正式推出,并拿到了包括SV Angel、NBA球星杜蘭特在內的120萬(wàn)美元的天使投資。此后一年多,Hugging Face都一直圍繞著(zhù)自己的聊天機器人業(yè)務(wù)在做著(zhù)自然語(yǔ)言理解的相關(guān)訓練并發(fā)布相關(guān)的產(chǎn)品,高峰時(shí)期每天處理的消息數量達到了1百萬(wàn)條。在2018年5月,它又獲得了400萬(wàn)美元的種子輪融資。
Hugging Face聊天軟件界面
雖然發(fā)展的還算不錯,但由于當時(shí)的人工智能的理解能力和聊天水平遠不及ChatGPT這樣智能有趣,再加上并非剛需的業(yè)務(wù)場(chǎng)景,Hugging Face的規模一直都難以擴大。
但為了開(kāi)發(fā)這個(gè)聊天機器人,Hugging Face的團隊做了一個(gè)很重要的事,那就是構建了一個(gè)底層庫來(lái)容納各種機器學(xué)習模型和各種類(lèi)型的數據集。包括幫助訓練聊天機器人檢測文本消息情緒、生成連貫的響應、理解不同對話(huà)主題等,并且在GitHub上始終以開(kāi)源項目的形式持續發(fā)布該底層庫的一些內容。
就這樣不溫不火地發(fā)展了一段時(shí)間后,2018年底,Hugging Face迎來(lái)了一個(gè)重要的轉折。
當年11月,谷歌宣布推出基于雙向 Transformer 的大規模預訓練語(yǔ)言模型BERT,瞬間成為了自然語(yǔ)言理解領(lǐng)域最受開(kāi)發(fā)者關(guān)注的模型。但一開(kāi)始,Google只發(fā)布了BERT的TensorFlow版本,Hugging Face就想為啥沒(méi)有Pytorch版本呢?于是Hugging Face創(chuàng )始人之一的Thomas Wolf就用幾天的時(shí)間完成并開(kāi)源了PyTorch-BERT,但沒(méi)想到,就是這么一個(gè)“無(wú)心插柳”的項目讓Hugging Face一炮而紅。
借著(zhù)BERT的東風(fēng),Hugging Face的Pytorch-pretrained-BERT發(fā)布3個(gè)多月后,快速達成了在Github上5000+ 星標的成就,到了7月份其Star數量已經(jīng)超過(guò)了1萬(wàn),發(fā)展速度遠超其他同類(lèi)開(kāi)源項目,在Github的AI項目領(lǐng)域里一飛沖天。
在這樣的發(fā)展勢頭下,Hugging Face的產(chǎn)品戰略開(kāi)始發(fā)生了調整。他們將更多精力放到了開(kāi)源模型的建設上,將 Pytorch-pretrained-BERT項目正式命名為T(mén)ransformers,同時(shí)支持Pytorch和Tensorflow 2.0。
借助 Transformers庫,開(kāi)發(fā)者可以快速使用BERT、GPT、XLNet、T5 、DistilBERT等NLP大模型,并使用這些模型來(lái)完成文本分類(lèi)、文本總結、文本生成、信息抽取、自動(dòng)QA等任務(wù),節省大量時(shí)間和計算資源,此后Hugging Face在人工智能開(kāi)源領(lǐng)域的名氣也越來(lái)越大。
Hugging Face在Github上的Star曲線(xiàn),圖片來(lái)自于Lux Capital
到了2019年12月,Hugging Face拿到了由Lux Capital 領(lǐng)投的A輪融資,融資額也比上一輪上了一個(gè)量級達到了1500萬(wàn)美元。值得注意的是,從這一輪開(kāi)始,Hugging Face的標簽開(kāi)始不再是聊天機器人,而是把AI開(kāi)源業(yè)務(wù)放在了首位。這張可愛(ài)的笑臉emoji也開(kāi)始被廣大人工智能開(kāi)發(fā)者們所熟知。
|朝著(zhù)人工智能界的Github前進(jìn)
在2019年底All in AI開(kāi)源之后,Hugging Face開(kāi)始著(zhù)手構建一套完整的開(kāi)源產(chǎn)品矩陣。用Hugging Face自己的話(huà)來(lái)講,他們所做的事情,就是要架起人工智能科研和應用的橋梁(bridges the gap from research to production)。
過(guò)去這些年,人工智能領(lǐng)域的科研和商業(yè)應用是相對獨立的兩個(gè)板塊,科研部門(mén)的任務(wù)就是對前沿技術(shù)進(jìn)行研究,搞模型、發(fā)論文,應用部門(mén)的人則是要將最新技術(shù)用到產(chǎn)品中探索商業(yè)變現。如何將科研成果進(jìn)行系統性的整合成為開(kāi)源產(chǎn)品,讓開(kāi)發(fā)者們能夠很快上手去應用轉化是長(cháng)期困擾業(yè)界的一個(gè)問(wèn)題。
Hugging Face之前歪打正著(zhù)地摸到了這個(gè)痛點(diǎn),接著(zhù)開(kāi)始認真向下挖掘。簡(jiǎn)單來(lái)說(shuō),Hugging Face就是承擔了人工智能科研走向應用這個(gè)過(guò)程中幾乎所有復雜、繁瑣、細碎的工作,然后方便任何人工智能從業(yè)者都可以去便捷地使用這些研究模型和資源。
目前,除了頭號產(chǎn)品Transformers之外,Hugging Face還建立了Tokenizers、Datasets、Accelerate等庫,從模型到數據集、從托管平臺到性能優(yōu)化,以開(kāi)源社區為載體,Hugging Face已建立起了完整的人工智能開(kāi)發(fā)生態(tài),涵蓋了 NLP、計算機視覺(jué)、語(yǔ)音、時(shí)間序列、生物學(xué)、強化學(xué)習等各個(gè)領(lǐng)域。
值得注意的是,Hugging Face并不是因為ChatGPT帶火的。2022年5月,當市場(chǎng)的注意力都還停留在Web3、元宇宙之上時(shí),Hugging Face拿到了有紅杉、Lux Capital參與的1億美元融資,讓其估值一舉突破了20億美元。
Hugging Face的融資歷史,圖片來(lái)自于企查查
Hugging Face當前的目標是想成為人工智能領(lǐng)域的Github。其創(chuàng )始團隊認為,只有將那些少數人掌握的技術(shù)推廣給更多人使用,才能真正最大程度地推進(jìn)整個(gè)行業(yè)的進(jìn)步。而從商業(yè)的角度來(lái)說(shuō),Hugging Face認為賦能整個(gè)AI社區所可能產(chǎn)生的價(jià)值可能比一個(gè)專(zhuān)有的工具高出千倍,而只要將其中的1%變現就能夠足以撐起一個(gè)高市值的公司,類(lèi)似的例子包括MongoDB、Elastic等等。
除了蓬勃發(fā)展的開(kāi)源社區,從2020年開(kāi)始,Hugging Face也開(kāi)始做面向企業(yè)的定制自然語(yǔ)言模型,其客戶(hù)涵蓋彭博社、高通、英特爾等各類(lèi)大中小型公司,并推出了包括AutoTrain、Inference API & Infinity、Private Hub、Expert Support等針對不同開(kāi)發(fā)者類(lèi)型的產(chǎn)品。據報道顯示,從2021年開(kāi)始Hugging Face就一直處于正現金流的狀態(tài)。
Hugging Face的的產(chǎn)品服務(wù),圖片來(lái)自于其官網(wǎng)
Hugging Face在當前的人工智能領(lǐng)域中能夠以開(kāi)源社區的模式異軍突起,有一些偶然也有必然。首先,過(guò)去這些年,人工智能技術(shù)所取得的進(jìn)步都是由全世界的科研和產(chǎn)業(yè)領(lǐng)域共同協(xié)作所推動(dòng)的,它的技術(shù)基因里其實(shí)就帶著(zhù)開(kāi)放,因此建立起一個(gè)平臺來(lái)鏈接研究者和開(kāi)發(fā)者順應了行業(yè)發(fā)展的歷史和趨勢。
此外,Hugging Face通過(guò)完成大量的基礎性工作,來(lái)幫助彌補在人工智能領(lǐng)域里長(cháng)期存在的科學(xué)與生產(chǎn)之間的鴻溝,這是過(guò)去很多開(kāi)源平臺沒(méi)有關(guān)注和做到的。
在此前的一個(gè)采訪(fǎng)中Hugging Face的CEO Clément Delangue表示,機器學(xué)習技術(shù)仍然還處于早期發(fā)展階段,開(kāi)源社區的能力將是巨大的。他認為,在未來(lái)5到10年,我們一定還會(huì )看到更多開(kāi)源機器學(xué)習公司的崛起。
*參考資料:
注:封面圖來(lái)自于hugging face,版權屬于原作者。如果不同意使用,請盡快聯(lián)系我們,我們會(huì )立即刪除。*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。