火爆“智能”下的慘淡“人工”
從人工智能發(fā)展高地北京到代河南鄭州只需要兩個(gè)小時(shí)的高鐵,那里有中國最大的代工廠(chǎng)富士康。再從鄭州火車(chē)站出發(fā),半小時(shí)車(chē)程,到達 一棟不起眼的寫(xiě)字樓,打開(kāi)一間沒(méi)有任何標志的大門(mén),就是目前河南最大的人工智能數據標注工廠(chǎng)翊澳數據的總部。
本文引用地址:http://dyxdggzs.com/article/201810/393156.htm聚集在北京的人工智能公司里,隨處可見(jiàn)人臉識別機器以及實(shí)時(shí)的大數據熱點(diǎn)圖。但這家數據工廠(chǎng)里,并沒(méi)有任何智能的樣子,也沒(méi)有普通工廠(chǎng)里的流水線(xiàn),更像是一間網(wǎng)吧——裝修簡(jiǎn)單,幾十臺電腦依次排開(kāi)。
正值午休時(shí)間,一半的電腦前面空空如也,還有數十名員工坐在電腦前,或是吃著(zhù)打包來(lái)的午飯,或是掏出手機打游戲,也有部分標注員還在處理一張張模糊或清晰的照片。
數據標注行業(yè)流行的一句話(huà),“有多少智能,就有多少人工”。目前AI算法能學(xué)習的數據,必須通過(guò)人力逐一標注,這些人力為AI產(chǎn)業(yè)提供養料,這是AI金字塔的基礎,處于最底層。
此前,一些數據標注工廠(chǎng)被冠以“血汗工廠(chǎng)”的名號,為了應對龐大的數據標注需求,標注員們必須加班加點(diǎn)的盯著(zhù)電腦屏幕,夜以繼日的重復枯燥的工作,但眼前的這個(gè)工廠(chǎng)里,似乎有些清閑。
“聽(tīng)說(shuō)北京AI很火,我們也想參與進(jìn)來(lái)?!瘪窗臄祿偨?jīng)理靳建偉對《財經(jīng)》記者說(shuō)。
靳建偉經(jīng)歷豐富,善于追逐潮流。微信最火的時(shí)候他做過(guò)微信推廣,拼多多起來(lái)后在上面賣(mài)過(guò)襪子,還在關(guān)注短視頻營(yíng)銷(xiāo)行業(yè),“你知道抖音推廣吧?就是一個(gè)后臺可以操縱一百個(gè)賬號那種,據說(shuō)很賺錢(qián)?!?/p>
大多數AI初創(chuàng )公司還處于依靠融資發(fā)展的階段,但數據標注產(chǎn)業(yè)更像傳統行業(yè),拿一單數據結一單錢(qián),江湖中流傳的傳說(shuō)是,這個(gè)領(lǐng)域已經(jīng)創(chuàng )造了不少“一夜暴富”的故事。
被這樣的故事吸引,不少像靳建偉一樣的人們加入了這場(chǎng)淘金游戲,但現實(shí)給了他們當頭一棒。
2018年,河南省的數據標注公司死掉了一大半,剩下幾乎都在艱難求生,接受《財經(jīng)》記者采訪(fǎng)時(shí),靳建偉已經(jīng)2個(gè)多月沒(méi)有接到新的訂單,工廠(chǎng)員工從600人,銳減至200人,他覺(jué)得自己恐怕需要開(kāi)始找下一個(gè)風(fēng)口了。
撞進(jìn)了AI圈
靳建偉今年28歲,2017年以前,他甚至沒(méi)聽(tīng)說(shuō)過(guò)“數據標注”這個(gè)詞。
他并不懂AI算法和技術(shù),也不太清楚AI到底能解決哪些問(wèn)題,2017年,他偶然聽(tīng)說(shuō)做數據標注能賺錢(qián),當時(shí)他正從事證券銷(xiāo)售業(yè)務(wù),由于沒(méi)有資質(zhì),公司被關(guān)停,他找到一個(gè)賣(mài)保健品的朋友,共同成立了這家數據標注公司。
2017年,中國AI創(chuàng )業(yè)開(kāi)始達到頂點(diǎn)。對數據標注的需求也迅速爆棚。河南是人口大省,數百家數據標注公司在此誕生。靳建偉算了一筆賬,一個(gè)成熟的標注員,月產(chǎn)值能做到7000元,除去3000元的工資和質(zhì)檢、場(chǎng)地設備等費用,公司能賺1500元。
“那我不斷招人就行,如果招100個(gè)人,一個(gè)月就賺15萬(wàn)?!苯▊フf(shuō)道,“怎么看都覺(jué)得這個(gè)生意靠譜?!?/p>
有電腦,有場(chǎng)地,再迅速招一批沒(méi)有學(xué)歷、工作經(jīng)驗要求的數據標注員,就可以迅速上手。
深度學(xué)習的關(guān)鍵在于大量的數據訓練,數據訓練之前,必須對這些數據進(jìn)行明確的標注。例如,機器需要識別斑馬線(xiàn),就必須提供大量標注了斑馬線(xiàn)的數據來(lái)進(jìn)行學(xué)習,數據量足夠大時(shí),機器就可以識別出任何角度的斑馬線(xiàn)。
這意味著(zhù),在某種程度上,AI算法的優(yōu)化,取決于數據標注的質(zhì)量,而把控這些質(zhì)量的,是完全不懂AI技術(shù)的一群人。
一名沒(méi)有任何經(jīng)驗的標注員,通過(guò)半天的培訓即可開(kāi)工, 1-2個(gè)月之后可變成熟練工,一天就可以完成1500-2000張圖片的標注。
需要標注的圖片數據從客戶(hù)提供的數據處理平臺上打包下載,根據不同的需求進(jìn)行標注,常見(jiàn)的包括物體識別和人臉識別,物體識別主要是“畫(huà)框”,人臉識別則是“打點(diǎn)”。完成后會(huì )進(jìn)行一到兩道的質(zhì)量檢測程序,來(lái)確保標識準確率,合格后會(huì )重新傳送到客戶(hù)的數據平臺上。
然后,這些數據會(huì )被應用到自動(dòng)駕駛、AI安防、智能身份認證等新興應用領(lǐng)域。
依靠這些應用,人工智能公司在資本市場(chǎng)頗受追捧,投中研究院發(fā)布的數據顯示,2018年上半年,進(jìn)入商業(yè)化階段的中國人工智能行業(yè)已經(jīng)獲得超過(guò)400億人民幣的融資。
這400億的資金,僅有極少部分流入了數據標注行業(yè)。企名片收錄的標簽為“數據標注”的公司共有15家,2018年,這15家公司共完成6筆融資,單筆融資金額約為1000萬(wàn)人民幣左右,總計不超過(guò)1億人民幣。
靳建偉還沒(méi)考慮過(guò)融資這件事,他聽(tīng)說(shuō)北京的AI公司都在以?xún)|為單位進(jìn)行融資,但他的思維和之前的數次創(chuàng )業(yè)沒(méi)有區別,找客戶(hù),做業(yè)務(wù),能賺錢(qián),才是應該做的事情。
單打獨斗在當下的AI圈很難混得開(kāi)。由于完全沒(méi)有相關(guān)行業(yè)經(jīng)驗,也沒(méi)有資本加持,一開(kāi)始靳建偉只能接二手,甚至三手訂單,也即外包服務(wù)?!耙恍┯星赖墓窘恿擞唵?,自己不做,或者自己做不過(guò)來(lái),就分發(fā)給我們做,他們再從中間收取差價(jià)?!?/p>
與很多行業(yè)一樣,渠道是核心競爭力,中間商們不需要耗費太多的人力物力,就能賺取可觀(guān)的利潤,底層的工廠(chǎng)們,加班加點(diǎn),只能勉強維持經(jīng)營(yíng)。
這樣下去可不行。在熟悉了行業(yè)之后,靳建偉開(kāi)始主動(dòng)出擊,拓展渠道,試圖繞過(guò)中間商。從知名的頭部AI公司開(kāi)始,到所有他能找到聯(lián)系方式的中小AI企業(yè),他問(wèn)了個(gè)遍。得到的回應要么是“不需要”,要么是“我們已經(jīng)有了自己的數據標注團隊”,更多的是石沉大海,沒(méi)有回音。
“人家上來(lái)就問(wèn)你,以前做過(guò)哪些項目,我說(shuō)不上來(lái)?!彼軣o(wú)奈。
類(lèi)似商湯科技、科大訊飛這樣的頭部AI公司,都會(huì )自建數據標注團隊,既能方便管理,也能更好的理解需求。
但確實(shí)也有大量AI公司,由于團隊人數、資金成本有限,有外包數據標注的需求,但大部分都會(huì )通過(guò)熟悉的渠道尋找標注團隊,或者和大平臺合作,例如百度眾測平臺。
百度眾測是百度旗下的一個(gè)類(lèi)似眾包模式的數據平臺,2014年在百度世界大會(huì )上正式推出,平臺上會(huì )分發(fā)各類(lèi)任務(wù),在行業(yè)內稱(chēng)為“放題”,包括數據采集、圖片標注、文本標注等。
百度在中國人工智能領(lǐng)域起步早,渠道輻射廣,眾測平臺上每天都有大量的數據標注需求,并且開(kāi)放注冊,這讓靳建偉看到了機會(huì )。
飽一頓,饑一頓
距離鄭州車(chē)程兩個(gè)小時(shí)的河南新鄉輝縣,甚至找不到一棟商用寫(xiě)字樓。從馬路邊一個(gè)毫不起眼的門(mén)洞上樓,就是翊澳在輝縣的工廠(chǎng),也是該公司目前規模最大的一個(gè)廠(chǎng)。
兩層樓,近500平方米的空間里,劃分出了三片工作區域,但目前僅有一片區域開(kāi)工運轉。
翊澳下面類(lèi)似這樣的分廠(chǎng)有十幾個(gè),分布在河南省內各個(gè)縣市里。
由于百度眾測平臺提供了訂單來(lái)源,翊澳幾乎是在一夜之間發(fā)展成這樣的規模,靳建偉拉來(lái)以前一起做證券銷(xiāo)售的同事們,讓他們回到各自的老家成立分工廠(chǎng),并擔任負責人,“之前一起做過(guò)事,已經(jīng)有信任關(guān)系,下面這些地方場(chǎng)地租金更便宜,員工工資也低,更省成本?!?/p>
評論