低學(xué)歷的印度數據標簽工,正成為全球AI功臣
印度人工智能后臺
本文引用地址:http://dyxdggzs.com/article/201903/398787.htm亞馬遜的MTurk在開(kāi)始限制非美國員工之前,曾是印度人尋找數據標簽和注釋工作的熱門(mén)平臺。盡管后來(lái)取消了限制,但隨著(zhù)企業(yè)客戶(hù)開(kāi)始更加重視數據安全,MTurk在數據標簽商中的受歡迎程度有所下降。此外,包括Spare5、Cloudfactory和Figure Eight在內的新眾包平臺也已經(jīng)進(jìn)入市場(chǎng),它們則更加關(guān)注注釋和標簽市場(chǎng)。
Kolasseri說(shuō):“在創(chuàng )辦公司之前,我曾于2015年至2016年期間在MTurk平臺上工作過(guò),如今,仍然不斷有新的平臺出現。但是,由于企業(yè)客戶(hù)非常關(guān)注數據安全,尤其是考慮到許多數據集都是專(zhuān)有的,因此信任這些平臺上的工作人員成為他們面臨的更大挑戰?!?/p>
由前Flipkart員工Mall、Ajinkya Malasane和Akshay Kumar Lal所創(chuàng )立的Playment,則以一種略有不同的方式對待注釋和標簽行業(yè)。
該公司為各種用例開(kāi)發(fā)了一系列注釋工具,并開(kāi)發(fā)了一個(gè)由受過(guò)這些工具培訓的標簽工和注釋工組成的眾包平臺。該公司直接與客戶(hù)或相關(guān)的信息技術(shù)服務(wù)公司進(jìn)行合作。
“要將原始數據轉換為帶注釋的結構化數據,你需要前端注釋工具、熟練且經(jīng)濟高效的人力資源。此外,由于處理數據的規?;?,你還需要有合適的中間件來(lái)支持不同的工作流并管理遠程人力資源,”Mall說(shuō)。
Playment的眾包平臺擁有30多萬(wàn)標簽工和注釋工。其中,該公司認為約有2.5萬(wàn)人是“高技能頂級玩家”。據Mall稱(chēng),這些人幾乎整天都在平臺上,平均月收入為2萬(wàn)至3萬(wàn)盧比。
Playment的大部分工作也來(lái)自國際客戶(hù),其中包括三星、滴滴出行、阿里巴巴、Drive.ai和Continental AG,其中大部分都屬于自動(dòng)駕駛車(chē)輛領(lǐng)域。
iMerit的戰略則以員工為中心。其2000多名勞動(dòng)力中,約80%來(lái)自月收入低于100美元的家庭;其中大約一半是女性?!拔覀兊纳鐣?huì )使命是在貧困社區和公司或工業(yè)較少的地區創(chuàng )造技術(shù)就業(yè)機會(huì )。我們在科技產(chǎn)業(yè)稍低、科技就業(yè)機會(huì )較少的城市開(kāi)展業(yè)務(wù),” Natarajan說(shuō)道。
所謂的利他主義也有很好的商業(yè)意義。Natarajan表示:“我們的合作伙伴和辦公地點(diǎn),允許我們以非常經(jīng)濟高效的方式擴大數據注釋和標簽團隊,并為客戶(hù)提供高質(zhì)量的工作?!?/p>
盡管iMerit的大部分業(yè)務(wù)都來(lái)自美國——客戶(hù)包括微軟、易趣和Tripadvisor——但其90%的數據注釋和標簽工作是在印度完成的。
注釋自動(dòng)化
雖然各大公司正在開(kāi)發(fā)用于注釋的自動(dòng)化工具,但由于許多工作需要更為細致的定制注釋或標簽工作,要想讓自動(dòng)化工具達到高精度還需要一段時(shí)間。
Natarajan說(shuō),與五年前人工智能還在區分貓和狗的不同相比,現在的人工智能需要處理更高級的工作?!皺C器學(xué)習已經(jīng)向前發(fā)展,所以不再有人要求我們?yōu)楣泛拓堖M(jìn)行標記。如今,每家公司都有定制的需求和非常細微的需求,所以不可能自動(dòng)實(shí)現這一點(diǎn),也不可能自動(dòng)給出數據并由一群匿名人士貼上標簽?!?/p>
他說(shuō),基于人工智能的自動(dòng)化注釋工具是不可避免會(huì )出現的,但它并不是一個(gè)威脅?!白詣?dòng)化注釋工具本身就是經(jīng)過(guò)良好注釋訓練出來(lái)的結果。當你試圖解決一個(gè)問(wèn)題時(shí),這些工具只能把你帶到一定的水平,但是要超越這個(gè)水平,你還需要自定義注釋?zhuān)盢atarajan說(shuō)。
當然,加以一段時(shí)間,自動(dòng)化工具會(huì )變的足夠有效,從而能夠創(chuàng )建更好地數據集?!皬母L(cháng)遠的角度來(lái)看,我們確實(shí)認識到這個(gè)行業(yè)并不能永久存在。當客戶(hù)成功時(shí),我們的任務(wù)就結束了,”Natarajan說(shuō)?!暗覀円舶l(fā)現,這也并不是一個(gè)100%肯定的事情,因為它總是一個(gè)持續不斷的學(xué)習和改進(jìn)的過(guò)程。此外,當客戶(hù)轉向下一個(gè)問(wèn)題時(shí),一切又都從零開(kāi)始了?!?/p>
換句話(huà)說(shuō),印度的數據標簽和注釋公司尚未見(jiàn)頂,這一行業(yè)可能需要很長(cháng)時(shí)間才會(huì )走上業(yè)務(wù)流程外包的老路。
評論