時間:2025-03-06 11:09 來源:投資界 閱讀量:18650
在春晚過后,最近宇樹機(jī)器人又火了一次。
上周,宇樹機(jī)器人發(fā)布了一條機(jī)器人轉(zhuǎn)身踢腿,打了一套功夫拳的視頻,發(fā)布一周就收獲了快五萬的點贊。
一套功夫打下來,機(jī)器人占領(lǐng)世界似乎已經(jīng)可以期待了?
在機(jī)器人越來越像人的背后,可能卻是有著一批人在「負(fù)重前行」。
近期,極客公園發(fā)現(xiàn),招聘軟件上已經(jīng)悄悄上架了一批工作信息。員工的*工作,就是教機(jī)器人如何更像人。
一、新物種工作
筆者是在去年,開始發(fā)現(xiàn)各大一線城市的招聘平臺正在悄悄上架一批新的工作。
標(biāo)題為數(shù)據(jù)采集專員,或者更直接的——機(jī)器人數(shù)據(jù)采集員,這個「新物種」工作,是完全是為機(jī)器人提供服務(wù)的。
工作描述很簡單——就是操作機(jī)器人,做一些人類日常會做的行為。
一個工作描述這樣形容道:控制機(jī)器人進(jìn)行操作,如疊衣服、系鞋帶、物品收納等日常生活操作。
而另一個工作描述則這樣寫道,「根據(jù)桌面零件分揀」的場景,操作動作捕捉服來操控機(jī)器人的動作。
一些其他類似的工作描述中,還出現(xiàn)了不暈 3D,身體強(qiáng)壯,了解一些編程基礎(chǔ)之類的要求。
這到底是怎樣的工作?
筆者潛入了一個動作捕捉的招聘群中,和招聘者進(jìn)行了一次聊天。
筆者很快了解到,該招聘崗主要是為國內(nèi)某機(jī)器人公司進(jìn)行服務(wù),采集機(jī)器人的動作數(shù)據(jù)。
主要分為兩種崗位,
一種是帶著動作捕捉設(shè)備,遠(yuǎn)程操作機(jī)器人——工作人員站在機(jī)器人旁邊,拿取面前的東西,而通過動作捕捉設(shè)備的傳輸,機(jī)器人會擺出和幾乎一樣的動作拿去機(jī)器人面前的東西,這在機(jī)器人領(lǐng)域的術(shù)語叫做遙操作。過去在新聞中經(jīng)常出現(xiàn)有人操作機(jī)器人進(jìn)入危險環(huán)境作業(yè),就是使用的遙操作方式。
而另一種則是面對屏幕操作機(jī)械臂。仍然是工作人員操作機(jī)械臂,而屏幕里的機(jī)械臂會做出一樣的動作,只不過實體空間中并沒有真正的物品可以拿取,工作人員操作機(jī)械臂的目的是讓屏幕里的機(jī)械臂拿取虛擬空間的物品。有點像是隔著屏幕操控抓娃娃機(jī)。
兩種工作對操作人員的要求都不高,都是做出最基本的人類動作就可以。因此招聘對學(xué)歷等硬性條件并沒有要求。
不過有趣的是,*類崗位,對操作人員的身材倒是有要求:身高 165~170 左右,體重 62kg 內(nèi),不能有肚子,男生。第二類崗位則男女不限。
筆者又查看了其他公司的類似的崗位,工資在 5000-10000 不等。而這家公司,則是按天計費(fèi),每日 200 元。
招聘者特別問了筆者,你是計算機(jī)專業(yè)的嗎?
在得到否定回答后,招聘人員大方提起,現(xiàn)在有一個領(lǐng)域正在「崛起」,就是人工智能!不要看目前只是一個兼職崗位,未來可能會變得非常重要。
當(dāng)筆者問起,會不會已經(jīng)招滿了,招聘人員則表示,位置很多,*批就有幾百人,而后面北京、上海、廣州,都在陸續(xù)開類似的崗位。
二、賣動作給機(jī)器人的工作,正在迅速擴(kuò)張
賣動作給機(jī)器人?聽起來是一個很奇怪的事情。為什么要這么做?
帶著疑問,筆者采訪了動作捕捉設(shè)備提供商諾亦騰的聯(lián)合創(chuàng)始人、CTO 戴若犁博士。
戴博士馬上肯定了這一趨勢的存在。「是的,我們也觀察到了類似的現(xiàn)象。諾亦騰每年會賣出幾千套動捕設(shè)備,是全世界出貨量*的動捕的設(shè)備提供商,在過去十年,賣給機(jī)器人企業(yè)的動捕裝備一直不超過我們出貨量的 5%,不過,事情在 2023 年發(fā)生了變化。」戴博士表示。
戴若犁回憶道,一般而言,機(jī)器人企業(yè)采購動捕設(shè)備,通常用來操作機(jī)器人在危險地區(qū)進(jìn)行一些特殊操作,這樣的需求不會很多,通常的采購都是一套兩套這個量級。
「我們的設(shè)備算是全球性價比最高的了。不過即使這樣,貴的設(shè)備大概要十幾萬塊錢一套,便宜的設(shè)備也要大幾萬塊錢。只有應(yīng)急演練、消防這樣的市政甚至軍事項目才會進(jìn)行百套左右的采購。」戴若犁表示。
而2023 年開始,諾亦騰開始逐漸接到越來越多的機(jī)器人企業(yè)的訂單,而且一次就是上百臺——這些訂單,正是為前面所述的工作崗位服務(wù)的。
2023 年,正是人形機(jī)器人開始爆發(fā)的前夕。
在 2023 年前,人形機(jī)器人在機(jī)器人的研究發(fā)展中,相對是一個異端。大部分需要機(jī)器人的能力,用一個專用的機(jī)械臂已經(jīng)可以解決的很好,為什么要研究人形機(jī)器人呢?筆者記得 2023 年,*次來到世界機(jī)器人大會時,就曾經(jīng)想過這個問題。
這背后,其實是技術(shù)的一次大跳躍。
2022 年-2023 年,大語言模型的進(jìn)展,*次解決了機(jī)器人泛化性的理解和規(guī)劃。也就是說,現(xiàn)在和機(jī)器人說話,機(jī)器人*次可以開始理解了,甚至可以自己對于語言背后的含義進(jìn)行拆解,能夠意識到「拿桌上的水果」這件事指的就是拿起桌上的某個特定蘋果了。
這時候,人形機(jī)器人的卡點,出現(xiàn)了新的變化——不在于智慧,在于動作能力上了。在智慧能力出現(xiàn)突破之后,如果人形機(jī)器人的動作的泛化能力能夠進(jìn)一步突破,那么機(jī)器人的應(yīng)用場景將有很大的擴(kuò)展。
而在機(jī)器人的動作問題上,實際上則有兩個分支。
一個是運(yùn)動能力,我們也可以簡單理解為下肢動作。
一個是操作能力,我們也可以簡單地理解為上肢動作。
我們看到的宇樹機(jī)器人,能打拳、能跳舞,其擅長的,正是機(jī)器人的「下肢能力」。而正如我們所看到的,雖然仍面臨著承載力等一系列問題,機(jī)器人的「下肢能力」已經(jīng)相對成熟。
而機(jī)器人的「上肢能力」則是完全另外的命題。
「四足平衡或者雙足平衡,其實容錯能力是比較好的。你一步踩錯,它通過迅速的糾偏,通過一些算法其實可以迅速找回來的。但是泛化的抓拿和操控,容錯很低。細(xì)微操作這件事情,大家目前還是相信要大量的數(shù)據(jù)進(jìn)去才能夠訓(xùn)練好這個事情。」戴若犁解釋道。
事實上,使用上肢進(jìn)行靈巧操作,即使宇樹機(jī)器人,也很難做到可以在現(xiàn)實中實用的地步。
宇樹機(jī)器人在春晚的表演,使用的轉(zhuǎn)手絹的動作,使用了一個取巧的戰(zhàn)術(shù)——手絹是直接被固定在手部電機(jī)上進(jìn)行高速轉(zhuǎn)動的,只是用黑布遮擋,營造出「隱形」效果。其技術(shù)難點在于機(jī)器人關(guān)節(jié)扭矩更高和其全身動作中的平衡,而并不在于機(jī)器人本身的手部動作靈敏到完全類人。
而想要機(jī)器人的上肢動作真正類人,業(yè)界通常認(rèn)為,需要模仿學(xué)習(xí)——通過模仿人類的動作。而這意味著,需要大量的相關(guān)數(shù)據(jù)。
與無處不在的互聯(lián)網(wǎng)數(shù)據(jù)相比,機(jī)器人的現(xiàn)存的相關(guān)數(shù)據(jù)則少得多。因此許多企業(yè)開始自建動作捕捉工廠,來為自家的機(jī)器人提供數(shù)據(jù)——也就出現(xiàn)了本文出現(xiàn)的新工作:賣動作給機(jī)器人的人。
這也帶來了動作捕捉設(shè)備本身的爆火,據(jù)了解,截止到 2024 年年底,諾亦騰來自機(jī)器人領(lǐng)域的需求訂單獲得了超過六倍以上的增長。諾亦騰不但為機(jī)器人公司提供動作捕捉設(shè)備,也開始與不少廠商共建數(shù)據(jù)工廠,直接參與到具體的數(shù)據(jù)采集業(yè)務(wù)中。三、采集數(shù)據(jù)的四象限
在招聘網(wǎng)站的調(diào)研中,筆者發(fā)現(xiàn),雖然參與者做的任務(wù)都是類似的,招聘崗位的具體稱呼卻不同。
比如筆者試圖面試的公司,就分出了「動作捕捉崗」和「仿真崗」兩種不同的崗位。
筆者也就這兩種崗位的不同,采訪了戴博士。
戴若犁將目前獲得數(shù)據(jù)的途徑,按照是否采取動作是否由真人完成,采集的動作是否來自機(jī)器人本體等,分成了幾個象限。
對于機(jī)器人訓(xùn)練而言,質(zhì)量最高的數(shù)據(jù),就是用遙操作采集的真實數(shù)據(jù),也就是我看到的*類型招聘的內(nèi)容,被稱為「動作捕捉崗」。
雖然使用的是動捕設(shè)備,但是實際上記錄的數(shù)據(jù),并不是穿著動捕設(shè)備的工作人員身上的動作,而是動捕設(shè)備操作的機(jī)器人的動作。
機(jī)器人成功進(jìn)行了一次抓取,設(shè)備就會記錄機(jī)器人胳膊的轉(zhuǎn)角等等。因此這樣的數(shù)據(jù)是質(zhì)量最高的——數(shù)據(jù)直接從真實的機(jī)器人身上得到,甚至可以直接從你訓(xùn)練的這款機(jī)器人中得到,數(shù)據(jù)十分準(zhǔn)確。
這也就是為什么這類的工作對工作人員的身高有要求:「如果是一個兩米的人,但是機(jī)器人的胳膊只有一米六的人那么長,那么有可能出現(xiàn)機(jī)器人再往前夠,我手已經(jīng)沒法再往前伸了的情況。」戴若犁表示。
在這類的工作中,采集數(shù)據(jù)的手段,也會有一些略微的差異。
一些采集采用工作人員在一旁觀察機(jī)器人的動作的方式進(jìn)行,是否成功直接由工作人員的肉眼判斷。
而另一些招聘要求中則提到使用 VR 設(shè)備。這種采集通常是讓操作機(jī)器人的人員,戴上 VR 眼鏡,直接以機(jī)器人的視角進(jìn)行觀察——機(jī)器人本體上會存在視覺傳感器,戴上 VR 眼鏡的工作人員,相當(dāng)于看到的就是機(jī)器能看到的狀態(tài),這時候再進(jìn)行遙操作,又能記錄下更多的數(shù)據(jù)。
遙操作的設(shè)備本身也不只有動作捕捉一種。筆者接觸到的另一個機(jī)器人公司,就自研了自己的外骨骼遙操作裝置。操作人員在身上背上外骨骼,做動作,將動作傳遞到機(jī)器人身上。該機(jī)器人公司表示,這種框架下能記錄到的關(guān)節(jié)轉(zhuǎn)角更多。
去年 8 月,特斯拉也傳出要招聘員工進(jìn)行機(jī)器人的數(shù)據(jù)采集,招聘崗位提到要求員工每天步行超過 7 小時,攜帶重達(dá) 30 磅的設(shè)備,并長時間佩戴 VR 頭顯。
戴若犁推測,很有可能就是穿上了外骨骼設(shè)備進(jìn)行數(shù)據(jù)采集。純動捕設(shè)備的話,全部加一塊不會超過 4 公斤。另一種可能就是工作人員要采集非常多的全身動作,直接把采集數(shù)據(jù)的電腦背在身上了。
「雖然正常的走路動作,并不需要采集模仿學(xué)習(xí)的數(shù)據(jù)就能進(jìn)行訓(xùn)練。但是到俯身、協(xié)同等動作的時候,人的重心是怎么動的,在一個動作中左右的重心是怎么分配的,如果能夠獲得數(shù)據(jù),對于機(jī)器人的運(yùn)控仍然是有參考意義的。」戴若犁表示。
質(zhì)量次高的,則是半合成數(shù)據(jù)。也就是筆者看到的第二種崗位。
半合成數(shù)據(jù)中,動作仍然是由真實人類完成,但是收集的機(jī)器人數(shù)據(jù),則不來自機(jī)器人本體,而來自于虛擬環(huán)境。
「半合成數(shù)據(jù)是人操作虛擬世界里的假機(jī)器人本體抓假杯子。在英偉達(dá)等公司的努力下,虛擬世界里的,重力、力矩、摩擦、水流目前都已經(jīng)能模擬地很好了。虛擬世界的機(jī)器人也在通過虛擬的電機(jī)運(yùn)行,整套建模下來,就離現(xiàn)實很接近了。」戴若犁表示。
使用虛擬的機(jī)器人,仍然需要克服機(jī)器人真實本體和虛擬本體的差異,專業(yè)術(shù)語叫做 sim-to-real gap,但作為一個性價比更高的方案,也在廣泛得到采納。
象限的另外兩端,則是目前技術(shù)難度更高的兩種采集方式。
一種是直接使用動捕設(shè)備,從真人身上采集數(shù)據(jù)。這種方法類似于遙操作,但是直接省去了機(jī)器人本體。相當(dāng)于為真人進(jìn)行了數(shù)學(xué)建模,再將這個數(shù)據(jù)再轉(zhuǎn)而用在機(jī)器人中。好處在于采集到的數(shù)據(jù)不需要考慮機(jī)器人本體構(gòu)型的差異。
而另一只是純粹使用合成數(shù)據(jù),不經(jīng)過任何真人的參與。這種方法的好處是,可以大規(guī)模進(jìn)行拓展,而不必受到任何現(xiàn)實世界的限制。
這兩種方式目前都有公司在進(jìn)行探索,但并沒有成為*范圍內(nèi)的主流。如果只是某個機(jī)器人公司出資為自己的機(jī)器人收集數(shù)據(jù)訓(xùn)練,針對性地收集某款真機(jī)的數(shù)據(jù),仍然效果*。每經(jīng)過一層抽象,數(shù)據(jù)本身的準(zhǔn)確性還是會受到一定損失。
這也就是為什么筆者面試的機(jī)器人數(shù)據(jù)崗只設(shè)置了前兩種崗位的原因。
四、動作采集崗,或許未來將和
語言數(shù)據(jù)標(biāo)注崗一樣普遍
既然機(jī)器人數(shù)據(jù)這么難收集,而筆者看到的招聘崗位的人員工資并不高,那么為什么不大批招聘,迅速采集到大量數(shù)據(jù),馬上讓機(jī)器人落地使用呢?
在戴博士口中,筆者聽到了一個意外的答案。限制機(jī)器人企業(yè)無限采集數(shù)據(jù)的,更多的是成本。這個成本中*的一部分,反而不是人力和采集設(shè)備,而是機(jī)器人本身。
他算了一筆賬:效果*的采集機(jī)器人本體真實數(shù)據(jù)的采集席位,標(biāo)配就是一個機(jī)器人本體,一套電腦裝備,一個動作捕捉人員,可能還需要一個操作電腦的數(shù)據(jù)采集人員。
其中最貴的,就是機(jī)器人的本體,目前機(jī)器人本體,基本上價格在幾十萬的量級。
動捕設(shè)備相比之下要便宜許多,在幾萬到十幾萬的量級——不過,普通的慣性動捕設(shè)備,是厘米級精度的。對于一般的動作采集是夠了,如果是精細(xì)的手部動作采集,可能還不夠,還需要增加光學(xué)動捕設(shè)備,這又是一筆支出。
而人員、場地費(fèi)用,又是一筆支出。疊加起來,即使目前國際前沿的機(jī)器人企業(yè),目前建設(shè)的機(jī)器人數(shù)據(jù)采集場地,量級也通常在小幾百的席位量級而已。
換成半合成數(shù)據(jù)的采集方式的話,其中最貴的機(jī)器人本體的成本能夠減少——在筆者接觸到的機(jī)器人中,半合成數(shù)據(jù)并沒有使用機(jī)器人本體操作,而是只是使用了機(jī)械臂,成本大大降低了。
這樣算下來的話,目前動作數(shù)據(jù)采集崗,似乎只是一個能夠在全世界范圍內(nèi)提供幾千至幾萬個新興工作崗位。
不過,隨著機(jī)器人技術(shù)獲得越來越多的資本關(guān)注,這一點未來或許會發(fā)生變化。
在傳統(tǒng)的人工智能領(lǐng)域,這樣的事情已經(jīng)發(fā)生過一遍。促成了現(xiàn)在全世界驚嘆的大語言模型,背后是無數(shù)的數(shù)據(jù)標(biāo)注員,在標(biāo)注哪些是人類想要的答案,哪些是人類會說的回答。
資料顯示,我國各地發(fā)展的數(shù)據(jù)標(biāo)注基地,已經(jīng)對就業(yè)產(chǎn)生了很強(qiáng)的影響。比如,日照數(shù)據(jù)標(biāo)注基地,2024 年從業(yè)人員突破 1.1 萬人。
而在世界范圍內(nèi),數(shù)據(jù)標(biāo)注行業(yè),甚至產(chǎn)生了許多估值很高的企業(yè),比如美國企業(yè) scale.ai,2024 年估值已經(jīng)達(dá)到 138 億美元。
隨著人工智能的發(fā)展,使用人工智能進(jìn)行數(shù)據(jù)標(biāo)注已經(jīng)成為慣常操作,但是數(shù)據(jù)標(biāo)注的職業(yè)也沒有被取代,反而得到了越來越大的發(fā)展。
為機(jī)器人提供數(shù)據(jù)標(biāo)注的職業(yè),看起來才剛剛興起。
雖然機(jī)器人還沒有占領(lǐng)地球,但機(jī)器人已經(jīng)開始「奴役」人類教他們干活了。
未來,或許你的孩子的工作,就是教機(jī)器人如何切菜炒菜,而你,則在養(yǎng)老院里,享受機(jī)器人為你做的飯。
聲明:免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。