AI大模型折疊：資料標註「民工」月入不過5000，單價從5毛降到4分

原文來源：Tech 星球

圖片來源：由無界AI生成

鄭雯至今覺得記得幾個月的下午，那天，她一個小時就賺了2毛錢。她畢業於湖南的一所專科學校，是一名大模型資料標註師，每天的工作並不複雜——為自己領取的原始資料（如圖像、影片、文字等）加上標籤。

但大模型對於資料的品質要求很高，那天當時一張圖片被要求反覆修改了8次才通過，整個修改過程花了一個1小時。也就是說，她這一小時只賺了2毛錢，而正常情況下可以賺到12塊，可以拉600個框框。 “錢不好賺”，她一再強調。

這幾乎是所有數據標註從業人員的共識。數據標註的一端承載著從業人員不足5,000元的月薪，他們如螞蟻雄兵般建構起大模型的基石。而另一端則是網路大廠們的AI夢想，他們希望藉此超越Chat GPT 4。

資料標註採用最原始的計件製算工資，並不存在職場上的勾心鬥角。唯一的苦惱這份過於枯燥的工作，讓他們中的大部分很難堅持完3個月。而且，幾乎所有人都告訴Tech星球，你最好別去。

但他們不知道的是，要不了多久，他們中的大部分可能會失去這份枯燥的工作。因為，那些簡單的數據標註將會被AI取代。

5毛到4分，價格暴跌

林雙在2017年賺了一筆「快錢」：15天6000多元。對於專科畢業的林雙來說，這個收入著實可觀。那是人們對AI期望爆棚的時候，幾乎沒有人懷疑過它的未來，所有的投資機構都堅信這裡可以誕生十億、百億甚至千億規模的企業。

幾乎所有AI技術的背後都是演算法、算力、算據的競爭，龐大的數據是技術優劣的底層。背景光鮮的程式設計師們坐在「北上廣」的辦公室裡，透過程式碼迭代演算法描繪AI藍圖，而大專生、寶媽等在三四線城市的格子間處理龐大數據包中的圖片、文字、語音等。

ChatGPT也不例外。一位百度文心一言專案組的員工稱，大模型本身並沒有什麼新技術，也沒有太高的技術壁壘，關鍵的問題是算力壁壘形成的參數壁壘。

大模型時代的數據標註員和以前的也並沒有特別大區別，為數不多的差距可能是更舒適的辦公環境和對標註品質的更高要求。一位數據標註的從業人員向Tech星球介紹，一般剛入行時，他們會組成一個10人左右的團隊，這其中有一個人承擔質檢工作，如果不合格，就要員工打回去重做。而數據的品質則決定著大模型的優劣。

資料民工們也不關心，AI技術又有什麼新的分支，他們更在意的是單價，因為這裡是計件算工資。

「那會兒單價高的時候，拉一個2D框就有1毛多，我最高的時候乾了10多個小時，一天就賺了600多元”，林雙回憶道。不過，這不是最高的，一位標註人員稱，早期2D拉框的價格最高能達到5毛錢。

拉框是資料標註中常見的操作，標註員會根據要求對圖片中的物體，如車輛、紅路燈、障礙物等畫框標註。拉框分為2D和3D，後者的價格會比較貴一些。

但這種熱度並沒有持續多少，伴隨著越來越多人湧入以及AI行業整體發展的不夠順利，標註一個圖片的單價越來越低，林雙稱現在最低的只有4分錢。

「如果是拉框，行業的平均單價是在0.15元左右，但還是要看項目，如果自己可以接到單，接到一手單的最低要求應該是100個入職員工，那規模挺大，3D的框有可能達到3毛錢一個，不過很少可以有達到5毛的。”

當然，如果你本身俱備醫療、金融方面的專業知識，那麼單價則會更高。例如，許多醫療大模型會要求標註員有是臨床專業，且有相關經驗。

大部分從業人員每個月的收入都不過5000元，其中也不乏少數的幸運兒。楊碩本來在四川經營服飾店，但疫情影響了他的生意，他在今年轉型做大模型數據標註，現在，他每個月有8000元收入，「我是和公司簽了合約，交了9500元的加盟費，合約裡寫著每個月最低收益是7000元。”

究竟誰賺到錢

阿里、騰訊、字節這樣的互聯網大廠，以及上汽、領克等車企是數據標註業務分發的源頭，想要以最好的價格直接從源頭獲取訂單，數據標註公司們需要具備一定的規模。

一位數據標註公司員工對Tech星球稱，他們直接從大廠拿到訂單，但是大廠要求他們得有500人，因此他們會選擇透過加盟或子公司的方式來達到人員要求。

二者的差別在於加盟適用於初入的人組成工作室，如果要成立子公司，一般一個區域就只有一家。小白工作室需收取加盟費，2.5萬或3萬。子公司是一個區域的獨家代理商，需要繳交5萬費用。而他們可以三年以內保證訂單的充足，並負責3年內的技術培訓，這些工作室或者子公司們組成一個大的工會，幾百到幾千不等。

上述數據標註公司員工稱，大模型的火熱再次將數據標註行業推上熱潮，現在幾乎每天都有人去他們公司拜訪。

但事實上，經營一個數據標註公司並不容易。數據標註公司告訴你的是，這個行業前1到2個月比較難做，因為員工需要爬坡期，前期只需要5-8個人就夠了，40多歲的阿姨都沒有問題的。

穩定是數據標註公司或工作室最重要的因素。但Tech星球接觸的大部分標註員工往往都因為枯燥無趣在3個月內「光速」離職，新員工並不是馬上可以到崗實操，人員流動性大的結果就是數據標註的品質和週期不夠穩定。缺錢的寶媽是數據標註工作室最喜歡招納的人。

“找兼職肯定不行的，會有空檔期，房租和電腦投入了，會虧錢，最好的方式是全員坐班”，開過數據標註工作室的人魏銘向Tech星球介紹。

大部分數據標註公司的回款週期是3個月起步，最多半年，但他們需要以月付的方式給員工工資，這需要一定程度的資金儲備，「一個人3500，100個人，3個月就是105萬。”

張建曾經加入過一個又200多號員工的工會。第一年，他們趕上產業的爆發期，2D拉框的單價高達5毛，那一年他所在的工會賺了400多萬。

但第二年，行情急轉直下。標註的單價變低，員工的流動性更快，空檔期增加，再加上兩個大項目都沒有結算，一整年過去，他們虧了300多萬人。 “老闆都說短時間內堅決不碰數據標註”，張建表示，“他們現在正在和上游打官司。”

這是利潤微薄的生意。海天瑞聲是目前數據標註產業首家主機板上市公司，去年這家公司有2.63億元營收，利潤只有2,945萬元，淨利率剛超過10%。但今年上半年，由於客戶數量減少，這家公司便陷入了虧損。

隨時可能被取代的“螺絲釘”

靠著肯亞工人螞蟻搬家式的增持，最後OpenAI的語言對話大模式能力脫穎而出。這些被稱為數據民工的普通人支撐起了山姆·奧特曼（OpenAI創始人）的AI夢，但如果不出意外，他們手中的大部分工作，很快就會被自己參與創造的新產品所取代。

在國外，Open AI 前員工於2021年成立的Anthropic今年已融資51.5億美元，是其過去兩年融資總額的7倍還多。這家公司提供了一種新的方法，可在較少人工參與的情況下，便訓練出模型。

今年，AI新創公司refuel推出了一個名為Autolabel的開源工具，可以使用市面上主流的大型模型來對資料集進行標註。該公司的測試結果稱，Autolabel的標註效率相比人工標註提高了100倍，成本僅為人工成本的1/7。

在國內，一家名為視智未來的公司也正在打造標註大模型。他們在受訪時表示，有些項目已經用GPT交付了，準確率方面達到了80%多，與人工接近。

不過，海天瑞聲認為，AI一定不會實現完全的自動化標註，因為機器如果想要持續演進，使其更接近人類的判斷和理解，就一定需要人類作為引導。

幾乎所有從事過數據標註的人員，都向Tech星球透露同一個觀點：數據標註是一個沒有門檻的工作，只需要你熟練使用電腦即可。

但事實上，如果簡單的標註可以用AI來完成，那麼人工參與的將是難度更高的數據篩選和標準工作，這也意味著行業的門檻將會不斷提高，尤其是ChatGPT、文心一言類別的大語言模型。

作為對照，早在ChatGPT走紅前，OpenAI就組成十幾位博士生來「打標」。而百度在海口的數據標註基地擁有數百位專職大模型資料標註師，標註師的大學率達100%。

這類大語言模式的特點是，標註員需要具備一定的知識儲備和邏輯分析能力。根據《財經十一人》報道，標註師們需要判斷問題類型，隨後給5個回答分別打分併排序，分數區間為0-5分，如果打分低於3分，還要標註出具體原因，例如「答非所問（0分）」、「嚴重離題（1分）」、「有邏輯問題，有事實性錯誤，比例較小給2分」等。

數據標註的另一個熱門領域是自動駕駛。根據德勤的報告顯示，2022年自動駕駛領域的標註需求佔整個AI下游應用的38%，預計到2027年，比例將上漲到52%。相較於大語言模型，對於自動駕駛領域的模型而言，那些簡單的拉框操作依然有著較為寬鬆的學歷要求。

標註員們是人類從行動互聯網時代到人工智慧時代的基石，Tech星球接觸到的大部分從業者大多不清楚AI將帶給他們那些改變，也不知道他們為了AI的發展做出的貢獻，他們只是網路時代的新一代螺絲釘，而且隨時可能被取代。

（備註：文中人物皆為化名。）

AI大模型折疊：資料標註「民工」月入不過5000，單價從5毛降到4分

ADA的3美元進球看起來很謙虛，旁邊是RTX的40倍價格預測

盧娜創始人誇恩在美國被控欺詐罪

Mara Holdings以1.68億美元收購法國人工智能公司64%股份

韓國投資者紛紛追捧「幣股」，Bitmine成為熱潮新寵

Metaplanet的比特幣持有量達到6100萬美元後市值達到18.5億美元

Grayscale的最新舉動會導致Sui價格飆升嗎？

比特幣四年周期結束，XRP或將突破$3.30，以太坊引發Coinbase $132,500,000轟動

以太坊山寨幣引發關注ETH將在紀錄之路上攀升

AI大模型折疊：資料標註「民工」月入不過5000，單價從5毛降到4分

Related Posts