數據擴展:
數據標註是指對人工智能的原始數據集進行標註、分類、分析和清洗,以幫助訓練機器學習算法和人工智能模型的職業。
根據《人工智能培訓師國家職業技能標準》(2021版),該職業的能力特征描述為“具有壹定的學習能力、表達能力和計算能力;空間感和色覺正常,壹般文化程度為“初中畢業(或相當文化程度)”。
換句話說,這個職位不需要太高的技術和學歷門檻,需要標註的數據量非常巨大。所以高需求低崗位門檻給學歷低的人提供了進辦公室工作的機會。
很多人關註人工智能行業是看到ChatGPT的火熱影響力後才開始的,但其實數據標簽公司壹直在各個縣的小城市遍地開花。僅河南鄭州、開封兩地,河南就有近300家數據貼標公司。
據非官方統計,中國有近70萬數據標註者,近百萬人在眾包平臺兼職,從事人工智能行業的公司不計其數。應用數據標註技術的行業包括但不限於汽車、金融、醫療、物流、家居、監控、教育、互聯網等。
其中,汽車行業對數據的需求最大。中國有幾十家汽車公司,近幾十家智能駕駛技術公司。汽車工業壹直追求的遠不止安全和舒適。現在是追求智能化。如何讓汽車智能化,需要無數的數據標註者標註大量數據,供汽車識別。
因此,數據標註器的重要性不言而喻。同時,建立壹個成熟的基地團隊尤為重要。壹些汽車公司願意構建自己的數據註釋器。
有的願意和成熟的數據標簽公司聯合運營基地。河南雙鯨雖然不生產壹顆螺絲,但憑借專業的交付能力和SAIC合資基地,成為汽車制造的前端環節。