人工智能背后人工力量:全国从事数据标注人数超千万

2019-09-10 09:39:47爱云资讯阅读量:1110

“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”

目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。

近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。

这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。

机器学习必需数据标注

AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”

但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。

王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。

不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。

人工标注帮助AI快速落地

随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。

“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”

据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。

常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。

他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。

“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。

数据标注需求持续增加

“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。

因此,标注这项工作会一直存在。

但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”

目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。

据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。

延伸阅读

AI数据服务发展新方向:细分化、多模态、专业化

数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。

当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。

同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。

此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。

相关文章
  • 智联招聘:二季度长沙企业平均招聘薪酬9952元 人工智能等新兴行业薪酬领跑
  • 科大讯飞与厦航共建追光人工智能实验室
  • 微软的Designer应用登陆iOS和Android,带有人工智能编辑和创作功能
  • 首届人工智能先进技术成果供需对接大会将于本月在绵阳举行
  • 赋能新质生产力 SGS为猎户星空颁发中国首张人工智能管理体系认证证书
  • 万兴科技入选赛迪2024年中国人工智能行业大模型企业竞争力百强榜
  • 华孚时尚新疆人工智能算力中心项目建设大步迈进——旗下华孚科技与核心供应商签署设备与服务采购框架协议
  • 浪潮云洲“知业大模型“亮相2024世界人工智能大会
  • 南京大学携手和鲸、智谱,签署“101 数智领航计划”,共启人工智能赋能教育新篇章
  • 鼎捷亮相“2024世界人工智能大会”,加速推动AI应用场景落地
  • 卓翼飞思技术领航,助力人工智能大赛上海赛区选拔赛圆满落幕
  • 云知学院丨让人工智能走向普罗大众,云知学院在厦门、信阳两地开展专题授课
  • 2024世界人工智能大会在沪开幕,微软/微美全息全面助力“AI+”技术通用
  • OpenAI开发系统来确定其人工智能系统的智能程度,从1级到5级不等
  • 赋能教育变革 人工智能如何助力教育技术平权
  • 以人工智能为重点的《复制法案》将使移除数字水印成为非法行为
热门文章
更多>>
  • 英伟达与Mistral AI联合发布企业级AI模型Mistral-NeMo AI
  • 英伟达与Mistral AI联合发布企业级AI模型Mistral-NeMo AI
  • OpenAI发布一款更便宜、更智能的新模型,命名为GPT-4o Mini
  • OpenAI发布一款更便宜、更智能的新模型,命名为GPT-4o Mini
  • 微软将英伟达的GeForce Now集成到Xbox游戏页面中
  • 微软将英伟达的GeForce Now集成到Xbox游戏页面中
  • 微软的Designer应用登陆iOS和Android,带有人工智能编辑和创作功能
  • 微软的Designer应用登陆iOS和Android,带有人工智能编辑和创作功能
  • OpenAI开发系统来确定其人工智能系统的智能程度,从1级到5级不等
  • OpenAI开发系统来确定其人工智能系统的智能程度,从1级到5级不等
  • 以人工智能为重点的《复制法案》将使移除数字水印成为非法行为
  • 以人工智能为重点的《复制法案》将使移除数字水印成为非法行为
头条文章
更多>>
  • 北京筑龙大模型落地应用方法论,打造采购供应链数智化新引擎
  • 瓴知TMA-4.1版本 基于大模型与威胁建模的最佳实践,重磅发布!
  • 科大讯飞影视顾问智能体:革新影视点播体验,开启智能互动新纪元
  • 马斯克Neuralink推进第二例脑机接口手术,微美全息正快速打开应用场景
  • 宏工科技散料包装自动化:FFS与FBS技术引领行业变革
  • Nullmax纽劢2024技术盛会:Nullmax Intelligence推动全场景应用落地
  • 钛动科技CEO李述昊出席青年数字领袖对话会,探索“数字媒体与社交电商”浪潮下出海新机遇
  • 神州鲲泰亮相北京数字安全大会,以智能算力构筑数据安全的坚实底座
重点文章
更多>>
  • 鲁大师2024年手机半年报:AI手机势头正猛,影像旗舰掌握市场话语权
  • 揭秘华为Pura 70 Ultra:超聚光伸缩镜头,恒星般诞生的黑科技
  • 荣耀平板MagicPad2明日开启首销:旗舰体验全面升级!2899元起
  • 科沃斯机器人大模型算法通过备案,AI大模型与智能清洁结合带来哪些超级体验?
  • 美图携手三星,以AI技术为手机图像领域注入创造力
  • 携手火山引擎,三星Galaxy Z系列手机为用户带来AI新体验
  • 华山A1000芯片助力智驾升级,东风奕派eπ007迎来重磅OTA
  • 三星Galaxy智能穿戴新品发布:AI赋能 焕新体验
推荐文章
更多>>
  • 易点天下与腾讯云达成合作,探索全球化智能营销创新模式
  • 云上飞跃,富海集团以青云 QingCloud启航新发展
  • 容联云在WAIC 2024发布容犀大模型应用,重塑企业“营销服”!
  • 浪潮云洲“产业融合一体化服务“模式 吹响特色产业强县“集结号“
  • 车路云一体化建设:三旺通信TSN方案构建智能交通神经网络
  • 玄武云·玄瞳全面升级,AI+SaaS引领消费品产业革新
  • 车路云一体化规模化应用加速,路侧基础设施覆盖先行
  • 仙斓科技与华为云签署全面合作协议,共推AI产业及生态蓬勃发展
热点文章
更多>>
  • 智能物联新时代,曼顿科技让智慧用电触手可及
  • 中移物联智慧烟感管理中台为城市消防监管再添“利器”
  • 智慧矿山MapGIS赋能:云南省矿产资源三维可视化综合监管平台二期通过验收
  • 中兴通讯与中汽研科技达成合作,共享智能汽车产业机遇
  • 大模型加持!海信网络科技加速大模型应用落地 释放智慧交通发展新动能
  • 京东方与中国击剑队合作,用显示与物联网技术提升训练效率与竞技水平
  • 中移物联网“5G专网”助力工厂智能化升级
  • 中移物联火瞳助力“幸福食堂”为银发居民用餐添实“慧”
关于我们| 联系我们| 免责声明| 会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023

PHP网站源码石岩seo网站优化大芬网站优化塘坑网站搭建大运seo双龙seo网站推广布吉关键词排名包年推广宝安如何制作网站观澜企业网站设计福田网站定制永湖百度关键词包年推广深圳网站推广坑梓网络推广木棉湾SEO按效果付费福永企业网站建设龙岗外贸网站制作塘坑企业网站建设罗湖关键词排名福永百度网站优化塘坑至尊标王平湖网站优化软件坑梓百度竞价包年推广龙岗网站关键词优化龙华百度网站优化大浪网站优化按天扣费惠州SEO按效果付费惠州模板网站建设惠州seo排名坂田网站推广方案布吉网站优化按天扣费同乐百搜标王歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化