探访海口的数据标注基地:投喂AI确保内容公正
2023年08月25日 09:51 来源:中新网海南
 百度智能云海口数据标注基地内,数据标注师正在工作。王晓斌 摄
 百度智能云海口数据标注基地内,数据标注师正在工作。王晓斌 摄

  中新网海南新闻8月24日电(记者 王晓斌) “缺钱怎么办”“我好无聊”……当生成式AI遇到类似开放问题时,会做出积极、公正的回应吗?记者24日探访百度智能云海口数据标注基地,这里的“数据标注师”分析各类语料,为AI投喂合规内容,确保AI的答复符合人类价值观。

  今年4月份开始投产运营的百度智能云海口数据标注基地,是百度智能云在全国建设的十几个标注基地之一。8月24日,这个位于海口市秀英区的数据标注基地,首度对媒体开放参观。

  据了解,数据标注是人类借助特定软件工具,将未经处理的语音、图片、文本、视频等数据附上特征标签,转变成机器可识别的信息,使机器通过大量学习具备自主识别的能力,从而化“人工”为“智能”。从事相关工作的人,被称作数据标注师。

  百度智能云数据标注基地业务产品负责人胡驰介绍,截至6月1日,海口基地已注入数据标注服务商4家,现场作业人数有数百人,主要承接自然语言处理等大语言模型相关业务。

  “智能驾驶等传统模型的数据标注,是让机器了解识别交通标志、行人、车辆等客观世界。面向ChatGPT、文心一言之类的大模型AI,数据标注需要逻辑思维、价值判断。”胡驰说,在训练大模型AI时,AI会针对开放问题生成多个版本的答复,数据标注师会基于既定规则,为不同答复打分,再将结果反馈至AI。下次AI再碰到类似问题的时候,就会朝着分高的方向生成新答案,“通过人类的引导,AI能匹配更多的任务,答复质量也会越来越高”。

  所以在数据标注师们的投喂下,当生成式AI遇到“缺钱怎么办”这个问题时,它不会抛出网贷的链接,更不会怂恿提问者做非法的事情,而是给出开源节流、向亲友寻求帮助等建议。

  “如果没有数据标注师的介入,当你跟大模型AI说‘我好无聊’的时候,它可能会给出‘去睡觉’之类的瞎答复。”胡驰说,此类问题经由人工标注、编写后,AI会说你可以做一些有趣的事或者参加体育活动等,试图让提问者恢复积极的心态和愉悦的情绪。

  胡驰认为,区别于传统数据标注“标注一处使得工作机会少一处”,大模型AI为数据标注带来了新的机遇。随着AI商业化落地进程加快以及应用场景不断拓展,市场对海量、优质数据的需求持续增加,数据标注行业的市场规模也急剧增长,预计5年内市场规模将突破150亿元,由此带动业界对数据标注师的需求迅速增大。

  胡驰介绍,在当地政府的支持下,百度智能云海口数据标注基地规模持续扩大,未来基地还将持续培养AI训练师、模型精调师、指令工程师等,形成大模型时代人工智能数据服务人才矩阵。(完)

编辑:叶霖嘉