转录员,转录员是什么
转录员,转录员是什么
内容导航:OpenAI的新模型,要替代5万名转录员,会议纪要再也不会出错了【“千人百进”蹲点采访】龙里:“特派员”驻企服务零距离世间不再有阴谋诡计华裔科学家AI解码脑电波,准确率97%一、OpenAI的新模型,要替代5万名转录员,会议纪要再也不会出错了你好,我是王煜全,这里是王煜全要闻评论。
9月23号,OpenAI发布了一个叫做Whisper的AI模型,向全球开发者开源。
Whisper的英文意思就是说悄悄话,顾名思义就是一个语言AI模型。
我们之前跟大家介绍过OpenAI,就是由马斯克等人联发起,后来被微软以10亿美元收购的人工智能企业。在整个人工智能产业里,Open
AI做的事情更偏基础架构一些,也更具有者的气质。 它有代表性的是两个底层技术,每次推出都引发了商业化的浪潮:
一个是自然语言生成工具GPT-3
,开发者们要么把GPT-3集成到自己的业务里,比如通信聊天软件MessageBird;要么创业公司直接拿来创业了,比如第三方AI对话服务团队;
另一个是AI绘画工具DALL-E ,开创了文字转绘画艺术创作的热潮。抓住这一波风口的初创公司Stability AI正在冲击10亿美元的估值。
关于每一种AI工具的应用价值,有一个简单好用的判断标准,那就是看它是不是有潜力替代某种人类职业。
比如GPT-3具有了处理人类自然语言的能力,替代对象就是人工客服;DALL-E具有快速生成艺术绘画的能力,替代对象是插画师。
OpenAI这一次推出的Whisper,替代职业就是转录员。
根据职业咨询网站Zippia的统计,美国有5.1万名转录员,88.7%的转录员是女性。虽然职业地位不像公司白领那么高,但人工成本也不低,一般的转录员时薪是15美元,而高级转录员的时薪达到了25美元。
由于每个行业都有专业词汇需要掌握,转录员还会有各自擅长的细分领域。比如,医学转录员的平均年薪为3.6万美元,法律行业转录员平均在2.6万美元。从事这个行业,不光要理解行业词汇,打字速度也要远远快于常人,需要很多的耐心和认真的训练才能成为格的转录员。
如果有一种AI工具,同时拥有各行各业的专业知识,还能准确稳定地把采访、博客、对话等语音转录出来,我们就不需要专门培养那么多细分行业领域的转录员了。
从任务本身来看,音频转文字可没有你想象得那么简单。
如果说GPT-3的训练数据是海量的文字,那么Whisper要学习的是各种各样的口音甚方言,每个人说话的节奏、语调也不一样,由于很多转录场景是电话、通讯APP等非正式场,背景会有噪音,也会偶尔有中断。
这就要求Whisper在GPT-3理解上下文的基础上,要有更强的抗干扰能力、更接近人类的声音识别能力。不过目前来看,OpenAI把这个工具面向所有开发者推出,已经具备商业化条件了。要知道,GPT-3在公布API接口后,9个月时间就出现300款应用。这一次的Whisper会不会再现当初的盛况,我们可以拭目以待了。
在人工智能领域,AI音频研究是文字、图片之后下一个备受关注的前沿,商业化前景很大。
字节跳动的AI实验室有一个专门研究AI语音的团队叫火山语音,在今年9月公开了一系列AI音频技术的突破。
比如现在的有声小说APP需要配上音乐,火山语音的AI系统自己就可以理解小说这段情节的情绪,比如是喜悦还是悲伤,然后配上相应情感氛围的音乐。之前普遍的做法是让配乐师先把小说听一遍,然后在后期逐个配乐,和插画师一样,人力成本很高。
如今,越来越多的AI工具走出实验室,提供给开发者为产业和企业服务了。人工智能未来会朝着什么方向去演化呢?
我认为,现在的人工智能发展,就好比移动互联网刚刚起步的时候,整个行业都处在混沌之中,因为没有人能够讲得清楚未来是什么。
2000年中国移动推出了移动梦网,就像一个大超市,上面涌现了一批增值业务提供商。经历了一轮泡沫后,大批服务提供商陆续退出了市场。2008年的3G网络时代,百度、腾讯、360都推出了手机浏览器来抢占移动互联网入口,但那时候依然还没有大规模的、成熟的商业应用。
2012年以后,触摸屏的智能手机开始大规模替代按键手机,硬件基础开始定型,苹果和安卓瓜分了移动APP平台,越来越丰富的音乐、阅读、打车、游戏等APP就开始成长起来了,上面提供的移动支付、网约车、外卖配送等等服务,都是为我们生活真正带来改变的应用。
现在AI工具好比移动互联网发展的初期,很多都是有一定门槛的开发工具,而且面向的领域相对单一,比如AI转录文字、AI音频等等。类似的,移动互联网最早就只有短信、彩信、手机上网(WAP)和小游戏,谁能预见到后来的精彩呢。
未来会有越来越多的应用开始使用人工智能,甚催生新的商业模式,应用也会越来越丰富,当应用数量足够大的时候就容易平台化,或许会催生出不亚于当年移动互联网的繁荣。
我相信,这一波科技的坦克正在逐渐完善,未来就看谁能打出闪电战来。就像基于移动的应用企业字节跳动可以逐渐超越互联网巨头一样,未来的基于人工智能的应用企业也一定会超越字节这样的今天的巨头,成就下一个时代的辉煌。
以上就是今天的内容,更多科技产业的底层思考逻辑,会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!
王煜全要闻评论,我们明天见!
二、【“千人百进”蹲点采访】龙里:“特派员”驻企服务零距离“如果不是企业特派员杨昌海,公司恐怕会面临订单流失的情况发生,真的太感谢杨特派员了!”12月8日,贵州良济药业有限公司副总经理李萍提起企业特派员杨昌海,帮助解决打通产品运输问题时感慨不已。
贵州良济药业有限公司是一家药品生产企业,在刚过去的9月份,企业价值2000多万的药物运输困难。企业特派员杨昌海得知情况后,时间帮助企业出主意、想办法,加强与相关单位沟通,加快办理产品绿色运输通行手续,很快,企业就将价值2000多万的产品发往客户手里……
杨昌海的服务让企业订单不流失。而同样作为一名服务企业特派员的李平柱,则协助企业加快项目建设进度,助力企业进一步转型升级。
为抓住洗涤产业发展机遇、实现明年新厂年初投产的目标,贵州鑫荣诚5G智慧工厂建设项目需要加快相关手续办理。企业特派员李平柱了解情况后,时间加强同相关部门进行深入沟通,并且辗转于龙里、贵阳两地,按照项目推进计划,协助企业快速完成了手续办理。
目前,项目进行设备安装调试,安装进度已经完工30%,将于明年初进行试投产,投产后实现企业内全生产要素的全互联,主要工序管理全部实现自动化、信息化、智能化,实现年产量30万吨以上,年销10亿元以上。
在龙里还有许多像杨昌海、李平柱那样,扎根企业一线,为企业做好服务的特派员。
记者走进贵州昌哥食品有限公司,工人们正在加班加点进行辣椒原料运输、筛选、烘焙、配制、研磨,对产品进行包装、冷藏等工作,抓紧生产市场需求的辣椒制品。
作为一家省级扶贫龙头企业,昌哥着力做好助力乡村振兴,每年,公司要收购龙里辣椒2000多吨用于生产,利益链接当地农户2000户以上。前段时间,企业特派员苏济文与企业人员同吃同住、共同抗疫,帮助企业协调生产原材料、产成品通行和生活、疫情防控物资采购,保障企业订单正常生产。
如今,龙里经开区始终坚守“工业强县”发展理念,以园区为巢,以项目为抓手,筑巢引凤,招大引强,大力发展实体经济,不断夯实产业基础。现园区入驻企业902家,其中规模工业企业171家,高新技术企业有33家,数量黔南州第1位。“特派员”驻企,服务零距离。企业“特派员”工作机制是龙里县以“贵人服务”为抓手,打造“四贵四心”优化营商环境,助推“千亿级重点工业园区建设”重要举措之一。
今年以来,龙里深入实施企业特派员机制,创新推出“1+1+1”服务(每个规模以上企业、重点在建项目以及拟培育企业,实行“一个县领导、一个服务单位、一个网格员”的“1+1+1”服务机制)等服务机制,变“坐班服务”为“上门服务”、“单一服务”为“综服务”,全面推进工业高质量发展。
据了解,龙里县自2013年探索实施企业特派员制度以来,已累计选派干部322人(次)到企业开展服务。
贵州日报天眼新闻记者 王维维
编辑 胥芬芳
二审 刘思博
三、世间不再有阴谋诡计华裔科学家AI解码脑电波,准确率97%防走失,电梯直达安全岛 报人刘亚东A
来源: 新智元 作者: 新智元
新智元报道
来源:sciencealert
编辑:张佳
【新智元导读】 不用你说话,AI就能将你的想法转换成文本,是不是毛骨悚然?日前,美国加州大学旧金山分校的华裔科学家Edward
Chang团队使用人工智能解码系统,把人的脑电波转译成英文句子,准确率高达97%。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-
wly)或扫描文末二维码了解详情。」
世界才刚刚开始适应像谷歌和亚马逊这样的公司制造的虚拟助理所产生的力量,如果用一个词形容这些虚拟助理识别我们语音的度,那就是“ 不可思议 ”。
而现在,一个更加让人“ 毛骨悚然 ”的里程碑就在眼前: 人工智能系统可以将我们的大脑活动转化为完整的文本,根本不需要我们说一个字 。
这不是科幻小说。近几十年来,脑机接口的发展突飞猛进,从动物到人类参与者,已经在尝试这种事情。
日前, 美国加州大学旧金山分校的科研团队使用人工智能解码系统,把人的脑电波转译成英文句子,准确率高达97% 。
论文地址:
-020-0608-8
这项研究3月30日发表在《自然·经科学》杂志上,题为“Machine translation of cortical activity to text
with an encoder–decoder framework”(利用encoder-decoder框架,将大脑皮质活动翻译为文本)。
Edward Chang
这项研究由华裔科学家、加州大学旧金山分校经外科教授 Edward Chang 博士领导。Edward
Chang博士的研究重点是言语、运动和人类情感的大脑机制,同时他也是加州大学旧金山分校和加州大学伯克利分校的作单位——经工程与假肢中心的联负责人。
人脑电波转译成句,准确率高达97%
为了提高准确性,研究团队使用了一种新的方法来解码皮层脑电图: 皮层活动中产生的电脉冲记录,通过植入大脑的电极接收 。
在这项研究中,四名癫痫患者戴上了这种植入物以监测癫痫发作,研究团队进行了一项辅助实验:让参与者朗读并重复一些固定的句子,同时电极记录他们的大脑活动。
然后,将这些数据输入到经网络中,该经网络会根据实验的音频记录,分析与特定语音信号相对应的大脑活动模式,比如元音、辅音或嘴巴动作。
图1:解码过程
此后,另一个经网络解码了这些表征(从重复的30–50个口语句子收集而来),并且使用它来尝试预测正在说的话,完全基于语句的大脑皮层特征。
图2:解码句子的单词错误率
这个系统产生了一个 单词错误率(WER) ,在最好的情况下, 其中一个参与者将大脑信号转换成文本的错误率只有3% 。
这可能是AI能够获得的最接近于读取人类思想的结果 ,少在严格意义上的实验条件下是这样的。
图3:经过迁移学习训练的encoder–decoder模型的解码MOCHA-1句子的单词错误率
在他们的论文中,研究团队详细列举了大量参与者所说的参考句,以及经网络产生的预测,有时是错误的,但并非总是如此。但是,当错误显而易见时,它们似乎与人耳听到的语音结果有很大不同(这可能是引入AI的数据集有限所产生的副作用)。
表1:错误解码的句子示例(左边是参考句,右边是预测句)
在最不准确的情况下,这些错误实际上与所说的话没有任何关系,无论是语义上还是语音上。比如,“she wore warm fleecy woollen
overalls”(她穿着温暖的羊毛工作服)被解读成“the oasis was a mirage”(绿洲是一个海市蜃楼)。
尽管如此,尽管这些明显的错误非常奇怪,但研究小组认为:总体而言,
该系统可能构成了基于人工智能的大脑活动解码的新基准,而且在最好的情况下,与专业人类语音转录相当,单词错误率为5% 。
图6:解码过程的图形模型
图7:网络架构
当然,处理普通人说话的专业转录员需要应对的词汇有成千上万个,相比之下,这个系统仅需学习有限的短句中使用的大约250个单词的大脑皮层特征,所以这并不是一个公平的比较。
尽管有许多障碍需要克服,但研究小组认为,该系统有可能成为失去说话能力的患者使用语言修复的基础。如果真的做到这一点就了不得了。
“在一个长期植入的参与者中,可用的训练数据量将比本研究中使用的半个小时左右的语音大几个数量级,”作者解释说:“这表明该语言的词汇量和灵活性可能会大大增加。”
参考链接:
/new-ai-system-translates-human-brain-signals-into-text-with-up-to-97-accuracy
以上就是小编为大家整理的转录员的内容,更多关于转录员可以关注本站。