以下为褚瑞的分享内容摘录,雷锋网《AI金融评论》做了不改变本意的删节:
各位听众你们白天好,我是来也科技的褚瑞,我昨天的主题是RPA——数字化变革的连接器。
“连接器”的概念,怎么理解?打个比方,从2000年以后,私家车开始逐步走进我们的生活,私家车不仅仅是一个交通工具,它如同一个连接器,把活动圈联接在一起,大大拓展人类活动范围,改变人类的生活方式。
汽车作为连接器,一般有硬联接和软联接两种联接形式。两个地点之间有路,汽车可以开过去,这是“硬联接”;两个地点之间没有路,性能好的越野车也可以开过去,这是“软联接”。
汽车作为连接器,还让驾驶显得越来越简单。以前的驾驶员都是一种职业,现在普通人也可以当驾驶员。我们称之为“平民驾驶员”。
这是车辆作为连接器的两个特征:支持软硬联接、支持平民驾驶员。这背后是车辆厂商多年来不断的努力。
按键精灵的诞生年代
2001年火起来的网路游戏,需要玩家通过冗长的操作,完成NPC指定的任务能够升级。
当时,我在学院结业前夕,用C语言写一段无限循环的代码,每过一秒钟,就在横座标100,纵座标100给按一下键盘。这个程序很简单,但它可以取代繁杂的人力操作。然而,它有一个十分致命的问题——不能应对业务变化,坐标变了,程序就要更改。
我们发觉,这上面的主要问题在于:它的平台和业务逻辑是绑在一起的,灵活性不够——这时,按键精灵应运而生。
按键精灵的本意是将平台和业务逻辑进行分离,让大众在平台上订制自己的业务逻辑。用户无需懂得编程知识,撰写一个脚本,在平台的作用下,代替用户的右手去执行一系列的键盘及鼠标动作。
按键精灵1.0版本解决的是打固定靶的程序,连变量的概念都没有,很快也不能满足需求了,所以升级了按键精灵2.0。
2005年,我们给按键精灵降低了插件功能,提供好多预置插件,还可以通过编程添加其他的功能。这样一来,插件可以给按键精灵带来更多神奇的功能。
这就是按键精灵做得很成功的一点,它把用户自行开发的功能联接在一起了。按键精灵本身提供的功能十分有限,但在此以后,它就可以做到更多有意思的事情。知乎上也有讨论过按键精灵能做什么有趣的操作——这正是“连接器”的意义所在,价值也通过这样的联接操作而彰显。
通过这么多年的发展,按键精灵给我们好多启示:
第一,业务逻辑是会变化的。就像游戏,任务会变,所以要把平台和业务逻辑分离开,各自负责专门的事务。
第二,有些对业务可能不太熟悉、但对IT非常熟悉的IT专家,他们可以利用连接器,运用自己擅长的技术,可以作出厉害的脚本。也有些平民开发者,不懂IT技术,懂业务,连接器把她们联接,大家能做更多很有意思的事情。
RPA的“暴风成长”
2015年发生了一件十分重要的事情。美国的一家公司,前身是罗马尼亚公司DeskOver,之后更名为UiPath并领到天使轮融资,迅速扩大业务规模,就此推动了一个行业的爆发。
当时她们和一些业务合作伙伴,包括会计师事务所、咨询公司,一起推出了好多财务、人力资源等方面的解决方案,大家才发觉,这些领域当然可以靠自动化实现降本增效。
2017-2019年,UiPath迅速发展,成为一家高速成长的全球领先企业,RPA时代也就此到来。
RPA的全称是机器人流程自动化。现在的办公领域,有很多这些日常重复性工作,规则和逻辑十分明晰。这种情况下,用自动化的机器人软件取代人工的自动完成。这跟当初游戏里不停点滑鼠一样,本质上没有不同。
一个常见的问题是,很多系统之间数据没有打通,此时用机器人能十分容易地做到这些非侵入的跨系统数据集成,不需要改程序,只须要模拟人操作。这是RPA十分重要的应用之一。
2015年,RPA行业被引爆;2019年以后,随着谷歌宣布即将入局,这个行业被推到了一个新的低点。微软在2019年的时侯宣布它要推出Microsoft platform,这个平台包含4个主要的功能组件,其中Power Automate就是谷歌拿来实现机器人流程自动化的重要工具。
很多人如今都想不清楚,为什么RPA热度如此高?
咨询机构预测,到2023年,RPA的服务和软件的收入规模大约是120亿美金。
我们可以发觉RPA好多有趣的特点:
1、大顾客小订单。使用RPA的厂商,很多是世界五百强这些大顾客,但它们的RPA订单常常很小,可能只购买几十万的协议。但那些大公司普遍对RPA表现出了她们的关注,因为它们内部有很多复杂的流程,更需要用自动化联接。
2、RPA从2015年爆发上去,到明天,一直采用订阅的方法,客户须要每年支付一定的金额,软件厂商提供相应的、到位的服务,才能促使买卖双方达成合作。RPA的订阅续费率很高,因为大多数公司对RPA都有一定的需求。
可以说RPA是具有普适性的,很多行业、领域、部门还会有这样的需求,这也是大众看好RPA这个方向的缘由之一。
此外,同一行业内不同部门会有不同的需求,好的疗效可以加速它的传播效力。
从卖方市场来看,为什么RPA这么热?
这两张图表现了我国出生人口和中考录取率的变化。图一显示,1990-1999年,我国每年出生人口从90年的2600万增加到了99年的1100万,意味着人口老龄化成为了一个严重的问题,并且会越来越严重,人力成本也急剧降低。
除了年青人口的减小,图二还可以见到中考录取率也在降低。98年的时侯中考录取率只有6%,到了2017年弄成65%,增长了10倍,意味着好多蓝领工作很难找到人去做。大多数人不太乐意做这些机械重复劳动,这种情况下用机器人取代人做简单重复劳动,就成为了重要的趋势。
还有一个缘由,RPA适宜数字化变革的须要。以前建行存款用铅笔填写信息,跨行兑付,但这些方法被淘汰了;信息化之后业务无纸化,通过支付宝随时付款。
信息化带来好多益处,但也有一定问题。信息化带来一波业务下降,但当下降到一定程度后又显疲乏。这时有人提下来,要把已有的数据整合,实现数字化变革,产生新的价值。
目前信息化壁垒过分严重,系统与系统之间的数据没有打通,很难将数据进行整合。所以RPA这些非侵入式,在不修改系统的前提下,能够模拟人的操作,将不同系统的数据进行提取及整合。
所以RPA是数字化变革的一个连接器,把好多系统联接上去,这种联接本身就是它的价值所在。这个概念是谷歌提下来的,微软Platform的四个组成部份之一就是Data Connectors,意思是数据的连接器。
就像开头举例的车辆,RPA也具有连接器的一些特征,它也支持硬联接和软链接,也支持这些专业开发者和平民开发者。
评价一个RPA产品的优劣,一定程度要看它是否支持多种硬联接,同时支持多种常见的软联接。
在RPA里,硬联接是指业务系统有提供插口,可以去做联接,类似Excel,有COM的插口。邮箱也可以通过业务插口去操作。
软联接是指在没有业务端口的情况下,系统间的数据难以互联,这时候RPA的“非侵入”特性就显露下来了,它还能通过界面元素的抓取和自动化操作,实现无插口的数据获取和写入。硬联接和软联接各有优势,双剑合璧就愈加强悍了。
其次,也要看RPA是否支持低代码。通过基本的变量、表达式等很简单的代码,就能够实现一个自动化的逻辑。这样,一些平民开发者也能很容易学会它。
虽然还须要学习,但是门槛早已增加了好多,大家可以通过一种简单的方法,就能够实现自己的业务流程自动化。
Q:很多人听完RPA以后会问,RPA似乎没有哪些技术门槛?
RPA的技术门槛不在于让键盘手动跑起来(这个技术我在学院毕业之前才能做,一个应届生能够做的事情,当然没门槛),而在于怎样把低代码做好,让平民开发者也会使用。
Q:某某开放源代码,RPA市场也会像先前一样弄成红海?
其实不是如此回事,因为这种源代码,比我在2001年做的工作也就稍稍先进一点点,仍然不是一套成熟的产品。
Q:为什么我们不去做一套数据总线,然后把业务系统都联接到数据主线上来?
这个看法非常好。在车辆时代,这种数据总线我们把它称为铁路,所以说数据总线跟RPA的区别,就好比是铁路和车辆。
数据总线有很多的优势,传输速率快、传输量大,安全性更好,但RPA有它奇特之处,就像铁路未能完全替代车辆,只能在各自领域发挥作用。
Q:Python语言如此流行,用Python直接加一个开发包不能实现自动化吗?
Python语言不够低代码,经常有人开玩笑说Python语言是要拿着游标卡尺去写的,用它去实现自动化的话,不能做到我们上面所说的平民开发者的目标。
RPA的必经AI之路
RPA作为连接器,也遇见了一些挑战。不同业务系统之间的数据,只有20%是可以直接借助的结构化数据,比如表格数据库,剩下80%都是非结构化数据。现在还是没有办法联系到一起。
通过AI,把非结构化数据转化为结构化数据,连接器能够处理剩下80%的数据——所以,RPA+AI才是连接器的未来阶段。
因为AI做了脑部的工作,可以把非结构化的数据,比如图片、声音、文字,转换成结构化数据,然后去做手的工作。
很多人问,既然RPA+AI能起到简单作用,比如像阿里云、百度云这样的云平台都有这些标准的插口提供了,那把这种做得比较好的AI能力直接引到RPA里可以吗?
可以,比如扫描一张收据,其实不用云平台,有专门的收据扫描仪就可以,将仪器跟计算机联接上去,就一张张手动扫描收据了,自动把收据信息从图片、纸质方式弄成结构化数据的方式,这种疗效早已挺好了。
扫描仪和RPA联接这些还属于中级阶段,我们称之为联接AI能力的连接器。
什么叫中级连接器?就是把一些智能化的功能,把AI所能做的一些事情给分装到连接器里。这种智能化的研究系统,能解决好多中级阶段不能解决的问题。
有时RPA本身能力有限,需要用AI提高。有的是标准AI场景,比如扫描收据、身份证,这都是十分标准的文档,已经有很多插件做得挺好,直接调用就好。
RPA和AI的界限极其分明,AI负责把非结构化数据转成结构化数据,而RPA拿复杂结构化数据来做处理,这是交互极其简单的情况。
首先须要辨识出软件里有多少界面元素,一般的RPA软件都能做到,但有些软件不是在本地操作系统里运行,而是运行在远程计算机,我们通过远程联接起来。
这种情况下,就可以运用AI辨识界面。我们用了 大概几十万张的软件界面图片进行标记,拿深度学习模型去训练。在这个模型里,你只要按下一个键,它能够手动帮你辨识,把虚拟机里的基本元素,比如输入框、按钮、标签等都用红色辨识框标记。
注意它除了是辨识有文字的元素,一些输入框是空白的,里面还没有填内容,它也能确切的辨识下来。
财务领域常常要辨识和处理协议,首先OCR协议一下,把上面的图片扫描件编成文字。
从协议正文里提取关键信息,比较麻烦,因为协议没有标准格式,比如甲甲方的位置、合同金额、到期时间等。
只能用RPA形成的AI能力进行训练,才能在协议扫描件里提取出所须要的总金额、账期、供应商等关键信息,然后用RPA把这种信息送到财务,给财务提供一个成本的管理根据。
在一家地产公司,它的物管就是一个集中的呼叫中心。为了提升用户的服务质量,当房东拨通物管电话时,接入的是呼叫中心。
呼叫中心有200多个人工客服可以直接回答简单问题,对于一些类似修理等问题就须要先做下记录再维修。AI可以理解人说话的意思,以及做一些简单回复。
公司邮箱每晚能收到一些电邮,需要每晚有人收电邮并归类为顾客或潜在顾客。
这些顾客也须要进行初筛,判断公司规模及相关信息。我们就做了商机电邮处理机器人,能手动收电邮、查询顾客和分类。
如果是归为潜在顾客,还能手动查该公司大约情况,自动回复电邮,把处理的信息存到Excel表格里。
从按键精灵到来也UiBot,它们有共同点,都做连接器,也都具有一个连接器所应有的低代码特征。
不同之处在于:游戏速率变化较快,所以按键精灵要体积小、速度快;来也UiBot对速率的要求没这么快,一般办公界面切换不会太快,所以更指出稳定性、安全性、容错性等。
其次,来也UiBot的安全性要好得多,在好多方面都比按键精灵急剧提高,包括在硬联接和软件能力上,AI的能力集成上,跨平台的能力,分布式控制中心等。
我们也是坚持做好连接器去服务平台开发者,我们的开发者社区用户数明天早已超过30万人。我们的UB Store,是提供给付费能力不太强的大型顾客。
互动问答精选
Q1:RPA就是机器加上智能,可以如此理解吗?
褚瑞:昨天的RPA应当说只是取代了手的工作,只能做一些机械性劳动。今天或则未来的RPA会加上更多的智能,可以做好多比右手能做的、更复杂的事情。机器加上智能,可以觉得是未来RPA的一种形态。
Q2:怎么应对顾客流程的不同,不断更新?
褚瑞:这就是我们要指出平民开发者的诱因之一。RPA应当是每位人都能把握的。上线之后,后期的更改其实不可避免,但只要足够简单、好用,每个人经过简单的学习,就可以调整这个参数,应对流程的更新。除非更新复杂到一定程度的时,才须要更高水平的人介入。
RPA不是作为一个项目交付完就结束了,而是一定要做更新的。让原厂继续服务的话不太现实,一定要通过这些低代码的方式让更多人轻松把握。
Q3:RPA在实际应用中会由于网页页面的改变而更改流程,这会导致后期的运维成本很高吗?
褚瑞:RPA流程是可能会须要更改的,因为你用它联接了多个不同业务系统。这些业务系统的改变,就造成RPA流程也要发生改变。但当业务系统在一个成熟的小型企业中使用,它的变化不会太频繁,即使发生了改变,这个体系里只要有少量的人学会使用它,那就没有问题,都能自行应付。
Q4:学了一个月的来也UiBot基础命令判定都可以理解,但一些场景感觉挺难的,不知道应当如何继续学习。
褚瑞:实际上可以拿一些现实生活中常见的场景做练习。我有时候须要把知乎上的文章批量导到Kindle里,这样可以在离线的情况下阅读(比如客机上),但知乎和Kindle之间是没有插口的,我就拿来也UiBot社区版,自己写了一个流程,自动把文章导到Kindle里,这就是我生活中常见的一个用例。我们也会把使用门槛进一步增加,让更多平民开发者才能把握它。
即将开幕
CCF-GAIR 全球人工智能与机器人论坛———AI金融专场
历届 CCF-GAIR 已凝聚多位诺奖、图灵奖得主,28位海内外教授,21位世界A类顶会主席,103位Fellow,400多位著名企业家以及100余位VC创始人参加。
8月7日-9日,《AI金融评论》将在第五届CCF-GAIR中举行「AI金融专场」,目前统计学“诺贝尔”— COPSS首相奖得主,摩根大通执行监事,世界顶尖学会主席,金融大鳄首席科学家、首席风控官,已确认参加。