u1s1 是什么意思?什么是厨师?
当我在北戴河安那亚剧院突然被问到一个类似的奇怪问题时,我只想当场拿出手机,给对方一个“百度”。
说起来,最近搜索这个“老技术”有点热。
你没看到那边新搜索工具的广告吗?每天在那里见。在这里听海风看剧的百度万象大会,老搜索引擎也放出了“百度,生活更美好”的新旗帜。
其实,正如百度集团执行副总裁沉斗现场所说,大家对搜索太熟悉了,感觉不到其中的技术变化,搜索的技术存在感真的“不强”。
p>
但实际上,“AI技术为搜索不断进化提供了动力”。
你要知道,从古代文字检索到今天的人工智能,网络世界的网页数量已经从几千万增长到上千亿,其中包含的内容可能比世界上所有图书馆加起来丰富的还要多。
在今天,要有效地连接当今的互联网用户和海量信息真的不是那么简单。
那么,什么样的技术正在推动搜索引擎更智能地了解您的需求并连接到丰富而准确的信息?
面对海量信息增长,技术本身是如何发展的?
今天,还是趁着这场战斗,好好谈谈吧。
从文本检索到人工智能
现在,在使用搜索引擎的时候,你不仅可以使用几个关键词,还可以直接输入你想问的问题。
但实际上,早期的搜索引擎使用的是文本检索方式,只能将用户的查询关键词与网页的文本内容进行匹配。
可以想象,这种方法虽然也可以对不同网页的相关性进行排序,但是整体搜索质量比较差。
其实网页之间有丰富的链接关系。就像高被引论文通常质量更高一样,高质量网页通常由更多网页链接。
为了进一步挖掘和利用这些链接信息,1996年,李彦宏开发了Rankdex,即超链接分析算法。这是世界上第一个使用超链接来衡量网站质量的搜索引擎。
也就是说,搜索引擎收到用户查询后,不仅会匹配网页的内容,还会看其他网页对页面的“评价”。
此后,Google 也提出并使用了类似的 PageRank 技术,并取得了巨大成功。
超链接分析算法百度一下,可以说是当今每个主要搜索引擎排名算法的基础。值得一提的是,谷歌创始人拉里佩奇的第一个网页排名专利申请中也引用了Rankdex。
如果早期的搜索技术门槛不高,从超链接分析阶段开始,一些现在人们普遍依赖的搜索引擎已经开始尘埃落定,拉开差距,比如谷歌,比如百度.
而这些以搜索引擎起家的公司,如今已成为人工智能领域的先驱。
其实在人工智能出现之前,为了让搜索结果更快、更准确、更个性化,搜索领域的巨头们已经开始将机器学习的方法引入搜索引擎。
Google 于 2016 年推出了基于反向传播技术的 RankBrain 算法,该算法基于语义分析和词库关联,可以帮助用户更快地搜索到冷门的搜索结果。
现在在 NLP 领域很流行的 BERT 也已部署在 Google 搜索中。在预训练语言模型的加持下,即使你输入一大段文字,搜索引擎也能得到你想要搜索的内容。
根据 Google 的说法,BERT 的引入已经改善了至少 10% 的搜索结果。
在国内,百度也是第一家投资人工智能技术研发的科技公司,并于2010年成立了独立的NLP部门。
百度以搜索引擎技术为核心,在过去的十年里不断演进语音、图像、知识图谱、自然语言处理等人工智能技术。这些长期的技术积累,甚至进一步扩展到了今天的自动驾驶、AI芯片等领域。
这就是为什么,今天的搜索引擎不仅可以根据你输入的文字进行搜索,甚至可以直接给出一张图片或一段音乐,人工智能可以理解你想要获取什么样的信息。
正如沉九所说,当你打开百度App,问你想问的问题时百度一下,旁边的人可能听不清楚,百度搜索已经能够提供准确的答案。而当你在阿那亚的任何一个角落,看到你不认识的花草苗木时,打开摄像头,用视觉搜索快速得到答案。
智能搜索时代背后的关键技术
那么,在智能搜索时代,有哪些具体的核心技术可以让搜索引擎高效地将你与信息联系起来?
恰逢百度万象大会上,沉斗还介绍了百度AI如何推动搜索的不断进化。让我们一一细看。
深度语义匹配模型
2013年,百度搜索推出基于百亿用户行为数据的SimNet语义匹配模型,显着提升了搜索结果的相关性。
简单来说,SimNet利用词向量技术解决关键词匹配失败的问题,可以有效获取同义词与同义词的相似度,泛化能力强。
在实际应用场景中,海量的用户点击行为数据会转化为大规模的弱标注数据,通过并行训练算法,SimNet首次实现完全替代基于文字匹配的策略,并且可以直接建模非相似类匹配问题。
其核心网络结构形式,包括BOW、CNN、RNN、MMDNN等
基于这样的深度语义模型,百度搜索将全库语义搜索的时间优化到了10ms。
跨模态深度阅读理解技术
如前所述,人工智能搜索引擎不仅可以阅读文本,还可以理解语音和图片。
其实,机器感知世界的方式不仅限于自然语言,还包括语音、视觉等多模态信息的综合应用。
为此,百度专注于开发知识增强的跨模态深度语义理解技术。
一方面,构建包含超过 50 亿个实体和 5500 亿个事实的多异构知识图谱。通过将知识作为背景信息,增强了模型的语义推理能力。
另一方面,通过知识相关的跨模态信息,用语言来描述不同模态信息的语义,使机器实现图像与语言、语音与语言的综合理解。
基于这项阅读理解技术,百度在EMNLP-MRQA 2019国际阅读理解测评中也比第二名高出近2个百分点。
智能多模式搜索技术
2015年,百度提出多模态搜索的概念,探索从文本搜索到语音、视觉、视频等多模态搜索的演进。
而这可能是智能搜索在用户层面最直观的体现——在百度App中,你可以体验到语音搜索、图片搜索、实时翻译、植物识别、视频搜索等丰富的搜索方式。
除了上面提到的跨模态语义理解,百度搜索还在语音搜索中整合了语音识别、语音合成等多种AI技术,让搜索引擎“听”“说”,不仅听以清晰、易懂、深入的语义理解,以“声”色给出最佳搜索答案,让搜索引擎与用户的交互更加自然、流畅、便捷。
在视觉搜索方面,百度搜索集成了图像识别、人脸识别、OCR、物体检测、实体匹配等多项视觉技术,依托搜索系统对全网的图片和视频内容进行索引,用户行为。可细粒度识别用户实时视频流、照片和上传图片中的实体和文本,然后链接和组织相关内容和服务,围绕实体的需求为用户提供相关的内容和服务。用户的视觉场景,从而实现主题搜索、商品搜索、实时翻译、植物识别等智能视觉搜索能力。
是的,不仅仅是图片和文字。视频作为最流行的通用信息载体,现在可以直接用于搜索,结合百度超大知识图谱,可以实现精准搜索和定位。
在本次万象大会上,百度短视频生态平台总经理宋健近日也发布了“好看视频知识图谱”的产品功能,提出了“帧视频”的概念。
“帧视频”可以扩展知识信息的密度,将短视频的知识内容浓缩到“帧”的粒度,推动短视频成为更好的知识获取载体。
智能搜索不仅仅是搜索
说了这么多,是不是觉得日常搜索涉及的信息量真的很大?
在今天,获取信息的方式看似便捷,但随着海量信息的涌入,也带来了越来越多的无效信息。
这就是我们希望搜索结果更精确的原因。
除此之外,我们也希望搜索能够更好地理解人类意图,节省时间,更高效地解决问题。
基于这样的用户需求,百度一方面在不断提升搜索自身的属性,形成知识服务产品体系,提升首次搜索的满意度。
另一方面,由于搜索与各种服务场景天然相连,百度也在围绕“搜索+服务”进行加法,进一步降低用户的决策成本,提升服务能力。
所以,这也解释了为什么百度App品牌升级为“百度,生活更美好”。
在此背景下,智能时代的搜索不再是简单的信息检索,而是将人们与信息和服务等各种解决方案联系起来的有效方式。
此外,智能搜索和智能推荐的融合将进一步放大这种效率提升。
沉斗解释道:
互联网基础设施日益完善,全社会信息化水平不断提高,用户希望更快地完成闭环需求。
基于这种需求变化,百度提出了“个性化”和“服务化”的战略。
所谓“个性化”,就是放大每个创作者的才能,将生态中的创作者和用户直接连接起来,更快地满足用户需求。
百度副总裁、百度App总经理平晓莉举了一个例子:在知识共享领域,过去人们只能通过搜索找到相关的静态页面;搜索进化后,百度也可以直接将搜索结果链接到能提供结果的人,如专家、自媒体、知识博主等,进一步消除信息鸿沟。
“服务”就是让用户“所见即所得”。
围绕这一核心战略,百度在搜索的基础上,将短视频和关键垂直领域放在了关键位置。百度健康和百度电商业务也在万象大会上首次公开亮相。
说到底,从搜索到服务实现,有很多场景可供选择,而这些场景的服务实现需要搜索的不断演进,从搜索到智能搜索。要做到这一点,背后的技术要求真的不低。
事实上,很多业内人士认为,搜索从一开始就具有类似于人工智能的属性:你在搜索框中提出一个问题,机器就会找到答案并提供服务。
作为人工智能技术的第一个实验领域,无论是搜索还是机器都在不断进化,而搜索确实已经成为人工智能技术的大师。
在其越来越“诙谐”的进化背后,驱动力是百度等公司和研究机构长期积累的AI能力,让搜索从最初的搜索分发到提供服务,提供个性化的内容和互动。经验。
未来十年搜索技术会有怎样的超级进化?
您的期望是什么?快来评论区聊吧~