2021年8月,微博官方通过官方帐号“微博管理员”公布了微博热搜的产品规则和算法机制。
热搜算法是如何构成的
按照微博的介绍,热搜数据的逻辑是按照用户的真推行为估算得来的。
微博平台实时关注平台内正在遭到用户广泛关注的热点内容,并据此产生热搜榜单。
榜单的排序代表着话题的受关注程度,排行越靠前,意味着在同一时间段内该话题越受关注。
这次公开的就是微博热搜的热度估算公式:(搜索热度+讨论热度+传播热度)x互动率。微博平台每分钟估算一次话题及热度,取前50名话题进行展示。
事实上,这并不是微博首次公开热搜算法。
从时间线来看,在这款国民级产品的“门面担当”的发展历史中,其算法经历了两次升级、三种面貌。而每次算法升级和新功能发布都伴随着规则或算法的公开说明。
2014年,热搜功能在微博手机端上线,估算方法以“搜索量“为基础,每10分钟更新一次榜单。
2018年3月,热搜算法迎来了第一次大的升级。在原有“搜索热度”的基础上,将热点的讨论、传播和互动数据一并划入估算。此时,微博热搜的估算公式优化为:(搜索热度+传播热度)x话题因子x互动因子。
得益于新的评价维度的引入,算法的升级促使热搜的抓取和排序愈发客观确切。按照微博热搜团队的介绍,热搜的几次算法升级代表着团队对热点认知不断进化的进程。
上线之初,热搜主要借助搜索数据进行排序,问题在于,并非所有的热点都还能通过搜索特点来挖掘和呈现。而后续的升级,通过在算法上扩展讨论、传播、互动热度的估算,才能更确切地覆盖微博中热议的内容。
并且对于这样的升级,也有不同的观点存在。例如,成都学院新闻与传播大学讲师王茜就强调,搜索量具有隐蔽性,因而常常愈发真实,而且“转评赞”等维度的数据往往富含演出的成份,这就意味着它更容易被操纵。
2021年8月的申明可以视为热搜算法的第三次升级与公开。此次算法升级新添了“讨论热度”数据维度,但是除去了“话题因子”这一看上去愈发主观化的标准。这样的调整正是为了更全面真实地估算热点的完整热度。
这次申明的背景与前几次有类似之处,也存在着一些不同。
按照微博的申明,自2021年以来,关于热搜的猜测和谣言甚嚣尘上,社会各界对热搜给与了更多的关注。正因这么,微博发布公告,公开了微博热搜的产品规则和算法机制。由此可见,这次申明主要由于有外部压力的触发。
在讨论这次申明之前,我们先来思索一个问题:微博热搜究竟面临着什么指责?
微博的出发点
微博热搜面临的最大的指责,就是榜单的客观性。具体而言,是“买热搜”的问题。
“买热搜”是指想要让自己的话题登上热搜榜单的主体,通过向第三方机构付费,借助刷数据的方法使话题登上热搜榜,借以实现强化风波爆光或营销的目的。过去几年,指责部份话题买热搜的声音频频出现。而类似指责反映了微博作为一款国民级产品的社会影响力和受关注程度。
热搜通过对搜索词进行数据化、自动化、程序化的处理,以排名榜的形式供用户浏览和点击。在这个过程中,复杂的现实世界被转化为井然有序的信息条目。算法通过对信息条目进行收纳、过滤和排行,决定什么话题可以成为公众关注的焦点,什么话题会被吞没在信息的汪洋大海之中。
可以说,热搜是微博平台流量流向的一种展示。因为微博早已成为社会资讯的集聚地之一,微博热搜则在相当程度上反映了当下每分每秒中国人最关心的话题。
用苏州学院新闻与传播大学讲师王茜的话来讲,热搜满足的是用户盼望获取新闻的“社会知觉”:“在信息快速、大量流动的当下,以微博热搜为代表的热搜榜单对近来被热议的话题和新近发生的大事进行呈现,对网路舆论的引导起到一定的指向标的作用,也会对公众的价值判定和审美导向有很大的影响。”
此前也有报导强调,热搜早已成为院校中学生获取新闻资讯的主要渠道。虽然不仅仅是院校中学生,在信息快速流动的当下,热搜也早已成为公众判定某个风波、现象、人物的社会关注度的重要根据。
正是由于微博热搜的地位这么重要,所以“买热搜”“刷热搜”这样的数据作假行为就变得不能容忍,这也是用户和监管方对其非常注重的缘由,同时也是微博频频整治这种行为的出发点。
2020年3月1日开始实施的《网络信息内容生态整治规定》将“热搜”列为重点对象。文件中的第十一条鼓励网路信息内容服务平台坚持主流价值导向,优化信息推荐机制,强化版面页面生态管理。
热搜机制透明化
在这个时间节点上,面对指责,微博于2021年8月选择公开微博热搜的产品规则和算法机制,其实是一种姿态的展示。
按照微博的公开信息,微博热搜算法主要参考搜索热度、讨论热度、传播热度、互动率几项热度指标。
这种热度指标,尽管都是反映话题传播热度的诱因,而且又各自指向不同的方向。
具体而言,“搜索热度”是基于搜索行为构建的热度模型,反映用户对热点的关注和探求程度;“讨论热度”是基于原创和转发的发博行为构建的热度模型,反映用户参与讨论的热情;“传播热度”则是基于热搜结果的关联微博在全站的阅读量构建的热度模型,反映热点在微博体系内的传播情况;“互动率”反映用户消费内容的意愿。
这样的热度估算模型是结合微博平台的特点设定的。一个普通的微博用户对热点的关注会存在不同的层次,热点触达、主动探求热点、参与热点讨论,都还能证明热点的热度。整合到数据维度上,彰显为搜索热度、讨论热度、传播热度三大热度。在三大热度之外,互动率彰显的是热点的质量和可消费性。
三大热度的模型实现了不同数据维度上初始的量纲转换对齐。
例如一次阅读和一次搜索,代表的关注度和参与度是不一样的,也就是行为的价值不同,这是一层转换。同时因为不同领域的热点的起源和发酵的路径不同,三大热度的表现也不同,因而在算法上实现了不同领域通道热点估算模型的差别。诸如在社会热点的发酵过程中,引起用户讨论是一个很重要的能彰显差别的评判指标。在社会热点的热度估算中,用户的讨论情况受注重程度更高,在热度估算中所占的权重更高。
不仅公开热搜算法,微博也公开了热搜算法之外的许多规则,例如一系列维护热搜纯洁性的举措。
“买热搜“实际上与我们大部份人印象中的“给钱才能上榜单““随便上那个榜单位置都可以““可以买热搜也能撤热搜“并不一样。
在2021年8月的此次申明中,微博申明了热搜排序中不存在任何商业售卖位置,在热搜榜排序之外,有两个广告资源位,一个在第3位,一个在第6位。而通过这些方法“登“上热搜榜的商业广告,不仅不参与排序,也会有明晰的“商”字标签。同时,对于广告内容,微博官方提供了严格的初审机制和入选规则。
热搜榜的广告资源位并不采用竞价模式,而是采用定价模式,按时段(天或小时)售卖,定价通常根据年来更新。
除此之外的几种“买热搜”“刷热搜”的行为都不是官方许可的行为,而且是官方持续着重严打的行为,例如水军刷数据、明星粉丝做数据,等等。微博在公告中提及,针对上述两种行为,热搜算法中包括了严格的排水军和反垃圾机制。
2019年之前,第三方机构更多采用机器刷搜索量的方法来实现刷榜的目的。因此,热搜重点强化了搜索防刷Mo2019年以后,因为搜索防救砖制的不断升级,刷搜索量的方法已然很难实现刷榜的目的了。
同时,因为热搜算法开始全面升级,不仅搜索热度,还降低了讨论热度、传播热度、互动率等维度。一些机构开始从热点传播角度入手,采用小号集中发博、水军伪造真实用户参与话题讨论的手段,企图通过刷讨论数据和刷互动数据提高热度,实现刷榜的目的。
因为热搜算法核心依赖的数据来始于微博的搜索行为、讨论行为、互动行为,传播热度依赖于微博讨论而存在,所以,针对数据作假行为,热搜算法也相应地建立了搜索行为防刷、微博讨论防刷、互动防刷三套体系,通过用户层、行为层、内容层等不同层次设定防刷策略,消除异常数据。
近些年来,热搜算法采取更严格的用户过滤机制,排除刷榜营销用户和异常行为用户,防范通过低质用户伪造热度的行为,疑似垃圾用户、水军、假设备帐号等异常帐号就会被排除在热搜估算之外。在行为上,算法也对行为来源进行多维度特征管理,过滤疑似异常的行为日志。同时,通过热点下集聚行为的特点剖析,包括用户群分布、终端系统分布、内容特点等维度,算法能辨识可能存在异常热度的热点内容,对那些内容进行严格防范甚至惩罚。
防救砖制在线上持续实时估算,防治内容通过刷数据行为入选,假如内容入选后开始刷数据,才会触发手动防刷处罚机制。对于数据存在异常的内容和帐号,平台会定期发布处罚公告,进行严禁入选、搜索不收录等处罚。
为了保证算法才能正常发挥作用,微博热搜在话题的选择和排序上强化了人工管理,不但对热搜信息强化人工调控,但是对全部入选热词进行人工初审。
为提高内容初审能力,微博单独筹建了内容编辑中心,整体负责热搜、热门话题,包括热门微博等爆光量较大的产品,对全部入选热词进行人工初审和判别。
经过多年的发展,微博热搜从社区搜索排名榜单产品,到社区原生热点内容榜单产品,再到如今结合了媒体新闻热点,成为一个愈发综合性的热点榜单产品。
“热搜是哪些”其实取决于“公众须要哪些样的热搜”。
不管承载的内容怎么转变,作为一个内容型产品,热搜仍然在随着时代发展、随着大众的认知变化而成长,其本质都是希望为用户提供新鲜真实的资讯。
按照微博的反馈,接出来,微博都会朝着热搜透明化的方向做进一步的尝试。例如,针对热搜用于热度估算的几大热度指标(搜索热度、讨论热度、传播热度、互动率),直接做到实时可查询。在系统可解释的公路上,微博也在计划公布更细化的内容管理规则,进一步加快热搜机制的透明化。
本文节选自《科技向善:从银发、乡村到无障碍的商业新范式》,更多精彩内容欢迎阅读本书!
易迅满100减50,快快扫码疯抢吧!