欢迎你们前去支持视频版【UP主请进】【科普】用数据告诉你,粉丝数才能对视频播放量形成多大影响
可能好多up主投稿的时侯都有过这样的经历:把自己悉心制做的视频投了起来,自觉得质量很高,但是好几天过去了,播放量仍然是两三位数。在总结自己的视频为何不火的缘由时,可能大多数人想到的是自己缺少一定的粉丝基础,导致视频很快就沉下去了。在很多人的意识中,粉丝数是影响播放量的第一要素。高粉丝数就意味着高播放量,没有粉丝就意味着视频秒沉。但是,事实果真如此吗?
我在2月21日编撰了一个爬虫程序,获取2月11日投稿的40500部视频的三天播放量,以及那些视频up主的粉丝数目,来找寻粉丝数目与播放量之间的关系。
(注:这里有个不严谨的地方是,这里获取的粉丝数当天的数据。理论上我们应当获取2月11日她们投稿时的粉丝数,但这项数据早已被覆盖,无法获取。所以我只能假定粉丝数在这十天内的变化很小,可以忽视不计)。
之后,我通过这种数据剖析了可能好多UP主都很关注的三个问题:
1) 平均每位粉丝可以为UP主带来多少播放量?
2) 粉丝数对播放量的影响有多大?
3) 一个粉丝数目不高的小透明UP投稿后预期可以获得多少播放量?
一. 平均每位粉丝可以为UP主带来多少播放量?
对于这个问题,我通过求线性回归和曲线拟合的方法来剖析。
由于我们不知道播放量和粉丝数在整体上是否呈现线性关系,且播放量受极端值的影响过大(如:一个100粉丝的up主投出一个视频拥有10万播放,这组数据会大幅度地拉高平均值)。因此,我先对数据做两个操作来解决那些问题。
首先,将40500部视频的数据根据UP主粉丝数分成112个区段我分区段的标准时保证每位区段内的数据量不多于100(五万粉丝以上时因为数据过分稀疏,这个标准降为30),同时一个数量级内起码有20个区段(同样因为数据稀疏,1W-10W数量级、10W-100W数量级内分别只有15个、8个区段)。然后估算每位区段视频播放量的中位数。这样做可以急剧降低极端值的影响。
之后对数据进行分段线性化,将上面求出的中位数根据粉丝数的数目级分类,并对每一个数量级求线性回归方程,将其回归系数记为这个数量级上平均每位粉丝降低的播放量。
播放量与粉丝数关系的数据如下:
播放量-粉丝数关系得到散点图
平均每位粉丝能给up主降低的播放量
从图表可以看出,粉丝数与播放量之间的关系是非线性的,随着粉丝数目的减小,单个粉丝带来的播放量增量会渐渐减少。我通过进一步剖析,我发觉似乎其实预期播放量与粉丝数目之间的关系呈现这些非线性关系,但将两者同时取对数后,其散点图大致呈直线趋势。因此,我决定用一个幂函数来描画预期播放量与粉丝数之间的关系。曲线拟合的结果为
结论:
1)在粉丝数目甚少时,平均一个粉丝可以给UP主的视频降低接近1个播放量。
2)随着粉丝数目的降低,单个粉丝的作用日渐减少。当粉丝数达到1k以上时,平均每位粉丝给UP主视频降低的播放量会降至0.2以下。
(注:这个剖析用到的播放量是每位粉丝数区段的播放量中位数。由于极端数据的影响,平均数将大幅度低于中位数。如粉丝数在0-10时,播放量的中位数只有40,但平均数为211)。
二. 粉丝数对播放量的影响有多大?
对于这个问题,我通过估算播放量与粉丝数之间的线性相关系数,来描述粉丝数对视频播放量的影响。
由于我们不知道播放量与粉丝数之间的线性相关性是否随粉丝数目的变化而发生改变,且播放量的极端值会大幅度拉低播放量与粉丝数的线性相关性。因此在这一部分,我还是先除去播放量的异常值,再进行分段线性化近似处理。
首先,和上个问题的处理方式一样,将40500部视频的数据根据UP主粉丝数同样分成那112个区段。然后对每位区段,去掉播放量最高和最低的数据各20%。然后,将剩下的数据根据粉丝数的数目级分类,并对每一个数量级求播放量与粉丝数的线性相关系数。
数据结果如下:
粉丝数与播放量的线性相关性
结论:
1) 随着粉丝数目的降低,粉丝数对播放量的影响力呈现先减后增的趋势。
2) 在去除播放量最高和最低的各20%数据后,当粉丝数高于10万时粉丝数与播放量的线性相关性高于0.5,说明粉丝数对播放量的影响力可能并不算是非常大。
三.一个没有粉丝的小透明UP投稿后预期可以获得多少播放量?
在这一部分,我会展示粉丝数处于每位数量级时播放量的中位数。由于你们都乐意往好的方向去看,我还将展示每位数量级上播放量的十分位值。
说明:由于播放量的影响诱因好多,除了粉丝数以外0.1元一万播放量,投稿时间、话题效应、视频质量、投稿分区等就会影响到视频的播放量0.1元一万播放量,所以这组数据只能反映平均情况。对与个体而言,仅仅依照自己的粉丝数目去计算自己的视频播放量一定是不确切的。在预估自己视频的播放量不应只考虑到自己的粉丝数目,还应当考虑到那些其他诱因。
后记
本人物理基础不怎样好,做此类题材的作品难免会有一些逻辑上的缺陷。如果发觉逻辑上的漏洞,或者有改进意见的话,还请在评论区多多强调,3Q!