用机器学习分析完网红视频后,我发现播放量暴涨的秘密
什么是多重共线性检验,维基百科的解释是,多重共线性(也称共线性)是一种现象,其中多元回归模型中的一个预测变量可以以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性,至少在样本数据集中是如此;它只影响单个预测因子的计算。 为什么这很重要? 假设博主只在周一发布力量训练,而且她的视频在周一的播放量总是更高。那么分析播放量时,应该归因它们发布在周一,还是因为它们是力量训练呢?为了获得真实的答案,作者必须确保特征之间没有强共线性。 成对相关(pairwisecorrelations)是常用的方法,但当出现多个特征(多于一对)时,可能会同时存在共线性。 因此,作者使用了一种更复杂的方法——k折交叉验证(K-fold cross-validation)来达到目的。 详细过程如下: 根据判断,选择一组关键特征来测试共线性。 作者选择了对于YouTube视频播放量至关重要的特征,同时还添加了三个由随机数组成的特征:rand0,rand1,rand2。当比较特征之间的关系时,它们充当anchor。如果一个特征与这些随机特征相比不太重要或不太相似时,那么它就不是目标特征的重要自变量。 为k折交叉验证准备这些特征。 在此过程中,他们转换分类特征(categorical features):area和workout_type。这种转换确保每个类别级别至少有K个值。 使用其中一个特征作为目标,其余特征作为自变量,来训练预测模型。 接下来,作者遍历每个特征,并使用其他特征拟合一个模型来预测它,他们用了一个简单的梯度提升模型(Gradient Boosting Model ,GBM)和K折验证,并且根据目标特征是数字的还是分类的,应用不同的模型和分数(模型预测能力评估指标)。 当目标特征是数字时,作者使用Gradient Boosting Regressor模型和均方根误差(RMSE);当目标特征是分类特征时,则使用Gradient Boosting Classifier模型和Accuracy(精度)。 对于每个目标,他们打印出K折验证分数(平均分)和最重要的5个自变量。 研究得分和每个目标特征的重要自变量。 作者试图研究每个目标特征及其与自变量的关系。当然本文不会列举整个过程,将举两个例子。 作者发现length(视频长度)和calories特征是相关的。这个发现很直观,因为健身的时间越长,消耗的卡路里就越多。 这种关系不难理解。 length和calories之间存在正相关,但这种强度还不足以将它们直接归到一块。因为40-45分钟的视频消耗的热量与30-35分钟、50-55分钟,甚至与60多分钟的视频,都有重叠部分。因此,两个特征都保留。 此外,作者发现num_same_area和area_full,两个特征也是相关的,这个发现有点令人惊讶,接下来开始解密。 下图显示了num_same_area和area之间的关系。 num_same_area特征,统计的是在过去30天内发布的针对于同一部位视频(包括当前视频)的数量。area_ful代表全身锻炼,这是Sydney视频中最常见的类型。因此,当num_same_area很大时,那么这些视频就是针对全身的锻炼。 假设我们发现更高的num_same_area(>=10)确实会导致更高的YouTube浏览量,但我们无法知道这是因为area_full还是因为num_same_area。因此,作者放弃了num_same_area特征,也因为相同的逻辑放弃相num_same_workouts特征。 步骤4:创建目标 你可能还记得,这个研究的目标是增加YouTube的播放量。是不是说明,我们可以直接拿播放量作为目标呢? 但请注意!播放量呈偏态分布。播放量中值是27,641次,而最高的视频达到130万。这种不平衡会给模型的解释性带来问题。 因此,作者创建了特征views_quartile,以它作为目标。 他们将视频分为两类——高播放视频(“high”)和低播放视频(“low”)。“high”占总播放量的75%,也就是播放数35578及以上的视频,剩下的都归到“low”。 通过这种方式,作者使用预测模型来找到播放量最高的25%的视频的特征组合。 步骤5:构建决策树 准备好了一切工作,我们根据目标views_quartile建立一个决策树模型啦! 为了避免过度拟合,作者将一个叶子节点的最小样本设置为10。为了让我们更容易理解,作者将树的最大深度设置为8层。 步骤6:阅读决策树 在最后一步中,作者将研究并总结导致高或者低播放量的“分支”。他们到底发现了什么呢? 发现1:calories_per_min是最重要的特征 没错,calories_per_min是最重要的特征。人们似乎不太关心健身类型或身体部位。 每分钟消耗的卡路里≥ 12.025属于高消耗,60%(51/(34+51) )的视频都有较高的观看率。 每分钟燃烧的卡路里少于(≤ 9.846)的视频则远没有受欢迎,只有7.2%(12/(154+12) =)有较高的播放。 而每分钟消耗卡路里在9.846到12.025之间的视频,其他因素也会产生较大作用。 发现2:不同部位、多种方式锻炼并不能提高播放量 这个发现超乎作者想象,难道不是各种各样的锻炼更好吗? 当过去一个月,身体不同部位的锻炼数量(num_unique_area)很高,≥ 10时,视频的观看倾向低。即使每分钟燃烧的卡路里很高,这种情况依然成立。 结合前两个观点,78%(42/(12+42) )的视频在以下情况下获得了更多的播放: 每分钟燃烧的热量很高(≥ 12.025) 过去一个月中身体不同部位的锻炼数量较少(< 10).。 发现3:臀部健身很受欢迎当一段视频消耗的卡路里较少(calories_per_min≤ 9.846)时,但只要是臀部锻炼,33%(5/(10+5) )仍能获得高播放;不然,只有4.6%(7/(144+7) )视频拥有较高播放。 建议:如何提高播放 综上,作者给Sydney提出了三条建议: 建议1:燃烧卡路里 正如我们所见,每分钟消耗的卡路里是最重要的特征,12.025是个魔法数字。 下表是不同时长的视频应该燃烧多少卡路里的节点: 30分钟健身:361卡路里 40分钟健身:481卡路里 50分钟健身:601卡路里 60分钟健身:722卡路里 作者还提出了一个猜想:数字(时长和卡路里)对人的刺激只是心理上,大家可能就是喜欢看到卡路里的前两位数比时长大得多,这说明可以用更短的时间,消耗更多的卡路里。 建议2:少用不同的身体部位关键词 Sometimeslessis more. 人们不喜欢健身标题中有太多不同的身体部位。根据模型,在一个月内针对少于10个身体部位的组合更好。 作者注意到Sydney在她最近的视频中使用了更少的身体部位关键词。最明显的一点是,她一直在使用“手臂”或“上身”,而不是像“二头肌”或“背部”这样的词。 建议3:多多发布臀部健身 Sydney的订阅者可能更多是女士,她们倾向于“臀部”塑性,而不是增加手臂肌肉。人们愿意牺牲燃烧更少的卡路里来获得更健美的臀部。也许Sydney应该一直为燃烧更少卡路里的视频加入一些臀部运动。 建议4:未经验证的想法 (编辑:186手机网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |