第一次做数据分析案例, 付出很多脑力所以获得了本期竞赛 MVP , 拿到的数据是 80 万条柯南弹幕.
- 通过人物词频分析谁的人气最高, 亮点是合并了昵称, 粉丝叫喜欢的, 单纯统计人名等于白统计.
- 弹幕最多的地方就是, 最热闹的是灰原哀初登场的 136 集的前 6 分钟, 人气最高的不一定是主角
- 通过用户发送弹幕的起始-结束时间, 算出用户平均每天看几集, 不排除会有人跳着看
- 低频词分析, 用户发的第一条/唯一一条弹幕说的是什么?
![[]](/2020/05/25/11-kenan-data-analyze/shujufenxi3-sqd.jpg)
正文
思路探索
受产品思维影响, 首先确立每一小块分析的目的, 其次找出实现方法, 最后才是边实践边迭代改进.
例如, 套用词云分析法, 直接对所有弹幕内容做词云分析, 得出 ‘柯南’ 被提到 xx 次, ‘小兰’ 被提到 xx 次, 只是把数据转换了一种形式, 没有结论, 也不知道分析的对错, 没有改进空间
因此, 无论什么分析, 切忌没有结论, 其次切忌方法套用, 最后切忌无法改进验证没有反馈.
数据的格式长这样
![[]](/2020/05/25/11-kenan-data-analyze/metadata-sqd.jpg)
过程
人名词频
第一轮无停用词的全弹幕的词频分析跑完后, 我发现了几个我不知道含义的高频词, ‘黑鸡’, ‘透子
, ‘斗子’, 查了一下发现是人物的昵称, 惊觉粉丝不会叫人物全名, 所以如果拿角色全名做词频分析, 来得出人物人气值的结论, 那么得到的结果根本就不准.
![[]](/2020/05/25/11-kenan-data-analyze/kenanname-sqd.jpg)
‘哀哀哀哀哀哀哀哀哀哀’ 这种重复词弹幕, 一条就能影响全局词频. 所以人名词频统计时, 我决定只统计条数而非词频. 我用 Python 结巴分词的技术手段找思路, 实现方法就是简单的用 Excel 的筛选搜索包含关键词的条数.
筛选出含有 ‘某人名’ 的弹幕, 对这些弹幕再做词频分析, 可以得到 由此可以做出粉丝眼中的 ‘全人物之间的关系强度图’, 双向权重, 因为懒所以暂时没做.
情感词频
词频分析跑完的 TOP 中, 除去无意义的 ‘,’, 结果是 ‘哈, ! , ?’ 排行前三. 因此, 我决定把这些情绪词分拆出来,
- 什么东西这么好笑? → 分析带哈弹幕的词频.
- 哪一集最好笑? → 分析哈最多的是哪一集.
![[]](/2020/05/25/11-kenan-data-analyze/kenantanhao-sqd.jpg)
由此找到了.
剧情词频
. 如: ‘三选一’, ‘猜对’, 因此我分离了剧情相关的词, 单独做词频分析.## 总结
总的来说, 我细分了赛道, 让结论更具体确切了, 而不是全部糅合在一起.
## 弹幕数量分析
Excel 也能用到的知识?
用 Excel 的 COUNTIFS 算出每一集的弹幕数量, 同表运算太慢了, 80w x 80w 的复杂度, 方法太笨了, 我让电脑算着然后有事出门了. 事后觉得在另一个表中用引用来 Count 会更快, 1000集 x 80w 的复杂度.
的确, 这样能找出哪一集最有看点, 但是, 能不能找出
Excel 算法步骤设计:
- 先设定颗粒度为 3 分钟, 把一集 24 分钟分为 8 段, 超过 24 分钟的分散到后面.
- 以 180s 为刻度, 把时间转换为 0-1 的小数, 加上集数, 得到每个弹幕的最终时间坐标(如第 15 集的 9-12 分钟就是 15.4), 统计同坐标的弹幕数, 总共 8000 多个数据既能排序又能画表格.
- 作图: x=时间坐标, y=同时间坐标的弹幕数,
得出最热闹的是灰原哀初登场的 136 集, 还有一系列角色做出突出贡献的名场面. , 有很多很多很多很多作品都是这样, 真的.
用户分析
![[]](/2020/05/25/11-kenan-data-analyze/kenantotal-sqd.jpg)
共有 11 万用户发过弹幕, 但是超过 10 条的只有 1.6 万人. 也许是本就该.
总之不管怎样, 能够统计出 TOP 50 的活跃用户平均每人一共发 400 条左右的弹幕.
那些只发了一条弹幕的用户就没有分析价值了吗?
不是的, 可以对
- 用户看剧速度
‘用户最后发弹幕时间’ - ‘用户第一条弹幕时间’, 相减可以得出用户看了几天柯南.
‘某用户的最大集数’ - ‘最小集数’, 可得出用户看了几集(不跳集)
相除可得出活跃用户平均每天看38集, 不准确但是是一个思路.
无关的想法
同一份数据, 所有人都知道能用词频方法分析, 然而, 不同的人看到了不同的分析角度.
同一个世界, 所有人都知道入国企, 进 BAT 是好的出路, 然而, 不同的人能看到不同的机会.
人一生有很多机会, 但是每个人都只会盯着 ‘我认为那是机会’ 的一部分机会.
执着于跳一跳就能 ‘够的到’ 的机会, 痴迷于眼前的局部最优解, 从不思考 5 年后 10 年后要走向哪里?
分析出具体的结论 = 推导出具体的下一步行动 专注业务, 不套用方法 = 不去套用别人的人生路径, 独立思考出自己的计划
* 要有反馈验证 = 逐步改进计划
> 临渊羡鱼, 不如退而结网。
比喻空怀壮志,不如实实在在地付诸于行动
与其羡慕毕业即巅峰的传统精英人才, 不如找自己的差异化竞争力, 然后把力使到 ‘十八线无人问津的博弈领域’ 上, 没竞争力就去 ‘究极细分赛道’, 很现实.
毕业即大厂的光环只是 10% 的高起点, 因为我现在菜所以才会觉得那是一个很高的位置, 其实那是一个很高的起点而已, 不如从加速度下手, 从 -100% 开始也没什么.
其实啊, 对我来说, 现在只需要一个错误的, 有反馈的, 立刻能执行的计划.
看海贼王的时候, 我在想, 草帽海贼团建立的时候也并不是豪门, 加入一个傻小子的团队, 实在是太傻了, 同样, 传统的精英们也不会大量的加入创业公司, 要选也是明星创业公司, 因为他们有更好的选择, ———–
然而, 现有的巨头公司中也都是大量的精英们, 巨头公司扩张需要大量稳定人才, 稳定的人才会招同类, 因此会更理性的选择求职者, 所以 ‘加权’ 求职门槛会越来越高, 那我是否要加入竞争大军呢? ——-
关于未来, 用去找一份不叫做 ‘产品经理’ 的工作, 用去找出比 ‘数据分析’ 前途更好的工作, 用去选择一个能更容易跳到 ‘还没出现的行业’ 的行业.
那这和我找月薪三千的工作又有什么关系呢?