数据分析：80万条名侦探柯南弹幕内容分析报告

第一次做数据分析案例, 付出很多脑力所以获得了本期竞赛 MVP , 拿到的数据是 80 万条柯南弹幕.

通过人物词频分析谁的人气最高, 亮点是合并了昵称, 粉丝叫喜欢的人物叫的都是绰号, 单纯统计人名等于白统计.
弹幕最多的地方就是看点, 最热闹的是灰原哀初登场的 136 集的前 6 分钟, 人气最高的不一定是主角
通过用户发送弹幕的起始-结束时间, 算出用户平均每天看几集, 不排除会有人跳着看
低频词分析, 用户发的第一条/唯一一条弹幕说的是什么?

正文

思路探索

受产品思维影响, 首先确立每一小块分析的目的, 其次找出实现方法, 最后才是边实践边迭代改进.

例如, 套用词云分析法, 直接对所有弹幕内容做词云分析, 得出 ‘柯南’ 被提到 xx 次, ‘小兰’ 被提到 xx 次, 只是把数据转换了一种形式, 没有结论, 也不知道分析的对错, 没有改进空间

因此, 无论什么分析, 切忌没有结论, 其次切忌方法套用, 最后切忌无法改进验证没有反馈.

数据的格式长这样

过程

人名词频

第一轮无停用词的全弹幕的词频分析跑完后, 我发现了几个我不知道含义的高频词, ‘黑鸡’, ‘透子
, ‘斗子’, 查了一下发现是人物的昵称, 惊觉粉丝不会叫人物全名, 所以如果拿角色全名做词频分析, 来得出人物人气值的结论, 那么得到的结果根本就不准.

‘哀哀哀哀哀哀哀哀哀哀’ 这种重复词弹幕, 一条就能影响全局词频. 所以人名词频统计时, 我决定只统计条数而非词频. 我用 Python 结巴分词的技术手段找思路, 实现方法就是简单的用 Excel 的筛选搜索包含关键词的条数.

筛选出含有 ‘某人名’ 的弹幕, 对这些弹幕再做词频分析, 可以得到哪些人会被一起提到, 是剧情需要, 还是 CP 关系? 由此可以做出粉丝眼中的 ‘全人物之间的关系强度图’, 双向权重, 因为懒所以暂时没做.

情感词频

词频分析跑完的 TOP 中, 除去无意义的 ‘,’, 结果是 ‘哈, ! , ?’ 排行前三. 因此, 我决定把这些情绪词分拆出来,

什么东西这么好笑? → 分析带哈弹幕的词频.
哪一集最好笑? → 分析哈最多的是哪一集.

由此找到了 ! 最多的两集是兰和新一童年第一次相识.

剧情词频

观察源数据, 发现用户很喜欢猜犯人, 来参与剧情当中. 如: ‘三选一’, ‘猜对’, 因此我分离了剧情相关的词, 单独做词频分析.

## 总结
总的来说, 我细分了赛道, 让结论更具体确切了, 而不是全部糅合在一起.

## 弹幕数量分析
Excel 也能用到数据结构的知识?

用 Excel 的 COUNTIFS 算出每一集的弹幕数量, 同表运算太慢了, 80w x 80w 的复杂度, 方法太笨了, 我让电脑算着然后有事出门了. 事后觉得在另一个表中用引用来 Count 会更快, 1000集 x 80w 的复杂度.

的确, 这样能找出哪一集最有看点, 但是, 能不能找出哪几分钟最热闹, 弹幕最多呢?

Excel 算法步骤设计:

先设定颗粒度为 3 分钟, 把一集 24 分钟分为 8 段, 超过 24 分钟的分散到后面.
以 180s 为刻度, 把时间转换为 0-1 的小数, 加上集数, 得到每个弹幕的最终时间坐标(如第 15 集的 9-12 分钟就是 15.4), 统计同坐标的弹幕数, 总共 8000 多个数据既能排序又能画表格.
作图: x=时间坐标, y=同时间坐标的弹幕数,

得出最热闹的是灰原哀初登场的 136 集, 还有一系列角色做出突出贡献的名场面. 人气高的并不一定是主角, 有很多很多很多很多作品都是这样, 真的.

用户分析

共有 11 万用户发过弹幕, 但是超过 10 条的只有 1.6 万人. 也许是本就该长尾效应, 也许是这些人刚开始看.

总之不管怎样, 能够统计出 TOP 50 的活跃用户平均每人一共发 400 条左右的弹幕.

那些只发了一条弹幕的用户就没有分析价值了吗?
不是的, 可以对低频词频分析, 找出用户发第一条弹幕时, 最在意什么.

用户看剧速度
‘用户最后发弹幕时间’ - ‘用户第一条弹幕时间’, 相减可以得出用户看了几天柯南.
‘某用户的最大集数’ - ‘最小集数’, 可得出用户看了几集(不跳集)

相除可得出活跃用户平均每天看38集, 不准确但是是一个思路.

无关的想法

同一份数据, 所有人都知道能用词频方法分析, 然而, 不同的人看到了不同的分析角度.

同一个世界, 所有人都知道入国企, 进 BAT 是好的出路, 然而, 不同的人能看到不同的机会.

人一生有很多机会, 但是每个人都只会盯着 ‘我认为那是机会’ 的一部分机会.

执着于跳一跳就能 ‘够的到’ 的机会, 痴迷于眼前的局部最优解, 从不思考 5 年后 10 年后要走向哪里?

数据分析不也和人生计划一样吗?
分析出具体的结论 = 推导出具体的下一步行动 专注业务, 不套用方法 = 不去套用别人的人生路径, 独立思考出自己的计划
* 要有反馈验证 = 逐步改进计划

> 临渊羡鱼, 不如退而结网。
比喻空怀壮志，不如实实在在地付诸于行动

与其羡慕毕业即巅峰的传统精英人才, 不如找自己的差异化竞争力, 然后把力使到 ‘十八线无人问津的博弈领域’ 上, 没竞争力就去 ‘究极细分赛道’, 很现实. 数据分析的结论取决于和谁比

毕业即大厂的光环只是 10% 的高起点, 因为我现在菜所以才会觉得那是一个很高的位置, 其实那是一个很高的起点而已, 不如从加速度下手, 从 -100% 开始也没什么. 数据分析的合理性取决于看到全局, 引入时间维度, 看到增速

其实啊, 对我来说, 现在只需要一个错误的, 有反馈的, 立刻能执行的计划.

看海贼王的时候, 我在想, 草帽海贼团建立的时候也并不是豪门, 加入一个傻小子的团队, 实在是太傻了, 同样, 传统的精英们也不会大量的加入创业公司, 要选也是明星创业公司, 因为他们有更好的选择, ———–所有人都在盯着 ‘今天最好的选择’. 数据分析就是分析出 ‘明天最好的选择’

然而, 现有的巨头公司中也都是大量的精英们, 巨头公司扩张需要大量稳定人才, 稳定的人才会招同类, 因此会更理性的选择求职者, 所以 ‘加权’ 求职门槛会越来越高, 那我是否要加入竞争大军呢? ——- 现在的情况不是无中生有来的, 都是有理可寻的, 从过去找规律指导未来

关于未来, 用产品思维去找一份不叫做 ‘产品经理’ 的工作, 用数据思维去找出比 ‘数据分析’ 前途更好的工作, 用价值思维去选择一个能更容易跳到 ‘还没出现的行业’ 的行业.

那这和我找月薪三千的工作又有什么关系呢?

将进酒

一剑霜寒十四州