北京三环多长?
这个问题,我终于可以扬眉吐气地答了! 以前在地图软件公司的时候,我们有一个内部应用,可以查看所有用户上传的轨迹数据(当然我们自己不会知道这些),以此做出行走路线推荐。 在这个产品刚上线的时候,我们发现了这样一个问题:有一些用户的轨迹是这样的: 早上从甲地出发,晚上到达乙地,中间横穿整个北京市区,但是路线很规整,显然不是随机步行。经过研究,我们判断这一定是某一类用户的特有行为——比如说,这一片地区有某公司的总部和几个研发部,这些研发部的员工每天早出晚归,必定会走过这条路线;或者是这一地区有很多大学生宿舍,宿管会在路上安排值班室,学生上下课必走此路。
基于对这种规律的分析,我们可以向这类用户推送他们可能感兴趣的信息和内容,从而提高我们产品的用户体验。 为了找到更多类似的用户,我们的算法工程师写了大量的算法,试图从大量用户的数据中挖掘出更多的模式来。 然而,事实是残酷的。在这么多用户的数据里,我们只发现不到一百个符合我们“早出晚归、途经某些地点”描述的用户。也就是说,在这几千个用户里,只有大概一百个能提供给我们有价值的数据。
而事实上,只是这不到一千人的数据就已经足以让我们推出一个功能齐全的产品了,因为一个人的数据足够让我们推导出这个人的大部分兴趣爱好。 当我把这个产品拿给我领导看的时候,他看着不断弹出提示的用户界面,说:“别以为搞了一个大数据就牛气哄哄的,其实你什么也没有增加,只不过把垃圾箱里的破烂捡回来自己洗洗干净罢了。” 我一时语塞。确实,我们从大量的数据中只能提取到很少的有用信息,或许还达不到1%,甚至可能是0.01%。但是对于那些有用的信息,每个都价值连城。
于是我又笑了:“虽然您说得对,但是我们仍然可以通过分析这些信息,做出一个值得推荐的产品。” “有什么可推荐的?”领导问。 “比如说……”我准备开始吹牛逼了。 “停!”领导打断了我的话,“我就不明白了,你搞这么一个无用的东西有什么意思?当初让你搞地图搜索引擎不是叫你搞大数据的啊!” 啊……这么丢人的事怎么能让我一个程序员干呢?应该派一个产品经理去!