蝉游记的冷启动
很多人问我,蝉游记当年是怎么冷启动的。
游记产品的冷启动太他妈难了。
写游记本身是件极低频次,极高成本的事情,还需要充足的“情绪”来酝酿,通常只在旅行刚刚结束后有这样的情绪,时间窗口极短一瞬间。并不是说我上去一拉,人家就给个面子来写篇游记好吗——谁给你这么大的面子,花4-8个小时跑来素昧平生的新网站写游记?凭什么?
何况蝉游记网站的创新交互有一点学习成本,上手还需要一定的耐心。
一开始,我们的运营团队收集了近千个种子用户名单,挨个去拉,成功率近乎于0。崩溃了。
然后去微博上搜索“刚结束旅行”的用户拉人,成功率还是近乎于0。再次崩溃了。
因为我的个人风格,再加上天使轮确实也没什么钱,当时没用钱开路,也就是不用现金奖励,这个奖励那个奖励去吸引用户来写游记,硬拉的下场极惨,差点挂在这里。
我只好动用萌系产品技能,做了一个过渡产品叫“旅行推”。
旅行推这个网站呐,只做一件事,抓取“正在旅行中的人”,所发的“关于这次旅行的微博”,按目的地展示出来,样式是烂大街的瀑布流。这件事情的难点在于,如何鉴定这是一条旅行分享微博?
我好想去巴黎哦算不算?
我家住在巴黎公社小区算不算?
我买了个包牌子是香榭丽算不算?
当然不算。必须得是正在旅行中的人,在旅行中实时发送的,与这次旅行相关的微博才算。
到现在为止,似乎只有旅行推做到了这一点。
我设计了一套算法,过滤掉脏数据,仅保留有效数据,后来又加入了另外9道过滤规则,以及不断调试关键字库,最后达到了惊人的……97%有效率。
抓取100条微博,目测97条有效。
这样做,目的地必须限制在典型的“旅行目的地”,以国外为主,国内则是西藏,新疆,内蒙这种微博用户较少的地区。厦门,成都,杭州都不行,北上广更不行。即便有此限制,抓取数量也达到了每天3000条左右,相当于每天发现2000个以上的,有记录和分享意愿的中长途旅行用户。
神奇的抓取引擎默默地跑了半年,直到新浪修改搜索算法,抓取失效为止,大约抓了30万目标用户过来。然后我们就一个个去勾搭吗?
Too young, too simple, sometimes naive.
蝉小队的运营妹子设计了一套神奇的自动对话机制,印象里大约是这样的:
机器人评论:在吗?
对方:在(不管回答什么,都触发下一条评论)
机器人评论:我们是一个年轻的创业团队,有一个不情之请。
对方:xxxxx(不管回答什么,都触发下一条评论)
机器人评论:邀请你来写游记blablabla
机器人评论:邀请你来写游记blablabla
(这里专门拆成2条评论发,更接近真人对话风格)
对方:xxxxx(不管回答什么,机器人再无回复)
直到机器人关停三年后的今天,还能遇到有人跟我说,你们的运营人员曾经在微博上拉过我写游记,当时太忙,不好意思没来哦。
我:呵呵,呵呵呵呵,呵呵呵呵呵呵,不客气不客气。
在我的记忆里,只有一两个人识破了这个机器人谜题,其他人受到了狡猾的蒙蔽……于是,30万目标用户+不知厌烦的机器人,完成了蝉游记的冷启动。
曾经,我曾经想公开这套微博过滤算法,仅仅因为“嘚瑟”。但既然我还在做旅行产品,终归是不方便搬起石头砸自己的脚。哪一天我不做旅行产品了,再公开算法吧。
………………
………………
………………
………………
………………
上面这部分是2015年8月写的,一年后,我还真他妈放弃了旅行赛道,也就兑现承诺公开了算法。
关键是四个字:“两次命中”。
首先,为每个目的地建立一个知名景点库。
当用户5天内发布的微博中,至少2条提到同一个目的地的入库景点,我就认为他正在旅行中。
说穿了是不是简单到哭出来?
还有很多附属规则。比如说,国内用户常居的旅行城市是不能抓的,比如杭州和西安,但西藏和丽江可以。又比如说,还要建立一个黑名单,把“凡尔赛花园”这种拿国外景点来装逼的楼盘名称给过滤掉,人工建黑名单花了我很多的时间。
类似的过滤规则有十几道,十几道啊十几道。调试到最后能做到97%的准确率,判断谁谁谁正在旅行中——当然是中长途旅行目的地,恰好和蝉游记的定位一致。