今日头条账号“冷启动”方法

头条不是第一个做新闻推荐的,但是技术上今日头条有几个特别有想象力的点。
推荐系统里面的冷启动一直是一个很大的问题。
当新用户加入时,一般需要给用户一个初始兴趣值。
比较常见的做法,比如 quora,zhihu,pinterest是让人手选感兴趣的话题;另外一个做法
是给一些初始歌曲或者电影让人选喜欢或者不喜欢,然后生成一个初始值。无论哪一个做法,
用户的行为数据都不足以产生高质量的推荐。
以 pinterest为例,因为主要用户是女性,所以初始值大部分推荐的内容都是女装时尚的。
我大约认真 pin了两个月,才把推荐内容洗到直男的科技建筑。
而头条将微博账户和兴趣绑定在一起,所以当用微博帐号登录的时候,一开始的初始兴趣分
布就和人的微博记录匹配上了。
今日头条则选择了另一种解决方案——通过对用户微博账号的分析建立一个“兴趣图谱”,即
根据用户在微博上发布的内容及其所属类别、用户自标签、社交关系、社交行为、参与的群
组、机型、使用时间等来数据源来推断出用户的兴趣点有哪些。社交关系、社交行为即用户
和用户之间的交流状况,可以根据二者间的共同好友数、相互评论熟、@数等来做度量。
泛阅读产品“今日头条”是如何基于微博兴趣图谱做个性化推荐的 ?
说起来很简单,做起来也并不复杂,其实头条也不是第一个做这个的。
但有意思的一点是头条主打的是泛阅读,所以,推荐即便比较一般,因为推荐的量大,用户
还是非常容易在推荐的内容里找到感兴趣的。相应的,很多用类似的思路做精品阅读的,基
本都做不下去。
类似的思路让我想起了 orbeus的 phototime,人脸识别并不难,但是让用户手机上的照片
圈出每一个人脸是什么人却是很大的工作量。phototime通过导入用户 facebook上的照片
作为标注结果,然后解决了冷启动。
阅读内容的原始积累
今日头条本身并没有产生新闻的媒体部门,所以将整个互联网的新闻都纳入了自己的信息
源。
虽然这一块惹来很多版权纠纷,但是个人觉得并不是所有的网站都排斥被今日头条抓取了内
容,因为给很多网站带去了流量。值得商榷的是网页重构,虽说提高了用户体验,但是侵犯
了那些媒体公司的利益。
在法律更健全的地方,这样操作就会有风险,以 apple自带的股票 app,或者 yahoofinance,
所有股票新闻都只是一个链接和标题,要老老实实链到第三方的新闻出处。
系统初审,如果系统检测出问题后,人工终审;系统监测没有问题的话直接通过。