最近,重新找工作投简历,发现有招数据挖据工程师、搜索引擎工程师、人工智能工程师与BI工程师等。在我看来, 其实数据挖据与搜索引擎,都是人工智能的一部分。 解决问题的步骤一般经历:
认识问题需要数据挖据技术,从问题的数据中提取出潜在规则;然后,将潜在规则与已有知识库进行比对(当知识库非常巨大的时候,就需要用到搜 索技术);尝试用知识库作出的反应解决问题;问题解决后,要根据实际效果对知识库进行修正。
有时实际效果也不好,有多种可能的原因:如数据挖掘技术问题,提取的规则有问题; 或者搜索技术问题,如未能找到与问题最匹配的知识;或者知识库中关于该情况提供的处理预案是错的;或者目前知识库里还没有相关知识积累,需要添加知识;最有可能是整个设计都有问题,需要对整个系统作人工修正。
尽管,我在上篇写了DM目前可能存在的一些问题,但DM仍是我最关心的领域之一,本篇继续一些相关的延展。
DM或类似的技术应用使得“使用越多,发现越多”成为了新一代网站的鲜明特征之一。使用豆瓣,用户可以发现喜欢的书、电影、音乐、Blog;使用del.icio.us,用户可以发现自己喜欢的文章、观点;这些出色的Web 2.0网站总是能帮助用户在特定领域里发现更多。用户的行为被前所未有地“废物利用”,使得发现自己所爱的过程变得轻松惬意。
可尽管如此,用户数据还是被大大地浪费了:用户无法通过自己积累的书、音乐、电影数据发现自己也许会喜欢的衣服、电脑设备、运动项目或是其他;此时,用户唯一能做的是在另一个相关网站上再积累相当量的数据,以获得较准确的推荐。新获得的推荐与先前的其他领域的数据积累无任何关联。
看似不相关的数据之间仍然是有内在联系的,我相信,下一代的互联网巨头就将诞生在这个领域——内涵式的社会化网站,它将区别于常见的特定领域的社会化网站(如douban.com, flickr.com等,尽管douban也一直在扩充自己的领域)。Facebook Platform的发布和Amazon MP3的上线似乎在暗示着这种趋势:我们大胆想象,汇集成千上万个应用的Facebook会创造出什么?而积累了5年的用户收听音乐习惯和15年的用户购买习惯后,Amazon又会创造出什么?Google声称会比Facebook更开放的平台加入竞争后,未来又会变得怎样?
在与创业者的交流中,DM(数据挖掘)被提到的频率很高,创业者们总是希望得到更多的用户有效数据,通过分析这些数据,达到“让对的人在对的时间看到对的推荐(广告或商品)”的效果。这种想法具有普遍性,却存在一些问题:
- 互联网创业者希望提供其用户最简单易用的操作体验(服务)的愿望,和他们希望得到更多的用户有效数
据的愿望之间,往往是一对矛盾。从简单易用的角度来说,用户总是希望“付出”更少,“获得”更多;而用户“付出”越少,可供网站DM的数据就少了,DM的有效
性就会减弱。
- DM技术尽管已不再神秘,但大部分实施的案例水平依然比较平庸。迄今,我以为Amazon的推荐引擎仍是
最好的DM应用之一,尤其在如此庞杂的数据量和数据种类面前,依然能有为人称道的良好表现,足见其DM的技术实力。而对于国内广受爱戴的豆瓣推荐,已经有不止一人告诉我,豆瓣推荐对他们已经没什么用了:推荐的书、电影都看过了,或者是根
本不喜欢看的。而我也发现,豆瓣认为“和我口味最接近的人”里居然有一个和我只有一本书的共同爱好,这的确有些牵强。
与问题相应的有一些补充内容,希望对创业者有益:
- 要点是预期,当用户预期其“付出”有相应的回报时,自然愿意“付出”。比如,用户在当当网上订购图书时,如果不“付出”真实的地址和联系方式,所购书籍将无法及时送到。又如,用户在last.fm“付出”的原因则是希望得到更多适合其口味的音乐推荐。
- 有效数据种类多少与推荐精确度呈正相关性,但是种类越多,对于DM技术的要求也越高,实施的成本也越高。很多情况下,数学上通畅的计算过程却无法在当今最好的计算机上迅速得到运算结果。所以,DM技术的关键在于精简变量和简化算法。如果现有人脉中没有这样的高级技术人才的话,还是将希望建立在更实际的地方更稳妥。
DM是一件高成本、高门槛的事,即便是国内Web 2.0翘楚的豆瓣做的水平也比较一般。创业者在思考产品和服务的时候,还是应更多地结合自身情况,做好力所能及的工作,以保证自己赚到力所能及的利润。