这两天正在看数据挖掘方面的基础性文章与教材,突然想到,现在的Web2.0正流行的年代,Web2.0除了方便访问,加快加载,适应手机等各种客户端。更重要的是要让机器也成为访问者,让搜索引擎读懂网站,这不正是数据挖掘的作用吗?现在的网站面向的应用范围和领域更广。
而Web2.0最大的问题是带来巨大的信息量的同时,也带来了大量的垃圾文件,比如说我的博客,就是大量的信息是自已个人在喃喃自语,对绝大多数访问者来讲可能是无关紧要。而大的web社区更是这样,所以访问者的出发点除了探查好友的动态与关注隐私之外,更重要的是从访问信息中获益,这也许更需要从海量的数据中挖掘出来有用的东西。
web2.0下的网站是表现、结构、行为分离的,表现是访问者也就人来读的,结构是机器来读的,行为是用来更好的交互的,对人对机器都重要。网站的开发者关键在于,如何更加合理有效地设计网站结构,让Web2.0网站的运营商可以合理进行数据挖掘的方式更好的了解自已的网站,这样,挖掘技术就成为一个有利的工具。
简单查询了解了一下,flickr在2006年推出了一个新的板块,叫Camera finder,实际上,就是通过用户上传的照片的exif信息,进行对比分析整理而成的一个栏目。
web2.0网站越来越强调社区化,但是,不能完全片面强调社区、平台、用户贡献内容的作用,不可能搭一个平台,就有用户来贡献内容,有用户就成为社区了。无论作为web1.0还是web2.0还是其他网站,对数据的分析和挖掘是最重要的。
(以上两段话引自这个博客日志,感兴趣可以看看:http://hi.baidu.com/vardo/blog/item/0196e4dd40cff7ef77c638e6.html)
其实针对Web的挖掘早就有了,google和baidu本来就是数据挖掘的产物,igoogle的个性化首页,肯定也是挖掘的结果和用户的自定义结合。淘宝等商务平台也肯定离不开挖掘金子一样的商务信息。
从技术上讲XML更多地被数据挖掘研究者所关注,其实现在来讲,更多的应该关注在XHTML与DOM上吧。
如果会web2.0开发技术,又会挖掘分析,网页由人读好,到世界读好!这样也许web会更美。以上这也是初步的想法,有待细化。。。。