这个总结,梦翔儿认为还不错,收在这里
---------
关于cloud computing 我是从基础开始读起,当然时间不是很充足,只是把Google的MapReduce那篇文章读了一遍,刚刚开始不是很理解LISP语言究竟是什么东西,在参考一些资料,尤其是看了一个日文的ppt关于MapReduce的例子之后理解加深,那个例子就是最基本的wordcount,用最简单的伪代码写的,比Google那篇mapreduce论文中附给的mapreduce程序要精简的多,也给了含有一行英文内容的txt然后说在经过mapreduce的wordcount之后那个结果会是什么
之后又稍微了解了在MapReduce之后又有改良版的MapReduceMerge,只是在map和reduce过程之后又加了一个merge的过程,当然特殊情况下才需要这个merge,这部分关注不多,因为暂时还用不到这个merge部分
在稍微了解了MapReduce之后开始关注DISC(Data-Intensive Super Computing),或者新的名字叫Data-Intensive Scalabe Computing,基本围绕点还是Cloud computing,新的cloud computing时代如何来解决DISC问题,主要论文没看,只看了论述性质的文章。
接着是数据库的数据处理:数据处理分4种情况:1.多数据入,多数据出 2.多数据入,单数据出(应该在1部分中包括) 3 单数据入,单数据出(MapReduce) 4单数据入,多数据出(Microsoft出品之Dryad)
再接着思路走下去就想做利用cloud computing做一个最简单的矩阵运算,然后想在什么方面可以做一个应用,这个阶段主要看了几大方面的论文,一个是web search engine部分,比如google的pagerank MS上个月底亚洲研究院新发的论文BrowsRank,基本上都多少有cloud computing的影子。PageRank主要就是运用一个Markov计算。而BrowsRank基本思路就是,用户在哪个网站上花时间最久,那个网站就是最受欢迎的,计算方法也是分析各位IE的history里面的记录把什么时间访问了什么网站,整个数据抓出来然后再组合计算各个网站用户所花费的时间值,然后排出一个20大网站
Table 3: Top 20 websites by three di erent algorithms
No. PageRank TrustRank BrowseRank
1 adobe.com adobe.com myspace.com
2 passport.com yahoo.com msn.com
3 msn.com google.com yahoo.com
4 microsoft.com msn.com youtube.com
5 yahoo.com microsoft.com live.com
6 google.com passport.net facebook.com
7 mapquest.com ufindus.com google.com
8 miibeian.gov.cn sourceforge.net ebay.com
9 w3.org myspace.com hi5.com
10 godaddy.com wikipedia.org bebo.com
11 statcounter.com phpbb.com orkut.com
12 apple.com yahoo.co.jp aol.com
13 live.com ebay.com friendster.com
14 xbox.com nifty.com craigslist.org
15 passport.com mapquest.com google.co.th
16 sourceforge.net cafepress.com microsoft.com
17 amazon.com apple.com comcast.net
18 paypal.com infoseek.co.jp wikipedia.org
19 aol.com miibeian.gov.cn pogo.com
20 blogger.com youtube.com photobucket.com
接着第二部分开始转战算法部分: k-means到k-mean++ 这部分基本没看明白什么意思,函数从头到尾全是函数
关于Hadoop部分
http://research.yahoo.com/node/2104
这个页面比较不错,基本上把至今为止不错的一些应用都拿出来了
有基本介绍 hadoop overview 这个基本的有点基本 基本没啥东西,在我看来
然后是pig开发语言
接着是X-trace在运行Hadoop的监控评价UI,虽然hadoop自己也带了一个简单的UI,只是这个X-trace功能更加的强大
然后就是Hbase这个大的数据库介绍
其他几个各个公司在hadoop上的应用,比较推荐的是Amazon的应用部分,但这个页面没

整个系统一气呵成很cloud很computing….
推荐几个web连接:
http://net.pku.edu.cn/~course/cs402/index.html
国内这个暑期新开的算是cloud computing起步课程
http://code.google.com/edu/parallel/index.html
google是必不可少的
http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster)
基本Hadoop安装配置
http://research.google.com/people/jeff/index.html
google做mapreduce的大牛
from:
http://jimey.com/2008/08/20/hadoop-papers-this-month-to-read-and-to-be-a-simple-summary-of-relevant-technologies.html