载入中。。。 'S bLog
 
载入中。。。
 
载入中。。。
载入中。。。
载入中。。。
载入中。。。
载入中。。。
 
填写您的邮件地址,订阅我们的精彩内容:


 
Elastic power-aware data intensive Cloud 新加坡实验室的最新
[ 2010/12/16 10:27:00 | By: 梦翔儿 ]
 

项目进展

分析现有的云计算系统:

  • 我们对MapReduce的开源系统Hadoop进行了深入的研究和分析,并发现了影响MapReduce性能的四个重要因素,并针对这些因素提出了不同的应变策略。实验结果表明,搭建一个灵活、高效且有良好拓展性的基于MapReduce的系统是可行的。
  • 为了使基于MapReduce计算模型的系统能够支持联机分析任务,我们设计了一套查询优化机制。我们设计并实现了可嵌入到Hive中的查询优化模块,该模块基于我们提出的开销估算模型,生成查询计划。
  • 我们设计并实现了一个基于集群的数据仓库系统——L1ama。L1ama混合了行存储和列存储的特点,以提高存储和查询的性能。
  • 我们对Hadoop的源码进行了修改,增加了索引支持、基于fingerprint的排序与以及高效分析器等特性,并就处理分析类的工作负载方面与HadoopDB进行了性能比较。

新系统构建:
  • 我们搭建了内部使用的集群——awan,该集群的网络结构如图1所示。awan集群包括一个主节点和72个工作节点,各节点通过3个交换机互相连接。主节点的功能是提供各种网络管理服务,例如网关、NFS服务器、命名服务器、DHCP服务器等;72个工作节点被均匀划分为3个机架,并为我们的数据存储系统提供服务。awan集群的运行信息可以通过这里查看。


    图1 Awan集群架构

  • 我们设计了epiC的数据存储系统,这种系统运行在基于shared-nothing架构的大量机器上。epiC存储系统同时采用了垂直数据划分和水平数据划分的模式。在这种混合型模式中,同一个表中经常被某些查询同时访问的列被整合为列组并存储于单独的数据表中。这种垂直划分的策略有助于处理在线联机分析处理(OLAP)查询,这些查询通常只需要访问某个逻辑表的某些列项。同时,对于列组中的每个数据表,我们根据数据库工作负载的特征设计了有效的水平划分的方式,从而最大限度地减少生成多个划分的数量,以达到提高处理效率的侀??的。该系统的架构如下图所示:

    图2 epiC存储系统概览
  • 我们解决了联机事务处理(OLTP)和联机分析处理(OLAP)中低选择率查询的问题:对全表使用顺序扫描或并行扫描以得到较少结果集的方法是低效的。然而,如果查询谓词不包含能够决定系统中水平划分模式的属性的话,全表扫描是不可避免的。为了解决这个问题,我们对epiC系统中的数据维护了多种类型的分布式二级索引。这种设计能够支持多种不同类型的查询,例如,分布式哈希索引支持单一维度精确查询,分布式B+树索引支持单一维度范围查询,分布式多维索引支持多维范围查询以及KNN查询。然而,在实际应用中维护多侀??不同种类的分布式索引的代价颇高。
  • 我们设计了统一的索引架构,它可以提供基于Cayley图模型的抽象拓扑网络结构。在该框架中我们可以定义不同的拓扑结构以支持各种类型的查询。
 
 
  • 标签:云计算 
  • 发表评论:
    载入中。。。

     
     
     

    梦翔儿网站 梦飞翔的地方 http://www.dreamflier.net
    中华人民共和国信息产业部TCP/IP系统 备案序号:辽ICP备09000550号

    Powered by Oblog.