梦翔儿微博上收集的大数据集相关信息,看起来也不少了呵!
http://weibo.com/dreamflier/
搜索大数据就OK了
======
https://cwiki.apache.org/MAHOUT/collections.html
这个是mahout的大数据集,你看看有没有合适的?
那个linkedin是人物的应该是高维的吧?
Data | San Francisco 旧金山的地理数据集,包括商业,前一个月犯罪信息等数据,并可以自行选择字段与地图范围,导出所需的数据集:http://t.cn/zWKCJX7
#DBLP# Dataset下载,#大规模图数据集#,The PROXIMITY DBLP database presents information on computer science publications listed in the DBLP Computer Science Bibliography. Over 1,200,000 objects Over 2,480,000 links 12 object attributes 6 link attributes http://t.cn/zOCP4X3
2012年情人节,张华平博士发布微博博主语料库100万条,微博内容23万条,微博关系库100万条,为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台予以公开共享,下载地址:http://t.cn/zOAmktL
#谷歌#的代码大学中关于#hadoop#分布式系统教学资源,包括#vmware虚拟镜像#,#Map Reduce#插件,示例数据集等,入门必备利器:http://t.cn/SyoxBw
搜狗实验室的#海量数据#资源,包括:评测集合 #语料数据#,一些大数据集不错! :http://t.cn/h5dQHS
这里有一个空间#大数据#集,GRASS开源的,North Carolina data set contains rich collection of raster, vector and point data:http://t.cn/S7L6RU
#大数据集#之 欧州议会并行语料库:http://t.cn/SPBvi6
mapreduce的多核的平台 C++开发,有一些大数据集,还有一个Mapreduce的工作组:http://t.cn/SPBX05
维基百科的,#海量数据集#下载:http://t.cn/SP13ka
========
博客里还有一些:
by 梦翔儿