您应该了解的15个海量在线数据库

想想自己喜欢的开放式数据库。

我敢肯定,维基百科和IMDb会立即浮现在脑海中,但是您可能永远不需要所有这些知识,也不需要全面的万物数据库娱乐。有时您需要一点VLDB(超大型数据库)风格。可以简化您的数据分析的东西。在大数据中放入“大数据"的东西。小伙伴们,好人,您来对地方了。

这里有15个大型在线数据库,或者您可以在闲暇时仔细阅读。

1000个基因组

人类基因组计划(HGP)的2003年完成仅仅是开始。从那时起,测序技术的进步极大地降低了人均成本,从而使HGP从最初的20个大学实验室的研究基地扩展到了庞大的,相互连接的基因组作图设施的全球化网络。

您可以下载1000个基因组计划的一部分,其中包含来自全球26个人口的2600多人的测序信息。这是200TB的文件,因此请做好准备。我们建议将其与功能强大的云计算平台结合使用。

另请参见:“动物基因组大小数据库"中有关5635个物种的基因组数据。

飞机喷出了天堂。庞大的图像数据库包含2,532,457张各种飞机的照片,从最小的个体飞机到笨拙的飞行要塞。

客机还具有广泛的飞机数据和历史记录部分,并始终与Aerospace Publications合作不断更新以确保事实准确性。这已使其成为Internet上最详细的飞机数据库之一。

另请参见:尝试使用Planespotters.net获取不同范围的图像,或使用SeatGuru获取飞机座位示意图。

Internet存档

该站点以前称为 Internet存档,已经进行了大规模的重新设计。自2002年左右以来,该网站没有发生太大变化,但此后发生了很大变化。自早期以来,Internet档案库就实现了增长甚至更大的发展。

该站点对Internet上的所有内容进行了归档,使您可以免费访问包括书籍,音乐,游戏和随着他们的Web爬虫不断爬行,它还将继续增长。

Freebase

Freebase是“由社区策划的知名人物,地点和事物的数据库",存储在一种称为 graph 的数据结构。图形由节点组成,这些节点由其边缘相连,这使Freebase可以快速扩展其内容而不会破坏现有记录。

不幸的是,Google拥有的Freebase于今年初切换为只读模式,在将独立服务数据库转移到Wikimedia Foundation以便集成到Wikidata项目之前(2015年6月结束)。开发人员目前仍可以使用现有的API访问Freebase,但是一旦进行了切换,开发人员就必须使用Wikimedia API来访问数据。

找到一个坟墓

在Google和Wikimedia的互联网知识梦想团队的基础上,我们走向了病态。 寻找坟墓是一个庞大的 1.21亿记录数据库,遍布全球。

大多数综合记录来自美国,但其中有些记录拥有大量数据的较小国家。附有照片,有趣的纪念碑和许多有趣的墓志……如果您需要灵感呢?

GameRankings

该数据库由Gamespot不断复习的团队维护。 GameRankings通过从信誉良好的来源获得在线和离线游戏评论来全面地描述游戏的受欢迎程度。

Big Cartoon Database

IMDb,大型卡通数据库专门针对动画的所有事物:卡通,电影,电视节目,广告等。如果是动画,您会在这里找到它;如果不是,请注册为这个不断发展的数据库的贡献者。

Big Cartoon数据库在The Big Comic Database中有一个姐妹站点,该站点是另外还有100,000或更多的漫画记录,涵盖5,000多个系列,封面扫描超过35,000。它还包含全面的搜索功能,包括漫画书价格指南,详细介绍了各个等级的当前转售价格。

另请参见:The Grand Comics Database,非商业性

CiteSeer X

CiteSeer X 是学生和学术界的宝贵工具。公共搜索引擎和学术和科学论文数字图书馆。通常被认为是第一个自动引文索引系统,它是 Google Scholar Microsoft Academic Search的灵感来源。 尽管后者已被集成到Bing搜索引擎中。

CiteSeer X 着重于对公共学术文献进行索引。如果您的研究论文是公开分发的,则它更有可能出现在搜索引擎中。 CiteSeer X 是向更多受众提供共享知识的能力的绝佳示例。

另请参见:适用于不同范围的Google学术搜索

WorldCat

很遗憾,Internet上没有每张猫的图片的数据库。现在就可以了! WorldCat比这有用得多。该参考站点记录了遍布全球170个国家和地区的 72,000个图书馆。如果您是在国外进行研究,或者只是想亲自阅读稀有书籍,这很有用。

唯一的缺点是更新方法。 WorldCat使用批处理模型,而不是允许用户实时访问数据。因此,WorldCat不会显示已分类书籍的借阅状态,图书馆是否拥有一本书的多本副本,或希望访问的书籍是否可以直接访问该书籍。它仍然是一个非常有用的工具,尤其是与CiteSeer X 结合使用时。

辛普森一家档案馆

“互联网辛普森一家票据交换所,新闻和信息。"我自己无法把它更好。长期以来一直是粉丝的最爱,它可以追溯到1994年,即使只是为了逃避Fox法律部门的注意,即使没有任何交互式多媒体,它仍然会变得强大。

WinCustomize

您将找到Windows定制工具最大的数据库之一。我敢肯定,Windows 10很快就会开始运行。它的广泛流行源于多种力量。所有者Stardock对该网站进行了补贴,这意味着几乎没有广告。

Ultimate Guitar Archive

Ah,这是一次怀旧之旅,它使我想起了我从未去过的地方罗杰·沃特斯。实际上,我仍然勉强可以玩,但这是另一回事。

终极吉他档案馆,或者只是 Ultimate-Guitar (UG),拥有超过 1,500,000名注册会员,负责监视大量的社区内容。几乎令人难以置信的是,从单一来源分散了多少吉他相关信息。该社区只是没有维护一个庞大的数据库,他们还经常相互协作以创建庞大的音乐项目。

未来的植物

未来的植物文档在生态上可持续园艺。它在传播有关物种多样性和永续农业重要性的知识方面发挥了很大的作用。最初是在康沃尔郡深处的一个小项目开始,如今已慢慢发展成为一个全球数据库。

增长有些缓慢,并且主要关注英国和欧盟的永续养殖,但是许多记录可以互换一旦有了物种详细信息,便可以在美国的特定位置找到。

Quandl

使用此Excel加载项启动处理和分析数据。 Quandl主要站点充当数据库搜索,在全球范围内查找与您的搜索词匹配的数据库。如果您急着需要一些额外的数据,或者就像玩大型数据集(诚实的,谁没有?!),请尝试一下。

另请参见:《谜》数据库搜索引擎。

Tiny Images

Tiny Images数据集充当可视词典。单击图像中的任意位置,将弹出搜索字词,并提供其他信息。您还可以使用特定术语来筛选 8000万张图片

数据库是更广泛的机器学习项目的一部分,该项目的重点是教计算机“看"和“读"语义

奖金来源:/ r / datasets

“ Internet的首页"是全球数据挖掘爱好者的坚实家园。有专门用于机器学习,数据挖掘,文本到数据和数据集的子目录。如果您需要特定的东西,请提出要求。每周都会出现新的数据集。

请注意发布的有趣数据集,例如“加州儿童保育和学校的免疫水平"。

您使用财富吗?

您最喜欢的数据库是什么?我应该在此列表中包含任何开放的大量参考资源吗?

标签: