如果我告诉过您,您拥有可用于进行突破性的,惊天动地的研究的工具,您会怎么说?嗯,您知道了,我将向您展示如何操作。没有任何人使用此信息,其真实价值将永远无法知晓。不幸的是,很少有人拥有洞察力,技能或工具来获取数据并在看似无关的信息之间建立有趣的关联。
背景
我所做的很多研究我自己的博客涉及挖掘所谓的“看不见的网络",其中充斥着宝贵的数据。很多时候,我偶然发现一些网页上充斥着一些最有价值的数据,这些数据涉及从人口普查数据到罕见病流行病学研究的整个领域。关于如何使用各种工具尝试将这些不同的数据源进行关联,我一直有新的想法-我发现的最有价值的工具之一就是Microsoft Excel中的Web查询。
查找有趣的数据相关性
我今天要向您展示的是一个示例,说明了如何利用Excel Web查询从不同的网站提取数据,并相互绘制图表以寻找潜在的可能性。数据之间的相关性。
像这样开始练习的方法是提出一个有趣的假设。例如,为了使事情有趣,我将随机假设美国自闭症的暴涨是由于疫苗接种或儿童及其周围的儿童(例如手机)电磁场的不断增加引起的。您会在大多数阴谋论网站上找到类似的说法,这是一个疯狂的假设,但这正是使这一点有趣的原因。那么,让我们开始吧?
首先,打开Excel,转到数据菜单项,然后在菜单栏中找到“来自Web"图标。
这就是从许多发布网站的网站导入不同数据表的方法。
将Web数据导入Excel
因此,过去,必须尝试从网页上的该表中复制数据,将其粘贴到Excel中,然后处理这样做所涉及的所有疯狂的格式设置问题。完全麻烦,很多时候,这都不值得头疼。好吧,有了Excel Web Queries,那些日子已经一去不复返了。当然,在导入数据之前,您需要通过Google遍历网络以表格的形式查找所需的数据。以我为例,我发现了一个网站,该网站已发布了教育部的统计数据,其中包含被确认患有自闭症的美国公立学校学生人数。一个不错的表提供了从1994年到2006年的数字。
因此,您只需单击“从Web",将网页URL粘贴到查询地址字段中,然后向下滚动页面,直到看到带有要导入数据的表格旁边的黄色箭头。
单击箭头,使其变为绿色的选中标记。
最后,告诉Excel您想要什么字段将表数据粘贴到新电子表格的内部。
然后–瞧!数据会自动流入您的电子表格。
幸运的是,我很快发现了从1985年到2012年美国手机用户的趋势。这项特定研究的出色数据。再次,我使用Excel Web查询工具导入该表。
我将该表导入了一个干净的新表中。然后,我发现了针对不同疾病接种疫苗的在校儿童百分比的接种趋势。我使用Web查询工具将该表导入了第三张表。因此,最后,我得到了三张纸,其中三个表充满了我在Web上发现的看似未连接的数据。
下一步,是使用Excel分析数据并尝试识别任何相关性。这就是我最喜欢的数据分析工具之一-数据透视表。
使用数据透视表在Excel中分析数据
最好在全新的空白表中创建数据透视表片。您想使用向导进行操作。若要在Excel中启用数据透视表向导,您需要同时按Alt-D,直到弹出通知窗口。然后松开这些按钮,然后按“ P"键。然后,您会看到向导弹出。
在向导的第一个窗口中,您想要选择“多个合并范围",这使您可以从所有工作表中选择数据已经进口了。通过这样做,您可以将所有看似无关的数据合并到一个强大的数据透视表中。在某些情况下,您可能需要整理一些数据。例如,我必须修复自闭症表中的“年份"字段,以使其显示“ 1994"而不是“ 1994-95" –使其与其他表格的表更好地对齐,该表格也具有主要年份
数据之间的公共字段是您尝试与信息关联所需的字段,因此在网络上寻找数据时请记住这一点。
数据透视表完成后,您已经在一个表中显示了所有不同的数据值,是时候进行可视化分析,以查看是否有明显的连接跳到您身边。
可视化数据是关键
如果您是经济学家,那么在表中拥有一堆数字是很好的选择,但是当您尝试查找类似“ aha!"的连接时,这是最快最简单的方式大海捞针,是通过图表和图形。在将数据透视图与所有收集的数据集放置到位之后,就可以创建图形了。通常,折线图效果最好,但是取决于数据。有时条形图的效果要好得多。尝试了解您正在查看的数据类型以及哪种形式的比较最有效。
在这种情况下,我一直在查看数据,因此折线图确实是查看数据的最佳方法多年来的趋势。将自闭症患病率(绿色)与按比例缩小的疫苗接种率(深蓝色),水痘疫苗(浅蓝色)和手机使用情况(紫色)作图,在我正在使用的这个样本数据集中突然出现了一个奇怪的相关性。
奇怪的是,从1994年到2006年,手机使用的趋势几乎完全与自闭症发生率在同一时期内的上升趋势完全吻合。尽管这种模式是完全出乎意料的,但它是一个完美的例子,说明将有趣的数据捆绑在一起可以揭示引人入胜的线索-为您提供了更深刻的见识和动力,以不断推进并寻找更多可进一步支持您的假设的数据。
标签: