自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据小刀->弱水三千只取一瓢

不玩高端,只玩平民。专注简单快速的数据获取、清洗、分析、可视化展现等技能。李小龙的一句名言互勉:“光是知道是不够的,必须加以运用;光是希望是不够的,非去做不可。”

  • 博客(35)
  • 资源 (2)
  • 收藏
  • 关注

原创 私记

数据分析是一个探索、展示、理解的交互过程。也就是说这三个方面是交叉进行的,无所谓先后,接触数据的那一刻便开始了,随着过程的深入,三者相得益彰,促使你获得更加清晰的洞察。

2017-05-25 11:15:22 292

原创 关于搜索引擎使用的小技巧

我们这里以百度和谷歌为例做介绍。一般大众使用搜索引擎的话都是在首页中直接输入关键词,如果有多个信息就同时输入多个,然后以空格互相隔开,比如:这存在一个问题就是搜索结果量太过庞大,时效性不高,也就是说很多年前的东西也会被搜出来。针对这个问题我们可以使用搜索命令来做限定,不过一个更好的办法是直接使用百度高级搜索界面:直接百度搜索“百度高级搜索”:点击第一个进入:

2017-06-17 09:02:43 4921

原创 网页中表格还可以这样处理~一个强力的火狐表格插件TableTools2介绍

数据就在网页上,复制黏贴实在烦,即使辛苦搞下来,还得费力来清理,导到excel搞图表,还得word做表报。呵呵,自己写了一首打油诗。其实这也是曾经从网页上获取过数据的兄弟姐妹的普遍苦恼。最近发现一款火狐表格插件TableTools2,尝试使用了一下,发现其实在太方便了,对于网页表格的处理尤其给力,其真正实现了发现网页表格,就可以直接处理分析。首先你得安装火狐浏览器,百度搜索安装即可;安装后

2017-06-16 09:42:02 9999 2

原创 如何将pdf等非标准数据文件转换成可供EXCEL等软件分析的数据

在数据获取的时候总会碰到很多非标准格式的文档,比如为了web显示良好,很多网站将excel文件转换成了pdf格式,还可能直接使用图片格式,而这类文档中的数据是无法直接用来作数据分析的。举个例子如下:环境保护部2008年中国环境统计年报就为pdf格式,我们想获取其中的一份数据表,一般的想法我们认为可以采用复制黏贴的方式复制数据,原始数据表如下:手工复制到excel中会发现所有同一行数

2017-06-15 10:58:43 6108

原创 《深入浅出统计学》之统计学知识小结

《深入浅出统计学》是一本学习统计学的很好的入门书,说理简单易懂,并且附有案例演示。但是书本往往有这样一个缺点:读了后面忘了前面,想要复习的话又需要翻来翻去,回顾十分不易,我读了这本书后将书本中涉及的统计学知识点及计算方法做了一张表,供有需要的可以参考,本来想用表格形式的,但是数学符号及格式往往难以调整,所以用了图片:

2017-06-14 09:04:32 8795

原创 公共数据库介绍~英国卫报(The Guardian Data Store)

公共数据库-英国卫报(The Guardian Data Store) 与其说英国卫报是个数据库,不如说其是学习数据分析及展示的平台,因为其datablog栏目的分析文章既有文字描述,又有可视化展示,更可贵的是还有原始数据,所以通过学习其数据分析展示的方法,一定能大大的提高数据分析能力。 网址:https://www.theguardian.com/data 我们以其中一篇

2017-06-12 09:33:47 8045

原创 公共数据库介绍~OpenCorporates

世界上最大的公司信息数据库。 网址:https://opencorporates.com/个人对几个菜单进行了尝试,这个数据库类似于公司信息搜索引擎。比如在搜索框中搜索“IBM”:就搜索到了1704家包含关键词IBM的公司,右侧可以按照具体地理位置做筛选,右上可以社交分享,或者获取XML/JSON格式,或者直接下载CSV或XLS格式文件。不过是要收费的。所以

2017-06-11 10:44:10 11076

原创 公共数据库介绍~OECD经合组织数据库

OECD是一个庞大的在线统计数据库,OECD是指经合组织,现经合组织共有35个成员国,它们是:澳大利亚、奥地利、比利时、加拿大、智利、捷克、丹麦、爱沙尼亚、芬兰、法国、德国、希腊、匈牙利、冰岛、爱尔兰、以色列、意大利、日本、韩国、拉脱维亚、卢森堡、墨西哥、荷兰、新西兰、挪威、波兰、葡萄牙、斯洛伐克、斯洛文尼亚、西班牙、瑞典、瑞士、土耳其、英国、美国。该数据库包含了以上国家的相关统计信息,比如GDP

2017-06-10 21:07:37 21805

原创 公共数据库介绍~联合国数据库UNDATA

公共数据库-联合国数据库UNDATA 联合国数据库提供免费数据检索和下载服务。其数据总量为6000万条。涵盖了农业、犯罪、教育、就业、能源等方方面面。 网址:http://data.un.org数据库的使用都是大同小异的,因为其均为英文,所以我觉得使用UNDATA最方便的还是使用上图中Databases列,我们可以看到有英文Crime(犯罪)和Education

2017-06-09 11:07:29 14856

原创 公共数据库介绍~datahub

DataHub是一个免费且强大的数据管理平台。其包含了大量国家、地方政府、研究机构等收集的数据。 网址:https://datahub.io/zh_CN/ 使用前最好调整语言为“中文”:点击导航栏中的“数据集”进入:左侧可以选择“机构”,右侧可以直接搜索关键词,排序项可以进行设置。即可获得自己想要的数据,不过搜索需要英文,所以如果对英文不大熟

2017-06-08 19:57:50 11672

原创 公共数据库介绍~世界银行World Bank

公共数据库-世界银行World Bank 如果需要分析国家的相关数据信息,那么“世界银行World Bank数据库”将是不二选择。我们可以在该数据库中免费获取世界各国的发展数据,其提供了超过9000个的指标文档。并且其类似于“google公共数据库”,通过简单的点选即可形成可视化展示,也可以很容易的分享到你的网页中。 网址:http://data.worldbank.org.cn/

2017-06-07 08:43:06 29286

原创 公共数据库介绍~ProPublica

ProPublica是一家针对美国社会公共兴趣进行调查报道的独立非营利机构。专注于真实重要的事件-用报道彰显道德力量。通过报道工作揭示弱者到强者的真相,并且为正义辩护。ProPublica包含一个数据库,其可以让你访问网站报道中的数据,这可以帮助你低成本的完成本来具有挑战性的且昂贵的调查报告。网站提供了我们报道后的原始数据,还提供高级数据及定制化数据服务。这些及其他主动性的支持保证了 ProP

2017-06-06 08:46:25 6676

原创 公共数据库介绍~google公共数据

该公共数据库是由Google在2010年创建,旨在让用户更加容易的理解和分享数据。Google公共数据资源管理器突出的特点是可以直接对自身数据库中的数据进行可视化分析,省却了获取数据,再选择合适分析展示软件的过程。 网址:http://www.google.com/publicdata Google公共数据资源中中文项貌似没有数据,所以需要选择右边“语言”下拉菜单,一般选择

2017-06-05 12:18:25 13394

原创 关于数据获取的几点经验

俗话说:“巧妇难为无米之炊”,这说的是即使媳妇厨艺高超,如果没有食材的话也会一筹莫展。对于数据分析领域,首要面对的问题也一样:如何获得数据。本文就对数据获取的方方面面作个小结,以供各位“巧媳妇”参考。数据获取也需要有一个流程框架,不然会出现乱找一起的局面,好点的情况是不全面,不好的情况是完全寻不着,以下小结了我总结的数据获取流程: (1)公开数据库这些公开数据库提供的数据结构

2017-06-04 12:14:11 5107

翻译 《Using OpenRefine》翻译~19(完结)

上一篇:《Using OpenRefine》翻译~18GREL 正则表达式的强大功能并不限于数据查找,还可以用作数据管理。GREL提供了利用正则表达式完成函数操作的可能。GREL是用来操作数据的简单函数语言。其是OpenRefne内置的,并且包含函数参数设置。前几章我们已经简要的接触过了,这里我们将教你如何构建你自己的GREL表达式。    数据转换在你需要

2017-06-03 11:42:30 6118

翻译 《Using OpenRefine》翻译~18

上一篇:《Using OpenRefine》翻译~17锚符有时候,你不是要表达有多少字符被匹配,而是想确定字符串哪个位置被匹配。这时候就可以使用锚符anchors。补字号^表示必须在开始匹配,美元符号$表示必须在最后匹配。(不要与方括号[]内的补字符^搞混,这个表示的是否定意义,这和括号外的^意义不一样)。另外,\b可以指定匹配的区间的开始和结束。• ^\d匹配开始为一个数字。

2017-06-02 15:27:47 5069

翻译 《Using OpenRefine》翻译~17

上一篇:《Using OpenRefine》翻译~16第五章:正则表达式和GRELOpenRefine中有两个很强大的工具: regular expressions(正则表达式) 和 GREL.Regular expressions是我们在处理大量数据时用来匹配和替换文本的有效工具。General Refine Expression Language,GREL,

2017-06-01 12:08:44 5706

翻译 《Using OpenRefine》翻译~16

上一篇:《Using OpenRefine》翻译~15•点5-抽取单名称项解析服务在你的数据集中只包含单个条目时工作良好,比如人名、国家或者工种。但是,如果你的列内容包含的是一小段文字时解析往往不奏效,因为其只能在数据库中搜索单个条目。幸运的是,另一种技术named-entity extraction(抽取单名称项)可以用的上。抽取算法会对包含多个单元素(比如人名,地址,值,组织或其他

2017-05-31 08:55:16 5182

翻译 《Using OpenRefine》翻译~15

上一篇:《Using OpenRefine》翻译~14•点3-增加解析服务本小点中,你应该已经安装好了RDF扩展包。如果没有请参考上一点。如果已经装好了,那么你可能会对RDF 和SPARQL代表什么意思感到疑惑,因为这两个词汇一只出现,现在让我们解释一下:Resource Description Framework (RDF) 是一种可以被机器读取的数据模型。因为人类能读懂互联网上的H

2017-05-30 13:17:54 5450 1

翻译 《Using OpenRefine》翻译~14

上一篇:《Using OpenRefine》翻译~13第四章:数据集关联数据集之间并不是互相独立的。总在某些时候,可能在你预想不到的地方,数据之间互相关联,比如,如果你的数据集有一列是关于国家的数据,那么这列就和国家地理数据库有关联。一个书籍数据库中关于作者的列就和人物传记数据库有关联。所有的数据集都有这种联系,但是可能你并没有觉察到,有时候计算机也没有。举个例子,书籍数据库中某条关于Th

2017-05-29 11:06:18 5567

翻译 《Using OpenRefine》翻译~13

上一篇:《Using OpenRefine》翻译~12点7:行列转换有时候数据并不是以你料想的方式在行和列中分布。确实,有很多种数据排布方式,这取决于具体的情况。比如在Powerhouse Museum数据集中,有一些很多维度的列:Height, Width, Depth, Diameter和Weight.但是,并不是所有这些列中都有数据,所以如果按照这种方式排布耗时耗力。一个替代方法是将

2017-05-28 09:49:53 5143

翻译 《Using OpenRefine》翻译~12

上一篇:《Using OpenRefine》翻译~11点4:单元格值转换在第二章:分析和修改数据中,我们学习到OpenRefine可以自动修改一列的单元格内容,比如去除多余空格。上一点中,我们学习到聚类是另一种修改列单元格内容的方法。然而,以上方法都仅仅是单元格值转换通用方法的一部分。你可以通过不同的稍显复杂的方式修改单元格值。虽然这看起来像是EXCEL公式,但是你会惊讶于其功能的强大

2017-05-27 19:08:22 1508

翻译 《Using OpenRefine》翻译~11

上一篇:《Using OpenRefine》翻译~10点3:相似单元格聚类多亏了OpenRefine,我们并不需要担心数据创建过程中产生的一些问题。如果你在分割多值单元格后对分类进行了分析,你会发现同样的分类并不一定有相同的拼写。比如,Agricultural Equipment 和 Agricultural equipment(大小写不同),Costumes 和 Costume(单复

2017-05-26 11:11:42 1332

翻译 《Using OpenRefine》翻译~10

上一篇:《Using OpenRefine》翻译~9第三章:高级数据操作上一章中,我们介绍了OpenRefine的一些基本的操作。然而这些仅仅提供了你初级的数据分析处理技能。只有OpenRefine高级特性才能让你领略其真正的强大之处,本章就将介绍这些内容:• 点1:对多值单元格的处理• 点2:行模式和记录模式的转换• 点3:相似单元格聚类• 点4:单元格值转换•

2017-05-25 09:36:37 1358

转载 FaceBook高效工作十个原则图

虽然道理都懂,但不知有多少人会遵从。现在大到企业工作文山会海,文件朝令夕改,恰恰业绩上也体现出了默默无闻;小到个人活在万千琐事中迷失自我,失去方向,转眼韶华已逝,青春不在,回头方知简简单单坚持一件事情最好的重要性。既如此,不如大家都活得简单一点,可能效果更佳。赠有缘人......

2017-05-24 14:07:33 606

翻译 《Using OpenRefine》翻译~9

上一篇:《Using OpenRefine》翻译~8点4-应用一个文本过滤本点中,我们将学习如何使用文本过滤来寻找符合某个条件的值。当你想寻找那些匹配某个特定字符串的行时,最简单的方法是使用文本过滤功能。让我们以一个简单的例子开始。假如你想找出Object Title列中所有和美国相关的所有标题。选择Object Title| Text flter,我们将在左侧

2017-05-24 08:21:40 1583

翻译 《Using OpenRefine》翻译~8

上一篇:《Using OpenRefine》翻译~7定制透视我们现在已经学习了两种主要的透视方法-文本透视和数字透视。但其实还有很多透视方法存在,你甚至可以按照你的想法自如的透视数据。定制透视就可以让你做到这点,无论是文本类型(比如透视字符串的首字母)或者数字类型(比如透视数字的平方根)。当然,你需要对General Refine Expression language(openr

2017-05-23 10:04:25 1325

翻译 《Using OpenRefine》翻译~7

上一篇:《Using OpenRefine》翻译~6点2-数据透视OpenRefine最常用的功能可能就是数据透视了。数据透视并不改变数据,但是可以让你获得数据集的有用信息。你可以把数据透视看作是多方面查看数据的方法,就像从不同的角度观察宝石一样。数据透视可以获得数据中一个变化后的子集,比如只显示某个参数要求下的行。本点中,我们将学习如何按照你的要求或者数据具体的值来透视数据:对字符串

2017-05-22 12:16:52 1467

翻译 《Using OpenRefine》翻译~6

第二章:分析和修改数据本章中,我们将更加深入的学习OpenRefine的数据分析和修改功能,主要的内容包括下面六点:*点1-数据排序*点2-数据透视*点3-重复检测*点4-应用一个文本过滤*点5-使用简单单元格转换*点6-移除匹配行和第一章:初识OpenRefine一样,本章可以让读者按照自己的需要或爱好选择阅读顺序,并不需要按照顺序阅读。按照顺序阅读也可以,但并不

2017-05-21 10:05:26 1441

翻译 《Using OpenRefine》翻译~5

上一篇:《Using OpenRefine》翻译~4要点7:获取更多的运行内存最后一点,我们将学习如何如何分配更多的运行内存以操作更大的数据集。对于大数据集,你会发觉OpenRefine会运行缓慢或者提示内存不够。这表明你需要分配更多的内存给OpenRefine。和我们上面学习的内容相比,这个内容稍显复杂,因为这需要牵扯到一点底层修改。但是不要担心:我们会指导你如何去做。具体的操作步骤

2017-05-21 10:01:15 1534

翻译 《Using OpenRefine》翻译~4

上一篇:《Using OpenRefine》翻译~3要点5:使用项目操作历史本点中,你将学习到如何返回到任一个项目历史操作点,并且学习如何在项目重新打开后查看历史操作信息。OpenRefine一个特别有用的功能是可以在项目创建后保存所有的操作步骤。这也就意味着你不需要害怕做数据变换尝试:你可以随意按照自己的想法变换数据,因为一旦你发觉做错了(即使是几个月前做的),你也可以撤销该操作以恢

2017-05-20 14:50:27 1570

翻译 《Using OpenRefine》翻译~3

上一篇:《Using OpenRefine》翻译~2要点4:操纵列本点中,你将学习列在OpenRefine如何隐藏和展开、按需要转换、以及重命名和删除。列是OpenRefine中的基本元素:其是具有同一属性的成千上万的值的集合,可以按照很多方法查看处理。  列隐藏和展开默认情况下,所有的列在OpenRefine中都是展开的,大都数情况下显得数据太冗长复杂了。如果你想

2017-05-19 13:34:08 1685

翻译 《Using OpenRefine》翻译~2

上一篇:《Using OpenRefine》翻译~1OpenRefine支持的文件类型以下是部分OpenRefine支持的文件格式:●csv、tsv及其他*sv●xls/xlsx、cdf、ods●JSON●XML●行文本格式(比如log文件)如果你需要打开其他格式文件,你可以通过OpenRefine扩展功能打开。创建OpenRefine项目十

2017-05-18 21:00:36 2921 2

翻译 《Using OpenRefine》翻译~1

总览:无论是现今的大数据还是企业内部的小数据,都存在一些普遍的问题,如数据格式不对需要转换,一个单元格内包含多个含义的内容,包含重复项等等,虽然我们也可以使用excel解决,但是excel天生有诸多限制,比如其为直接对数据进行操作,容易导致误操作;数据量大会处理缓慢;透视表功能太过简单;无法进行高级的数据分类分析。而OpenRefine很好的解决了以上问题,最重要的一点是它还是免费的!!

2017-05-18 08:41:53 5171

原创 首开博客,记录学习历程

凡是能够坚持做下来的事情一般都能够成功,没能成功的往往是半途而废。个人感觉:首先要找到方向,要和自己的兴趣契合-昨夜西风凋碧树,独上高楼,望断天涯路。然后就是枯燥的努力,中间的小成功就是克服枯燥感的良药-衣带渐宽终不悔,为伊消得人憔悴。最后才能获得的满足感-众里寻他千百度,蓦然回首,那人却在灯火阑珊处。开始的努力就从翻译开始吧,边翻边学习。第一本选择的是数据清洗工具OpenRefine的外

2017-05-17 20:10:09 356

《R语言实战(第2版)》同步笔记

《R语言实战(第2版)》重点摘要笔记

2017-06-15

OpenRefine中文使用教程

英文版《using openrefine》全文翻译

2017-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除