自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

谷震平的专栏

我正在星球和朋友们讨论有趣的话题,你⼀起来吧? https://t.zsxq.com/AynemMF

  • 博客(60)
  • 资源 (2)
  • 收藏
  • 关注

原创 大数据工具测评:Clickhouse vs TiDB vs Palo

前言关注OLAP领域1年多了,目前还是处于混战阶段,各类工具、技术层出不穷。之前做过clickhouse、tidb、palo的测试,从九个角度对比了这三款经典的OLAP工具: 数据导入 sql查询性能 QPS 资源使用 安装部署 社区活跃度 SQL 功能对比 更新机制 其他 一一说来,TiDB具有很多优势...

2019-09-03 14:37:44 11634

原创 技术篇:关于EKT的一些设计

前言笔者做了一段时间的区块链底层开发,深知架构设计的重要性。对于高手来说,没有的轮子是可以自己造的,造个大规模消息/任务队列都只是想不想写的事情。但在企业中开发,追求的是稳定、性能、成本等等,所以通常希望使用开源组件,二次开发。解析过EKT项目,鉴于自己还不是高手,把自己认为有用的点都总结下。希望对来往的看官老爷有用。懂分享的人,一定会快乐!账户设计和ETH类似,用了账户模型,结合Mer...

2019-03-22 14:36:03 1546

原创 Redash 二次开发入门

前言在Redash二次开发上做了不少工作,修改bug,定制样式,定制功能,增加数据源等等。聊聊自己的二次开发经验。懂分享的人,一定会快乐!环境准备Redash依赖的外部环境比较多,特别是Python相关的包,大多数时候一次装不成功,需要单独装或者更新安装其他系统依赖库,祝大家一次成功!环境准备可以参考另一篇blog,没用全说,其余的自己动动脑筋比较好。附传送门:Redash开发指南系...

2019-02-20 11:40:26 14355

原创 识别一条链的品种(科普篇)

一 前言大多数人都具备分类知识,知道猫有几种,狗有几种。但是,在区块链领域,联盟链、应用链、私有链、公共链等同时出现,就傻傻分不清楚。听说搞生物分类学的,懂鸟的不懂昆虫,懂蝴蝶的搞不定灰蝶。好在,区块链还没有那么多品种。这个问题,一篇文章能说明白。现通行的生物的科学分类法:自然分类。自然分类法,有7个级别:界-门-纲-目-科-属-种。笔者无法科学证明分类的正确性,尽量客观吧,不喜勿...

2018-07-27 14:43:36 702

原创 高阶Python----常用的数据结构与算法

前言高阶Python系列文章是笔者想要突破自己目前的技术生涯瓶颈而作,不具有普适性。本文主要是介绍Python在数据结构和算法中常用的函数。这也是数据分析领域必备知识点。也不是特地为了某些读者而作,想着提高自己的同时,能方便他人就更好了。懂分享的人,一定会快乐!常用的四个模块应该是:collections,heapq,operator,itertools。其中,collections是日常工作中的重

2017-02-12 21:27:27 6205 1

原创 大数据开发----Hive(入门篇)

前言本篇介绍Hive的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。本文所用的环境为:CentOS 6.5 64位Hive 2.1.1Java 1.8Hive Architecture引自官网,务必仔细阅读: Figure 1 also shows how a typical query flows through the syst

2017-02-02 22:04:29 4787

原创 大数据开发----Fabric(入门篇)

一 前言本篇介绍Fabric的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。二 安装Fabric现在支持Python2和Python3,安装:pip install fabricpip install fabric3输入fab命令:三 使用在终端(Terminal)执行fab命令执行配置文件。默认的配置文件为:fabfile.py,也可以

2017-02-02 21:54:00 2829

原创 Hadoop----集群运维(持续更新...)

前言本篇介绍Hadoop的一些常用知识。要说和网上其他manual的区别,那就是这是笔者写的一套成体系的文档,不是随心所欲而作。常用HDFS命令hadoop fs -ls URIhadoop fs -du -h URIhadoop fs -cat URI [文件较大,hadoop fs -cat xxxx | head]hadoop fs -put URIhadoop fs -get UR

2017-02-02 21:39:24 4289

原创 Hadoop----集群搭建指南(下卷)

前言什么是Hadoop? Apache Hadoop is a framework for running applications on large cluster built of commodity hardware. The Hadoop framework transparently provides applications both reliability and data mot

2017-02-02 21:28:08 1481

原创 Hadoop----集群搭建指南(中卷)

前言本文的搭建基于上卷的配置,环境不再一一赘述。网络配置好的5台节点均可相互ping通,对于节点hadoop1(192.168.20.2)可以ping同其余四台hadoop2(192.168.20.3)、hadoop3(192.168.20.4)、hadoop4(192.168.20.5)、hadoop5(192.168.20.6)。其余节点同理。本文继续进行集群的搭建—-SSH配置。禁止root账

2017-02-02 20:59:08 1011

原创 Hadoop----集群搭建指南(上卷)

前言阅读本文,需要具备Linux、计算机网络的基础知识。所以在文中出现的相关基础知识,均以链接的形式给出,务必理解该链接的内容后,继续阅读本指南。集群搭建的环境多种多样,本文采用VitualBox安装5台虚拟机构建集群。具体环境:CentOS 6.5 64位VirtualBox 5.1.10 Mac版本机macOS Sierra 10.12.1 i7 8G内存单台装机先下载CentOS的is

2017-02-02 20:54:29 1615 2

原创 数据之美----雪球网股票组合分析

简介因为工作需要,爬了几个大型的网站,练就一身爬取数据和分析数据的功夫。所以,在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据,并进行分析,得出一些有价值有潜力的股票代码。实盘到没有测试,随便估计了一下,至少跟盘不会出现亏损。先普及一下组合的概念:由雪球、微博等平台的投资主理人管理的股票持仓池。技术架构特点:简单可依赖多服务器多核心异步架构实时爬取机器学习、数理统计经典方法分析6000

2016-10-13 00:22:24 7176 4

原创 爬虫之刃----赶集网招聘类爬取案例详解(系列四)

前言本篇承袭之前的系列文章,开始动真格。以赶集网招聘类信息爬取为例,详细解说爬虫程序构建过程。准备工作:阅读之前的系列一、系列二、系列三,有一定递进关系登陆赶集网,了解下“地形”OK,let’s go!构建URL库每个网站的URL都会有一定规律,或强或弱。赶集网的URL规律就非常明显。郑重说明:对于目标站点,必须熟悉。这一步对于不同的网站有不同的方法。而赶集的话,是我通过仔细观察得到url规律

2016-10-01 20:36:46 9770 5

原创 爬虫之刃----简化爬虫程序之滚轮子实战(系列三)

前言这是一些准备工作:了解整个系列的安排了解系列二中的爬虫架构If you have done, that’s cool ! 这篇主要是:介绍需要的技术栈,需要补的东西请戳官方文档。官贴是专业的!推荐个人使用的一些库和轮子OK!Let’s get a new start!技术栈合集1. Requests和lxml(主要是tree函数)。Reque

2016-07-31 23:20:08 4249 4

原创 爬虫之刃----总览之心里鸡汤(系列一)

问题背景在百姓网挖坑中,累啊。我的老大告诉我,那谁谁需要58/赶集的数据。我当时的第一反应是找个黑帽去脱库…擦嘞。老大面对我:“嗯哼,赶集的,你上吧!有问题找xx协助一下。”我就只能“哦”了一下…..下面填坑。这个系列的价值我是这样想的:把这个当故事看会好点。但是,文笔不行,挖坑不造…这是个六年级会点lol的小学渣的随笔。但是,这个东西是存在的,你看或不看,它都在这

2016-07-31 23:16:59 1615

原创 全沾工程师----如何一个人写完web、Android、iOS、接口、CMS

前言看了文章标题,你也行吓一跳,心想这人有那么牛逼嘛。就当笔者浮夸吧,不想争辩了。这是一个神奇的时代,我这一代IT人有太多的工具。虽然我懒(其实程序员都懒),但是,我选择的技术和工具仍然具有相当大的自定义空间。这不是一篇啥好文章,但是,这篇文章可以给那些有需求全沾的人一点点建议。沉淀了2个月,又要跳出来哗众取宠,呵呵哒。全沾工程师IT领域的全栈工程师,金光闪闪。善学

2016-06-17 16:24:53 7103 3

原创 站长篇----远程连接数据库失败的解决方法

前言远程连接数据出错,报:host “XXXXXXXXXXXX” is not allowed to connect to this MySql serverunable to authentic SSH tunnel: Invalid username or password这三个错误一个来自常规连接(general),两个来自ssh连接。ssh连接出现的错误,我试着修改过ubuntu的

2016-06-14 14:31:46 4763

原创 OCR----你不得不知的Tesseract六大重要核心

Abstract整理了很多OCR的资料,这篇主要是对Tesseract重要的知识进行总结罗列。本次总结,基于2007年Smith所写的Paper—-《An Overview of the Tesseract OCR Engine》,所以算是论文导读吧。PS:Smith是一个专注OCR领域30年的男人~~太可怕了!这篇文章的重点是在文本行的查找,特征/分类的方法,以及自适应分类器。此外,文章中介绍了T

2016-05-16 11:28:55 24687 11

原创 我笑了...pytesseract是这么简单的model

概要Python语言中,pytesseract是用于验证码、字符识别的常用model。研究OCR期间,接触到这个模块。深究其源码,才明白,这个库是如此简单。安装: 首先安装依赖:PIL、Image、tesseract-ocr,然后: pip install pytesseractpytesseract在官网上说了自己是个wrapper,真正干活的是tesseract-ocr,即tesser...

2016-04-27 08:33:03 4316 1

原创 Flask系列----快速入门实战解析(上篇)

Flask入门Flask并不是那种啥也不懂的小白就能随意入门的,需要些基础知识。例如:Python基础网络基础Jinja2模板引擎和Werkzeug WSGI套件工具的使用(PyCharm) 所以,小白请谦虚,请Google不会的专业名称!我就是这样过来的……Flask概述摘要:Flask是一个微型框架,核心很小。但是,借助于Python的扩展性,Flask的功能很强大。Flask有两个重

2016-04-25 00:13:57 4583

原创 文本挖掘----基于OCR的文档关键字提取

前言做了一段时间的OCR,把大量的图片、PDF处理成了文本。请注意:这些文本在互联网上属于稀有资源。这些文本以前都放在一个盒子里,如今,用OCR做钥匙打开盒子。取出东西,是好是坏也没人知道。但是,总得取出来看看。所以,Text Mining就有了用处。我们把这些稀缺数据拿来挖一挖。万一挖到宝了,可就发了。。。数据可视化后,你将得到这样的结果: 别高兴,我讲给你列出一堆坑。。。。在自己的微信公众号上

2016-04-16 22:41:21 10883

原创 OCR----Tesseract引擎核心类TessBaseAPI的操作

前言写了两篇博文介绍了:Python调用Tesseract引擎(Ubuntu下) Tesseract 3.x 架构及原理解析 这一篇将更加深入OCR的世界!不得不把一些和本专栏(后面会整理出一个系列)相关的参考资料列出来,帮助大家建立知识体系。1 Tesseract的环境安装 –> 谷震平的传送门 2 Tesseract的使用方法:主要是命令行的使用 –> 传送门 3 Tesseract的

2016-03-31 22:12:57 15366 6

原创 OCR----Tesseract 3.x架构及原理解析

Tesseract的历史Tesseract是一个开源的OCR引擎,惠普公司的布里斯托尔实验室在1984-1994年开发完成。起初作为惠普的平板扫描仪的文字识别引擎。Tesseract在1995年UNLV OCR字符识别准确性测试中拔得头筹,受到广泛关注。后来HP放弃了OCR市场。在1994年以后,Tesseract的开发就停止了。在2005年,HP将Tesseract贡献给开源社区。美国内华达州信息

2016-03-30 22:20:18 39789 11

原创 OCR----Python调用Tesseract引擎(Ubuntu下)

前言    最近再搞OCR的,用于识别日文报刊,是公司的一个日本项目,做的我是苦不堪言。最近把自己的工作内容写出来,也会做一个系列和专栏,欢迎关注!    想搞好这个OCR,需要读论文。好在只需要读4篇,都是Tesseract的作者Ray Smith写的。Tesseract目前被Google维护并开源,以后的前景应该会非常好。

2016-03-30 17:51:47 12965 4

原创 3D打印----Cura软件二次开发

0 前言 大家好,在Git上公开了我的工作内容,有修改的源码。欢迎参考!传送门:the Data of Cura 3D Printer。 工作中,需要对Cura进行二次开发,所以对这个项目做一些跟进式的总结,欢迎交流! 更新中...我也在学习!而且就凭我战五渣的英文水平,,,呵呵哒!1 最新进展 03月11日: 修改了Cura的主界面,把Cura的功能都换成带有图标的按钮。目前还有很多工作没有搞定,比如:实现Cura的基本功能。 感想:Cura用

2016-03-01 13:28:44 13359 6

翻译 Python篇----提供pip和virtualenv的Uranium之介绍(翻译篇)

原文链接:Uranium: a Python Build System  http://uranium.readthedocs.org/en/latest/index.html0 前言    国内关于Uranium的资料还是比较少的,所以特别翻译一下。同时也是因为有个开源项目Cura(Ultimaker开发的3D切片软件)用到了这个框架,所以我也要研究一番。不知道这篇blog的有效

2016-02-27 18:24:06 2057 2

原创 HTML5 APP----2014年H5没火,why?2016年H5能火,why?

0 前言        HTML5做跨平台的APP,在大多数人的脑子里没有什么好感,我身边的朋友也这么说。Anyway,我用完以后得出这样的结论:HTML5跨平台APP开发,在2015年以后会越来越火。    在2014年以前,HTML5的性能和能力都不够充足。特别是性能,因为Android4.4以下版本不能支持webGL技术,所以大部分低端Android手机无法流畅运行手机APP。D

2016-02-25 10:55:17 4080

原创 Git----基本使用详解及进阶教程

0 前言      整理一下,自己平时用,也分享给大家。里面引到的一些blog,也不错,特别是ProGit这本书,很重要,再详细的内容,可去书中查找。       本blog适合github和git@osc,无论你用哪个平台,这里的东西都可以用到。    我在Mac操作的,Windows平台几乎没有差别。如有,可在留在评论下方。谢谢分享!==============

2016-02-04 11:50:38 1861

原创 HTML5 APP----DCloud产品分析及介绍

0 前言    目前,使用HTML5开发web app或者Hybrid App已经非常常见,大公司(大众点评、天猫)、小公司(创业团队)也在用。但是,学习资料还是比较空缺的。这个指南是笔者个人总结,难免有误,欢迎指正!    目前,做HTML5的App工具和平台也有很多,我从这4个平台挑选了一个。之前写过3个系列的短文,分析了我为什么选择DCloud这个平台。详情戳下面:

2016-02-03 11:11:10 8568 15

原创 Python篇----多线程1TB数据生成脚本

0 前言Sorry,我骗了你!!!“多线程”,在Python中就是鸡肋,我只是想得到很多份1TB数据文件而已。“1TB数据”,这个大小是可以改的,生成1G,1M的数据随便都行。数据,目前只是随机数。这种随机数是伪随机数,有一个规律的,网上有解释,可以自行百度。“脚本”,这真的是个Python脚本。。。。。提示:我在小学弟的电脑上开了8个线程去跑,结果,他的CPU快到100摄

2016-01-30 11:40:14 2525

原创 Python篇----命令行调用、输出log日志并打包的脚本

一 前言这个脚本不够健壮,只是我个人使用,处理一些大数据的业务。分享给大家,不要乱玩,会玩坏的。。。大家看看思路就好了。该脚本将输出今天的log文件内容。如果log文件是今日新建的,日志内容将会放在里面。如果不是,就会将存储位置下的.log文件打成 .tar.gz 包。同时以当日时间作为log文件的名称(前缀程序会给你补上),再放入log日志内容,最后存储在用户输入的路径下。

2016-01-11 17:00:32 10820

原创 跨平台APP----使用DCloud公司产品跨平台开发(系列三)

前言:随着跨平台开发越来越流行,像DCloud这种平台还会越来越多。      --------谷震平一  概述    我(个人观点)已经分析了Hybrid开发模式的优缺点,也分析了使用该模式的平台的优缺点。所以,选择了DCloud这样的平台。为什么???每个人有每个人的选择。我只能告诉你,DCloud适合我这个程序员。    学习路线:

2016-01-11 15:55:08 10098

原创 跨平台APP----对Cordova,APPCan,DCloud,APICloud四大平台的分析(系列二)

前言:移动开发是未来一个很重要的IT领域,而跨平台开发将是这一领域最重要的事情。         ----谷震平  一 兵器谱 在国外,最大的是Cordova(PhoneGap,2011年广泛流行),在2012年12月开源。在国内,按时间顺序,有: 2012年,AppCan 2013年,DCloud 2014年9月,APICloud 二 Cordova...

2016-01-11 15:11:33 29107 4

原创 跨平台APP----对Native/Hybrid/Web APP三种开发模式的分析(系列一)

前言:跨平台APP开发是以后的一个趋势,将会有更多的工具出现。原生开发人员无论是薪资还是人数都将出现一定的下降。--------谷震平  【以下内容均为原创,请尊重原创!】  一 Native/Hybrid/Web App开发       Native原生开发,目前较为成熟,各大公司均采用此方式。但是其人工成本较高,同一个项目,至少需要Android端、...

2016-01-11 14:31:31 19226

原创 HTML5----HTML在Browser中的运行机制(笔记篇)

0 前言    HTML5+CSS+JS做手机APP越来越来流行了,所以我也在涉及这一领域。上篇blog就算是对当前市场的一个简单介绍,这一篇主要是涉及HTML原理的,后期还会系统的讨论HTML的性能和能力的问题。欢迎大家留言交流!1 HTML简介    HTML是一种标签语言,含有带不同语意的标签,经解析后成为网页上显示的内容。一般HTML(网页,HTML P

2015-12-05 17:47:59 2332

原创 HTML5----移动开发兵器谱(笔记篇)

0 前言移动开发,有三种利器----原生、HTML5、混合(原生+HTML5)。随便谈谈这张兵器谱,观点中立。1 原生iOS、Android、Windows Phone三大主流手机系统。iOS开发语言:Objective-C、SwiftiOS开发工具:XcodeAndroid开发语言:Java Android开发工具:ADTWindows Phone

2015-12-04 22:28:53 1287

原创 Apache----windows下虚拟主机和虚拟目录的认识(Apache配置)

【指导老师】 王津    CTO   天津千行时线科技有限公司1 前言虚拟主机和虚拟目录的用处和区别很大,需要一番深究。在windows/Linux/Mac上配置也有差异。区别这两个东西,是为了更方便的发布和部署你的项目!!!虚拟目录,你在发布的时候,会多一个project目录,去不掉,工程项目过大的时候。虚拟主机,直接是域名+index.php首页,方便发

2015-12-04 13:52:53 4798 1

原创 HTML5----大牛对HTML5的思考总结(一)(笔记篇)

1 合肥APP开发的博客原文链接:http://blog.sina.com.cn/s/blog_1385466310102w28z.html内容提要:本文罗列了该博客的7个观点,主要是关于HTML5及流应用方向的讨论。该作者认为,HTML5,在2015年已经取得突破性进展。利用HTML5的优势让开发商和用户,实打实感受了其价值。观点1:Facebook发布Rea

2015-12-01 20:28:40 1422

原创 MongoDB----在Mac下配置安装教程

Mac下安装1 去官网 下载在终端输入 tar -zxvf mongodb-osx-x86_64-3.0.7.tar解压 2 将MongoDB添加到环境变量中首先要找到你解压过后的目录。我的在/Applications/mongodb-osx-x86_64-3.0.7在终端输入:vim ~/.bash_profile回车弹

2015-11-29 16:08:49 3356

原创 Python篇----面向对象程序设计(三)(继承篇)

1 继承的详述    (1)继承,是一个类A(通过继承)拥有另一个类B的所有方法(功能)。继承之后,类B叫做父类,它是被继承的:类A叫做子类,它拥有父类(类B)的所有方法(功能)。类A还可以继续添加自己的方法(功能)。    单继承,类A 只继承一个类,它只有一个父类。    多继承,类A继承两个以上的类,它有多个父类。  (2)Python代码实现#构

2015-11-28 10:28:42 1100

串口通讯助手

这是一个串口通讯助手的源代码,可以在VC里面打开。它实现的功能:在C盘读取data.txt文件(你必须先新建一个)的数据,通过串口发送到指定com口。记得连上的你的单片机。

2014-10-05

Python语言编写的Dijkstra算法

这是一个用Python写的Dijkstra算法,放在python3.x系列中即可运行,用于求解最短路径问题。可以求解大概10个节点的无向完全图。

2014-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除