自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 在AWS上配置CodeCommit

CodeCommit的配置相对简单,首先登陆到AWS Console界面,到CodeCommit出,点Create Repository,给个名字,即可完成Repository的创建。然后就是配置客户端连接,这个比较麻烦。我选用的是HTTPS连接方式和Windows客户端,然后AWS给出连接步骤:1. Install Git (1.7.9 or later supported) wit

2017-11-01 12:33:36 2393

原创 Mac OS安装使用ODBC

需要用到JMP连接数据库,我们的数据库是RDS(MySQL),在windows环境安装MySQL ODBC驱动即可,可是Mac OS下就比较复杂,因为Mac OS把ODBC管理组件去掉了,所以除了安装驱动外,还要安装管理包,然后做些修改,因为这个第三方的ODBC管理器版本很旧而且有bug。1. 下载安装Mac OS MySQL ODBC驱动https://dev.mysql.c

2017-10-27 08:33:24 16219 3

原创 AWS S3 三个常用的客户端软件使用方式Cloudberry, CyberDuck, S3Fox

CloudBerry S3 Explorer Freewarehttp://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspxSupport OS: Microsoft Windows1.   File -> Amazon S3 Account2.  Add -> Enter Use

2017-10-16 09:34:36 27011 1

原创 配置AWS Simple EMail Service (SES)作SMTP服务器

系统需要自动发邮件,之前只知道用外部邮箱的SMTP,看同事用SES觉得恰好符合我的要求,因此立即尝试配置了下,原来这么简单。AWS技术文档写得太多,其实搭建2步就完成了。1. 登陆AWS进入SES服务,然后点击SMTP Settings,创建SMTP账户:Create My SMTP Credentials,按提示操作生成username and password,这个看起来类似IAM

2017-09-29 11:00:13 13907

原创 Pentaho PDI对于错误信息的处理

导入一批数据时提示错误,提示有一个序列号的数据有问题,可用信息包含一个产品序列号和对应的时间戳,可是我导入的是csv文件,有几百个,根本不知道这个产品包含在那个csv文档中。查找后,PDI对于错误日志的处理可以用如下方式:1. 打开log level,让log的输出内容更丰富2. 鼠标右键点选对应步骤,选择Error Handling3. 加

2017-09-27 18:26:16 688

原创 几个有用的bat脚本

最近在测试数据生成与转移的问题,下面这些bat脚本对于测试非常有用。1. 生成指定数量的txt文件@echo offset /p a=how many txt files you want:for /l %%i in (1,1,%a%) do (echo.>>%%i.txt)2. 将当前目录下的txt重命名为bak格式for /f %%i in ('dir

2017-09-27 17:55:49 6001

原创 Pentaho PDI用Kitchen自动运行job

脚本如下,其中文件路径是比较tricky的地方,在windows下要这样写:/file:D:\AA\bbb\,全部连在一起没有空格,前面的参数是/file跟网上写的不同,我用的是PDI 7.1以下为bat文件内容:----------------------------D:cd "\data-integration"call kitchen.bat /file:

2017-09-27 14:06:24 453

原创 Pentaho PDI Job通过Gmail发邮件的设定

网上查询了一轮,原来最关键的是在gmail账户上安全设定要调低。1. 登陆Gmail账户,到账户 - > 登陆与安全,将Allow less secure apps调为On,我之前没打开这个时,gami立即收到安全警告邮件,说阻止了一个不安全登陆。PDI mail也无法发送邮件,提示错误。2. PDI Job Mail设定如下:

2017-09-27 09:17:57 797

原创 对于数据去重的处理-PDI导入前及数据库端的双重设定

数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报

2017-09-25 21:25:11 790

原创 Pentaho PDI 数据导入关于时间格式及重复数据处理这2个问题的解决方法

最近处理数据,遇到这2个问题,思考了很久,最近突然开窍把问题解决了,记录如下:第一个问题,如下图所示,数据生成的csv文件只有时分秒,而数据库设定的格式为年月日时分秒,因此导入数据库是提示出错,那年月日那里去了?原来写软件的工程师把年月日作为文件名了这样用PDI处理的话,可以用如下方式解决,整体过程如下:1. 读取文件时,将文件名一起读入,这

2017-09-25 14:37:53 688

原创 用S3Browser对S3做数据同步

参考文档:https://s3browser.com/s3cmd.aspx#sync首先下载安装S3 Browser, 然后添加S3账户信息保存后试试看能否访问bucket及文件成功后就可以开始写脚本,比较简单:s3browser-con.exe sync your-s3-broswer-account-name s3:bucket/folder/s

2017-09-25 13:32:23 5485

原创 qcadoo开源MES的初始配置

启动qcadoo,登陆后只能看到一个很简单的页面,如下,根本没有看到那些功能选项,自己尝试查了很久,baidu google都翻了一遍,没有什么收获,倒是见到几个跟我一样在问同样问题的人。后来脸皮厚,发了封邮件给qcadoo的support team,他们CEO Marcin Perłak 专门回复邮件,说没想到我们这样一家大公司会去玩他们的小玩意,想了解我的需求,同时让他们的support te

2017-09-15 22:50:09 14940 12

原创 安装qcadoo开源MES的几个坑

导入数据库:CMD切换到C:\Program Files\PostgreSQL\9.4然后运行下面的命令:psql -U postgres -d mes C://mes-application//webapps//ROOT//WEB-INF//classes//schema//demo_db_en.sql

2017-09-14 21:23:45 20575 7

原创 安装SQL Server Express及用SQL Server Management Studio连接

下载Microsoft SQL Server 2012 Expresshttps://www.microsoft.com/en-us/download/details.aspx?id=29062下载SQL Server Management Studio (SSMS)https://docs.microsoft.com/en-us/sql/ssms/download-sql-s

2017-09-12 16:11:36 6714

原创 EC2 Ubuntu Server 16.04 初始化配置相关文档

1. 安装Putty,将pem转换为ppk (Putty 只支持Private key登陆)https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/putty.html2. 安装pipsudo apt install python-pip完成后检查pip --versionpython --version

2017-09-07 10:55:20 565

原创 为AWS EC2配置公网IP (Elastic IP)

EC2机器launch后只有一个VPC内网IP,外网访问的话,需要设定公网IP,步骤如下:选定Instance -> Action -> Networking -> Manage IP AddressAllocate an Elastic IPClass -> Allocate, 这样就获取了一个IP选定IP,然后Associate addres

2017-09-07 10:46:41 23731

原创 Ubuntu Server 16.04 安装Pentaho PDI 7.1

参考: http://fcorti.com/2016/12/05/installing-pentaho-data-integration-7/1. 安装JAVA运行环境sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installers

2017-09-06 14:14:08 1774

原创 用Notepad++录制宏

我们需要将csv文档的表头变成MySQL DB的栏位,这样导入csv数据的时候,能根据设定好的栏位来处理和导入对应栏位的数据,用Notepad++可以实现这半自动化的功能。步骤如下:将需要处理的csv表头复制粘贴到Notepad++:Ctrl+F,调出Find,然后用正则表达式处理:复制空格,Replace with用 \r然后用^及$在前面及后

2017-08-23 10:01:53 5573 1

原创 工作10年后转行

以前我只在51CTO上写博客,那里记录的是我作为IT Support和SA的知识和经验汇总。这些年,我由一个非专科出身的毕业生,在IT行业摸爬滚打,由一个小兵到成为一个小头目,从几个人的小民企,到工厂,到500强,再到世界级企业一路走来,个人点滴成长,尤记在心。在公司,工作内容我已非常熟悉,反而随着对公司业务的了解,我发觉在数据处理这一领域却没人去做,或者说很多人想做,也尝试去做,可是却没有做好。

2017-08-23 08:14:54 2426 1

原创 测试

第一个博客

2017-08-22 18:11:29 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除