自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 MySQL—取当前周/下周/下下周的起始和结束时间

#今年本周第一天select date_sub(curdate(),INTERVAL WEEKDAY(curdate()) + 0 DAY);#今年本周最后一天select date_sub(curdate(),INTERVAL WEEKDAY(curdate()) - 6 DAY);#今年下周第一天select date_sub(curdate(),INTERVAL WEEKDAY(curdate()) - 7 DAY);#今年下周最后一天select date_sub(curdate().

2021-12-28 16:44:35 1320

原创 Oracle—常用时间汇总

--本月初select to_char(trunc(sysdate-1,'MM'),'YYYY-MM-DD') from dual--系统时间前一天select to_char(sysdate-1,'YYYY-MM-DD') from dual--本年第一天select to_char(trunc(sysdate-1,'YYYY'),'YYYY-MM-DD') from dual--上月最后一天select to_char(last_day(add_months(sysdate-1,-1)).

2020-07-22 10:15:56 286

原创 Python—调用GrowingIO平台接口下载CSV数据

import requestsimport gzipimport osos.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'requests.packages.urllib3.disable_warnings()token = "Authorization"ai = "项目ID" #项目IDminutes = 5 #下载链接过期时间(分钟)export_type = "day" #导出任务类型,系统目前支持小时.

2020-07-20 10:22:42 586 3

原创 3种数据库查询数据文件大小

一、MySQLselect table_name, #表名 sum(data_length+index_length)/(1024)/(1024) as total_mb, #总大小MB sum(data_length)/(1024)/(1024) as data_mb, #数据文件大小MB sum(index_length)/(1024)...

2019-12-13 15:15:06 1252

原创 MySQL—数仓ETL开发中常用到的日期函数

在数据仓库ETL开发中,当以增量的方式进行数据同步时,会将数据表中的时间字段作为增量字段获取增量数据。对于MySQL数据库来说,总结了以下日期表示以及需要注意的问题。一、需要注意的问题:查看MySQL数据库的时区,以下MySQL的时间是utc时间,与北京时间相差8个小时,所以在进行ETL开发时,要将表字段转换成北京时间(在utc时间基础上加8个小时即为北京时间)二、utc时间转为北...

2019-11-28 10:17:22 1255

转载 Kettle — Unable to create the database cache

Kettle错误信息:Couldn't read the database cacheorg.pentaho.di.core.exception.KettleFileException: Unable to read cache entry from data input streammalformed input around byte 6malformed input a...

2019-11-07 09:50:20 3361 2

原创 Python——解决工作中的小问题

问题描述:业务系统的会员信息表进入到数仓中,存在数据缺失,其造成这一问题的原因是后台会手动处理一些数据(卸数等ETL流程不存在问题),造成卸数时取不到这些数据,经过考虑,决定用Python解决这一问题。以下代码中设计到的一些比较有用的函数及问题:1、比较两个list,取出一个list不存在于另一个list中的值final=set(data_userid).difference(set(...

2019-06-17 16:03:11 3468

原创 Python——电商用户购买系列相关性

背景:假设电商平台会员300万,商品按照系列划分有30个系列,本次分析的目的:分析用户购买系列间的相关性。# -*- coding: utf-8 -*-"""Created on Mon May 13 13:40:14 2019@author: liuxiaohuan"""import osimport cx_Oracleimport pandas.io.sql as s...

2019-05-17 17:52:47 736

原创 Python——TF-IDF模型

# -*- coding: utf-8 -*-import MySQLdbimport pandas as pd import jiebafrom sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer ...

2019-04-28 13:55:41 1310

原创 Python——制作中文词云

from os import pathfrom wordcloud import WordCloudwc = WordCloud( background_color="white", #背景颜色 max_words=200, #显示最大词数 font_path='./fonts/simhei.ttf' )cloud_text = open(path.joi...

2019-04-28 13:43:48 1017

原创 Python——jieba分词并统计词频

1、连接数据库:本文数据库为MySql数据库,利用Python的MySqldb连接;2、读取数据表evalute_info表中的评论内容;3、利用jieba对评论内容进行分词,并统计词频;4、将结果保存为csv文件。注:两个关键点: 分词:jieba.cut();词频:Counter(data) (利用collections包的Counter进行词频统计)# ...

2019-04-26 13:07:02 8115

原创 Informatica——配置域错误处理

安装好Informatica并创建存储库和集成服务之后,打开PowerCenter Repository Manager,我们需要配置域的信息,当出现如下图错误时:解决办法如下:打开C:\Windows\System32\drivers\etc目录,编辑hosts文件,在hosts文件中添加网关主机地址和主机名即可。...

2019-03-28 09:21:46 3799

原创 批处理——复制共享文件夹文件到本地目录

@echo offset now=%DATE:~0,4%%DATE:5,2%%DATE:~8,2%echo start!pausemd F:\a\xcopy /y \\10.10.108.21\报表汇总 F:\a\ /s /e"C:\Program Files\PuTTY\pscp.exe" -pw test F:\a\产品信息.xlsx [email protected]:/pyt...

2019-03-05 09:40:16 9405

原创 VMWare虚拟机CentOS 7下Oracle 11g安装详解

一、安装前准备[tinysun@localhost oracle]$ su rootPassword: [root@localhost oracle]# groupadd oinstall[root@localhost oracle]# groupadd dba[root@localhost oracle]# useradd -g oinstall -g dba -m oracle...

2019-02-28 18:11:21 832

原创 Python——利用Python发送邮件(此处示例QQ邮箱)

# -*- coding: utf-8 -*-"""Created on Tue Feb 19 16:02:17 2019@author: liuxiaohuan"""import smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextfrom emai...

2019-02-20 10:43:08 511

原创 FineReport——利用JS实现自动翻页及点击后翻页

1、实现点击鼠标后翻页window.location.href = FR.cjkEncode("ReportServer?formlet=%5B8d22%5D%5B52a1%5D-%5B5e94%5D%5B6536%5D%5B8d26%5D%5B6b3e%5Dtest.frm"); 2、实现自动翻页function time() { timer = setTimeout...

2019-01-31 11:47:40 2976

原创 Oracle——几个常用的日期取值方式

select sysdate, to_number(to_char(sysdate,'hh24')) 时, to_number(to_char(sysdate,'mi')) 分, to_number(to_char(sysdate,'ss')) 秒, to_number(to_char(sysdate,'dd')) 日, to...

2019-01-24 11:21:45 735

原创 Informatica(二):数据库表——CSV文件

目标:如何将数据库中一张表的数据写入CSV文件中。实现:创建源表→创建目标表→创建映射→创建工作流及任务→启动工作流。提示:数据库中要create源表,保证源表在数据库中存在。(1)创建源表。(2)创建目标表。(3)创建映射。(4)创建工作流。...

2018-11-20 22:23:10 1950 1

原创 Informatica(一):数据库表——数据库表

目标:如何将数据库中一张表的数据写入数据库的另一张表中。实现:创建源表→创建目标表→创建映射→创建工作流及任务→启动工作流。提示:数据库中要create源表和目标表两张表,保证它们在数据库中存在。以下以Oracle数据库为例,步骤如下:(1)创建源表。(2)创建目标表。(3)创建映射。(4)创建工作流及任务。...

2018-11-19 23:05:10 2099

原创 Oracle——Trunc() 函数处理日期大全

select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') from dual; --显示当前时间select trunc(sysdate,'year') from dual; --截取到年(本年的第一天)select trunc(sysdate,'q') from dual; --截取到季度(本季度的第一天)select trunc(sysda...

2018-08-30 13:17:36 10429

原创 FineReport——我的第一张报表

报表制作步骤:1. 新建数据库连接; 2. 新建模板与数据集; 3. 模板样式设计与数据绑定; 4. 模板预览效果查看。1. 新建数据库连接。首先点击左上角+号,新建一个JDBC,下图为连接数据库的主页面,其中URL路径的通用格式:jdbc:oracle:thin:@ip:port:databasename,键入用户名和密码,测试连接。2. 新建模板与数据集。(1)我们以数...

2018-07-23 18:01:30 4202

原创 R语言——Kaggle十大经典案例—员工离职预测

项目背景:Our example concerns a big company that wants to understand why some of their bestand most experienced employees are leaving prematurely. The company also wishes topredict which valuable ...

2018-06-09 15:17:25 25059 9

原创 Python——Python3使用MySQLdb驱动

fatal error C1083: Cannot open include file: 'config-win.h': No such file or directory通过python访问操作MySQL数据库,需要下载MySQLdb驱动。(1)对于python2.x版本,可以直接安装MySQLdb驱动;或者下载MySQL-Pthon,其中包含MySQLdb驱动。(2)对于py...

2018-04-14 15:47:41 1127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除