自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Miracle.Zhao的博客

You Reap What You Sow

  • 博客(379)
  • 资源 (8)
  • 收藏
  • 关注

原创 获取企业服务超市企业信息

【代码】获取企业服务超市企业信息。

2023-05-21 21:56:56 342

原创 【20230103】FROM_UNIXTIME和UNIX_TIMESTAMP函数

首先知道UNIX_TIMESTAMP函数的由来:是自“1970-01-01”的道当前时间的秒数差 累似1337276321(一般10位)1.FROM_UNIXTIME()函数FROM_UNIXTIME(unix_timestamp,format)参数unix_timestamp 时间戳 可以用数据库里的存储时间数据的字段参数format 要转化的格式 比如“”%Y-%m-%d“” 这样格式化之后的时间就是 2017-11-30可以有的形式:%M 月名字(January~Decembe

2023-01-03 21:47:30 1091

原创 Hive SQL中的lateral view explode使用记录

Hive SQL中的lateral view explode使用记录

2022-08-20 20:25:29 2694

原创 MYSQL中多行转一行实践

MYSQL中常见的多行转一行,便于查看

2022-08-11 22:41:58 699

翻译 数字化:什么是数据中台?

一、数据中台定义对于一个企业,数据中台核心使命,沉淀有价值数据,形成企业数据共享,数据服务或应用于企业各部门、各领域的工作。从技术视角,数据中台是一种数据管理体系,最重要的目标是支持各部门业务数据和提供计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。从业务视角,数据中台是指通过完成企业内外部多源异构的数据采集、治理、建模、分析、应用,打通数据孤岛实现数据集中管理应用,成为企业数据资产管理中枢。数据中台数据模型的分层,业界比较通用的分层方式是将数据模型分为5层:①ODS(Oper

2022-05-29 15:42:23 2732 1

翻译 数字化:从数字化转型到数字化经营:为什么、是什么、怎么做?

01 数字化转型的初心在数字化转型的过程中,我们需要时刻问自己:启动数字化转型战略的初心是什么?也许每家企业有自己的表述,但核心都是“如何利用数字技术和智能技术推动企业实现商业模式、企业文化、组织结构的转型”。数字化转型战略启动后,很多企业一是很兴奋,二是投入大量资金进行各种数字化技术相关的平台、系统的建设,期待平台或系统的建设完成后就可以带领企业实现数字化转型。但是,在完成这些平台和系统建设之后,很多企业突然发现好像跟想象的不一样,感觉缺少了什么,价值体系不明显。此时,我们需要回归到做数字化转

2022-05-29 15:16:17 829

翻译 数字化:什么是数字化?

百度指数,数字化在2020年左右超越了信息化的搜索热度。数字化跟新冠话题的热度高度同步,表明在疫情长期影响之下,数字化被提上了更重要的位置,或者数字化成为对抗疫情常态化的一条出路。一、数字化、信息化的定义先看看Gartner的定义。在英文中,数字化有狭义广义之分,分别为Digitization和Digitalization。狭义的数字化(Digitization),指的是将模拟信息转化数字形式(0和1表示的二进制代码),以便计算机可以存储、传输和处理这类信息。Digitizat.

2022-05-29 14:29:55 5090

翻译 数字化应用:银行客户KYC

当银行的理财经理面对客户时,何尝不是这样?客户KYC(KYC, Know Your Customer)没做好,就意味着客户关系维系难!产品成交难!业绩提高难!因此,了解你的客户KYC对于各金融机构的理财经理而言,是至关重要的基础技术,其价值不仅仅是流量客户到存量客户的转化,甚至是实现客户深度理财服务、产品交叉营销、专业化资产配置的起点。  运用客户KYC分析法,能够充分呈现一个立体的客户视图。各类客户数据信息越完善,客户视图才会越全面,营销人员对客户的痛点把握才越精准,营销才越有把握。下面,我们就一

2022-05-21 22:48:11 9767

原创 SPARKSQL中分组排序并提取前N行

select * from (select *,row_number() over (PARTITION BY col1,col2,col3 ORDER BY col4 desc) rank from df1) tmp where rank<=10这个是提取前10的数据

2022-05-06 16:56:07 1951

原创 Python实现预测信用卡潜在客户

一、数据集有一家名为Happy Customer Bank (快乐客户银行) 的银行,是一家中型私人银行,经营各类银行产品,如储蓄账户、往来账户、投资产品、信贷产品等。该银行还向现有客户交叉销售产品,为此他们使用不同类型的通信方式,如电话、电子邮件、网上银行推荐、手机银行等。在这种情况下,Happy Customer Bank 希望向现有客户交叉销售其信用卡。该银行已经确定了一组有资格使用这些信用卡的客户。银行希望确定对推荐的信用卡表现出更高意向的客户。该数据集主要包括: 客户详细

2022-05-04 17:27:52 3235 5

转载 HIVE优化之map和reduce数量

一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目...

2022-04-30 23:28:59 905

原创 HIVE中小文件问题

一、小文件产生原因1.动态分区插入数据,会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入,如Sqoop数据导入,增量insert导入数据等4.分桶表(主要是切分文件,容易产生小文件问题)1.2.3都是数据导入的问题:hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式1.直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);

2022-04-30 23:19:58 3326 1

原创 HIVE中explain执行计划

Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。要想学SQL执行计划,就需要学习查看执行计划的命令:explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain,能够给我们工

2022-04-30 22:31:27 976

原创 HIVE中MAP和REDUCE数量

一、总览MR执行过程一般的 MapReduce 程序会经过以下几个过程:输入(Input)、输入分片(Splitting)、Map阶段、Shuffle阶段、Reduce阶段、输出(Final result)。1、输入就不用说了,数据一般放在 HDFS 上面就可以了,而且文件是被分块的。关于文件块和文件分片的关系,在输入分片中说明。2、输入分片:在进行 Map 阶段之前,MapReduce 框架会根据输入文件计算输入分片(split),每个输入分片会对应一个 Map 任务,输入分片往.

2022-04-30 21:46:17 2608 1

翻译 HIVE中窗口函数

什么是窗口函数窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。 大家都知道聚合函数是将某列中多行的值合并为一行,比如sum、count等。 而窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。 通用的窗口函数可以用下面的语法来概括:Function() Over (Partition By Column1,Column2,Order By Column3)窗口函数又分为以下三类: 聚合型窗口函数 分析型窗口函数 * 取值型窗口函数接下来我们将通过几个实际

2022-04-10 20:09:08 3893 2

原创 Python获取天天基金上的数据

获取想要查询的基金数据,通过基金代码、开始日期和结束日期等import requestsimport reimport pandas as pd'''获取单页面 基金数据'''def get_html(code, start_date, end_date, page=1, per=40): url = f'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code={code}&page={page}&

2022-04-05 19:42:18 2331

原创 Python实现关联规则推荐

1.什么关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事,通过对超市购物篮数据进行分析,即顾客放入购物篮中不同商品之间的关系来分析顾客的购物习惯,发现美国妇女们经常会叮嘱丈夫下班后为孩子买...

2022-04-03 19:57:17 3901 2

原创 Python之RFM建模分析

1、RFM模型的含义  RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。  该模型通过一个客户的近期购买行为®、购买的总体频率(F)以及花了多少钱(M)三项指标来描述该客户的价值状况,从而能够更加准确地将成本和精力更精确的花在用户层次身上,实现针对性的营销。  详细来说,R指的是客户最后一次下单时间距离今天多少天了,该指标与客户的复购和流失直接相关。F指标指的是客户的下单频率,即客户在某个时间段内共消费了多少次,该指标用于

2022-03-27 16:41:20 4526 6

原创 大白话讲解LCS(最长公共子序列)

今天看了七月在线算法课。再一次认识了LCS,现在整理记录:LCS(Longest Common Subsequence)最长公共子序列。一个序列S任意删除若干个字符得到新序列T,那么T叫做S的子序列。两个序列X和Y的公共子序列中,长度最长的那个叫X和Y的最长公共子序列。例如:字符串13455和245576的最长公共子序列为455.字符串acdfg和adfc的最长公共子序列为adf.注意:这里要区别...

2022-03-26 20:32:02 1238

原创 MFCC特征提取的MATLAB代码

function MFCCs = extract_mfcc()filePath='D:\data\tooth\rand_test\train_10\traintxt\Hhf\*.txt';pathStr='D:\data\tooth\rand_test\train_10\traintxt\Hhf\';fileList=dir(filePath);fileNum=length(fileLis

2022-03-26 20:31:35 936

转载 Boosting学习笔记(Adaboost、GBDT、Xgboost)

转载请注明出处:http://www.cnblogs.com/willnote/p/6801496.html前言本文为学习boosting时整理的笔记,全文主要包括以下几个部分:对集成学习进行了简要的说明给出了一个Adboost的具体实例对Adboost的原理与学习过程进行了推导针对GBDT的学习过程进行了简要介绍针对Xgboost的损失函数进行了简要介绍给出了Adboost实例在代码上的简单实现...

2022-03-26 20:30:08 547

转载 L1正则化和L2正则化的直观解释

正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作&amp;#x2113;1” role=”presentation” style=”position: relative;”&gt;ℓ1ℓ1-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。L1正则化和L2正则化...

2022-03-26 20:28:25 763 1

原创 HIVE中出现ParseException line 1:22 missing ALL at ‘select‘ near ‘<EOF>‘的解决办法

我们在以前无论是使用MYSQL 还是DB2等关系型数据库中都会常常使用Union或者Union all来做两个查询的并集或者并集的去重操作,虽然有影响查询性能,但是还是相当的方便的。Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序;Union All:对两个结果集进行并集操作,包括重复行,不进行排序;在hive想同样使用union对两个数据集进行去重查询,在执行操作后,发现是日志报错了:错误如下:ParseException line 1:22 missin...

2022-03-26 20:26:02 4258

原创 SQL中case when...then...else...end

CASE WHEN 基本概念Case具有两种格式:简单Case函数和Case搜索函数。简单Case函数:CASE sexWHEN ‘1’ THEN ‘男’WHEN ‘0’ THEN ‘女’ELSE ‘其他’ ENDCase搜索函数:CASE WHEN sex = ‘1’ THEN ‘男’WHEN sex = ‘0’ THEN ‘女’ELSE ‘其他’ END使用场景1、可以将已知数据...

2022-03-26 20:24:27 544

原创 SQL学习笔记(一)

什么是SQL语言?SQL是用于访问和处理数据库的标准计算机语言。SQL:是指结构化查询语言,是我们有能力访问数据库。SQL能做什么呢?可以面向数据库执行查询,可以从数据库中取回数据,插入新的数据,可以从数据库中删除记录,也可以创建数据库,在数据库中创建新的表,存储过程,视图等。一个数据库通常包含一个或者多个表,每个表由一个名字标示(例如客户,订单等),表包含带有

2022-03-26 20:14:06 335

原创 MATLAB中从一个文件中读取指定的行

function readData_write()%从指定行开始读取数据readFilePath='C:\Second_teeth\data\di_tance\Diff_distance\sanduan_event\qiefen_2\Zm\*.txt';readPathStr='C:\Second_teeth\data\di_tance\Diff_distance\sandua

2022-03-26 20:13:22 3245

原创 HMM预测妹子心情

最近小组长要求做一个HMM的技术专题报告,想怎么使用通俗易懂的语言来给大家讲解呢?想了好久,终于在网上看到这位大牛的文章,感觉很通俗易懂,今天引用这位大牛的文章,进一步的讲解一下HMM,慢慢的揭开HMM的神秘面纱!先来讲解一下什么是马尔科夫链:一个系统有N个状态 S1,S2,···,Sn,随着时间推移,系统从某一状态转移到另一状态,设qt为时间t的状态,系统在时间t处于状态Sj的概

2022-03-26 20:10:39 171

原创 联邦学习之Paillier算法

密码(crypto)的概念由来已久,但与我们的手机解锁“密码”或者WiFi“密码”不同。这些由我们自己设置、用来验证身份的数字或者字母的组合,并非真正意义上的密码,而是“口令”(password)。与简单的口令相比,密码技术则是指通信过程中的一种混淆技术,将明文的消息转变为第三方不可识别的消息,在通信过程被窃听时,防止消息的机密性被泄露。准确地来说,密码技术将明文消息加密成密文,发送给通信的接收方,接收方在收到密文后使用密钥进行解密,从而恢复明文。联邦学习中经常使用的Paillier算法:Paill.

2022-03-26 20:02:48 1084

原创 Xgboost算法之一特征分析

仅仅记录一下简单的特征分析法:数据集仍是:Pima印第安人糖尿病数据集主要是:数据分布、散点图、相关性矩阵分析等代码如下:from operator import indexfrom numpy import loadtxtfrom numpy import sortfrom matplotlib import pyplotimport numpy as npimport pandas as pdimport seaborn as snsimport matplotl

2022-03-20 16:27:00 1915

原创 Xgboost模型之二特征重要性计算及模型的特征选择

XGBOOST模型对于一些场景有着不错的表现,切提供了一个很多的特征重要性的计算:准备:把一些用到的包安装一下,如xgboost,sklearn等建议使用国内的镜像源,否则106M会让你等很久,具体可以参考:pip安装包较慢的解决办法_这孩子谁懂哈的博客-CSDN博客1.使用的 Pima印第安人糖尿病的测试数据集;下载地址:2.计算特征重要性:# plot feature importance manuallyfrom numpy import loadtxtf

2022-03-20 16:13:55 4291 1

原创 python中numpy的ndarray与pandas的dataframe相互转换

我们在做数据分析的时候,经常会使用numpy和pandas的工具包做相关的分析,但是有的时候需要把ndarray与dataframe之间进行转化。转换的方式如下所示:把ndarray转换为dataframe:1.导入包import numpy as npimport pandas as pd2.转换dataset是ndarray的类型数据data = np.array(dataset)df = pd.DataFrame(data=data[0:,0:],

2022-03-20 15:41:24 14465

原创 pip安装包较慢的解决办法

当然是更换pip数据源啦直接把pip install xxxx换成 pip -i https://pypi.tuna.tsinghua.edu.cn/simple/ xxx国内常用的数据源如下所示:(1)阿里云 http://mirrors.aliyun.com/pypi/simple/(2)豆瓣http://pypi.douban.com/simple/(3)清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/(4)中国科学技术大学 http:

2022-03-19 22:34:32 480

转载 Python制作烟花秀

原文参考地址:原文 比较喜欢留一份。效果图:import pygamefrom random import randint, uniform, choiceimport mathvector = pygame.math.Vector2gravity = vector(0, 0.3)DISPLAY_WIDTH = DISPLAY_HEIGHT = 800trail_colours = [(45, 45, 45), (60, 60, 60), (75, 75, 75), (.

2022-01-09 17:52:42 895

原创 SpringBoot之FirstDemo例子(四)

一、环境准备:JDK安装 可参考https://blog.csdn.net/zhaomengszu/article/details/122018601maven安装 可参考https://blog.csdn.net/zhaomengszu/article/details/122022919Idea安装 可参考https://blog.csdn.net/zhaomengszu/article/details/122023271二、创建Maven项目打开IDEA开发环境选择FILE...

2021-12-26 13:47:20 1155

原创 HIVE中临时表创建

在我们编写SQL 时候,常常需要使用到临时表。 然后我们根据这个临时表,进行之后的操作,但是创建临时表有一定的开销。1.WITH创建临时表如果这个临时表并不需要保存,并且下文只需要用有限的几次,我们可以采用下面的方法。with as也叫做子查询部分,首先定义一个sql片段,该sql片段会被整个sql语句所用到,为了让sql语句的可读性更高些,作为提供数据的部分,也常常用在union等集合操作中。with as就类似于一个视图或临时表,可以用来存储一部分的sql语句作为别名,不同的是with.

2021-12-19 18:55:07 12060

原创 Python实现樱花飘落

from turtle import *from random import *from math import *import turtle as timport random as rdef tree(n,l): pd()#下笔 #阴影效果 t = cos(radians(heading()+45))/8+0.25 pencolor(t,t,t) pensize(n/3) forward(l)#画树枝 if n>0:...

2021-12-19 16:45:50 23366 5

原创 SpringBoot之IDEA安装(三)

1.首选要安装jdk8以上的版本可参考jdk安装文章2.安装maven可参考maven安装3.下载idea安装包社区版(Community):社区版时免费的、开源的,但功能较少,旗舰版(Ultimate):旗舰版提供了较多的功能,是收费的,可以试用30天官网:下载地址现在旗舰版现在要注册账号才可以试用30天,以前的老版本是没有这个的 (伤心)4.下载后解压5.一直next即可一般不用选择6.不管 直接next7.等待安装...

2021-12-19 13:57:29 2255

原创 SpringBoot之最新maven安装(二)

1.首先下载maven官网下载地址2.直接解压缩3.配置环境变量配置MAVEN_HOME,路径到maven的安装路径然后在系统变量中PATH添加bin路径4.验证maven是否安装成功使用 mvn -version出现上图即安装成功5.配置下载地址官网的地址由于网速限制,我们配置阿里云的地址找到maven安装目录下的conf→setting文件6.打开setting文件找到mirrors的标签,添加如下阿里云镜像地址...

2021-12-19 13:25:57 2105

原创 SpringBoot之最新JDK安装(一)

1.首先安装JDK官网 地址2.点击 product→java3.切换到Java archive4.页面往下滑动5.选择对应的版本6.点击下载(现在需要Oracle账户)对于要注册一堆的事情比较麻烦,找到一个神奇的网站可以提供下载账号使用神奇网站用网站中的账号和密码就可以使用了7.下载的exe文件就直接打开,傻瓜式next8. 其实公共JRE可以不用,但是如果电脑配置还可以 ,留着也无妨9.10.11.配置...

2021-12-18 23:15:05 1792

原创 Hadoop之VMware安装Centos 7(二)

一、准备工作1、下载并安装 VMware(可参照以下链接)VMware安装2、镜像下载地址https://vault.centos.org/7.5.1804/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso二、创建虚拟机(硬件)1、打开VMware,点击“创建新的虚拟机”;2、选择典型安装,点击下一步;(典型创建步骤少,更适合新手,自定义安装自由度高,这里选择见仁见智,最终殊途同归)3、选择稍后安装操作系统,点击下一步;4、选择操作系统,点选.

2021-12-12 12:43:57 2983

RFM淘宝建模数据集免费版

RFM淘宝数据集

2022-03-27

皮马印第安人糖尿病数据集免费下载分享

如果过意不去,帮忙点个关注,嘻嘻。https://blog.csdn.net/zhaomengszu?type=blog

2022-03-19

python 3 实现NIST二进制序列随机测试

NIST软件包太难用了,用python实现了,每个单独的py文件都是可以运行的,大家只需要把密钥改成自己的即可

2018-04-19

JDK的API参考

2017-01-16

javaEE的API

2017-01-16

Android的API

Android开发所必须要用的,提高开发效率。

2017-01-16

libsvm工具包

机器学习中SVM分类器中,我们常用的libsvm工具箱。有vc++直接使用。

2017-01-16

程序员浪漫之表白程序

自己可以简单的修改源码,换成你自己心爱人的名字,效果很炫。

2017-01-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除