自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(238)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 Linux uname -a 命令的基础小知识

SMP Thu Jun 10 13:32:12 UTC 2021: 内核版本。10:次版本号(奇数:开发版本,偶数为发行版本)x86_64:系统处理器的体系结构。x86_64:编译框架(64位)GNU/Linux:操作系统.1160:此版本的第N次修改。test01:服务器名称。x86_64: 硬件平台。x86_64:机器硬件名。

2024-03-26 10:33:20 70

转载 Linux进程及常用函数

1. 日常编程中,goto语句不允许随便使用,但是在Linux的内核编程中,却经常可以见到.goto语句的作用主要根据一定条件,直接跳转到指定位置,所以需要在特定位置设置指定的条件名称.主要作用可以用于直接跳过某些不需要执行的语句.2. linux中的三个特殊进程:idle进程(PID = 0), init进程(PID = 1)和kthreadd(PID = 2)idle进程其pid=0,其前身是系统创建的第一个进程,也是唯一一个没有通过fork或者kernel_thread产生的进程。

2022-03-31 18:04:22 373

原创 Clickhouse集群集群安装

1.环境信息:[root@bigdata003 clickhouse-server]# cat /etc/redhat-releaseCentOS Linux release 7.9.2009 (Core)2. 在/etc/hosts中添加主机信息10.29.35.240 bigdataxxx310.29.35.241 bigdataxxx410.29.35.243 bigdataxxx53.关闭防火墙和selinux4. 修改linux文件限制参数5. 安装和删除clickhou

2022-02-17 18:01:03 1032

原创 一键式完全删除CDH 6.3

#!/bin/bash# 停止CM服务service cloudera-scm-server stopservice cloudera-scm-agent stop# 卸载CM软件包yum -y remove cloudera-manager-daemons cloudera-manager-agent cloudera-manager-server# 卸载装载点umount cm_processesumount cm_processesumount cm_processes...

2022-02-09 15:36:04 654

原创 开源数据可视化工具 Davinci

开源数据可视化工具 DavinciURL:https://github.com/edp963/davinci1. 支持报表定制;2. 支持多种JDBC数据源;3. 支持CSV数据文件上传;4.支持自己编写SQL;5. 多租房多用户体系;6.多种安全方案 ;7.可以支持多种展示方案,线图,饼图,柱状图及...

2021-04-19 14:36:58 473

原创 一次greenplum锁问题导致无法truncate和drop表的问题排查

问题现象:在对表进行truncate和drop时,发现一直hang住。truncate table fi_temp.fi_hive_check_orders;drop table fi_temp.fi_hive_check_orders;一次greenplum死锁问题排查1.从 pg_stat_activity 视图中查找处于等锁状态的任务:select * from pg_stat_activity where waiting_reason='lock';dangdang=# ..

2020-12-16 12:11:37 1455

原创 kettle配置问题

因为需要,今天又把kettle找出来搞了一下,发现在安装完JDK和JRE,并设置JAVA_HOME后,打开Spoon.bat时,出现闪退的现象。解决方法:修改使用的内存大小。修改前:if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms2048m" "-Xmx1024m" "-XX:MaxPermSize=256m"修改后:if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PE.

2020-09-10 19:14:50 345

原创 pandas中null值的处理

1. 正常情况下,大家都想处理那些包含null值的情况;处理方法如下,直接就把所有空值的行删除了df.dropna()如果不想删除,只是想替换,那么如何处理呢(1) 查看付款人数为null值的情况:print (df[df['付款人数'].isnull()])(2) 对数据集先进行统计, 命令如下, 查看每一列有多少个空值。print ('After:', df.isnull().sum())Before: 商品名 0价格 0付款人数 71...

2020-07-30 18:10:20 1944

原创 pandas显示全部行和全部列

#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)

2020-06-17 18:07:48 2490

原创 matplotlib基本概念

plt的基本属性和方法(1) plt.title -->标题(2) plt.xlabel/ylabel -->x坐标/y坐标(3) plt.figsize(8,6) --添加图像的长和宽8*6(4) plt.subplot --添加1个子图(5) plt.subplots --添加多个子图(6) plt.x(7) plt.plot(x, y) --在坐标上添加数据(8) fig = plt.figure() ...

2020-06-05 10:02:09 178

原创 机器学习基础概念

机器学习:本单中,1.介绍了sklearn包的交大模块,分别是:分类,回归,聚类,降维,模型选择及预处理。2. 介绍了机器学习的4个核心API模块,分别是Ensemble, Pipeline, Multiclass及ModelSelection3. 介绍了机器学习是如何完成及度量的。4. 机器学习的分类, 有监督,无监督, 半监督及增强学习。而深度学习和迁移学习,则是模式,并不是一种方法。 重点介绍了有监督学习和无监督学习。5. 使用实例的方式完成了最简单的有监督学习及无监督学习的基本...

2020-06-05 10:01:02 120

原创 greenplum基本知识及基础信息

1. 下午查看一下greenplum的对应关系, oid与文件属性1. oid是一种特殊的数据类型, 在PG/GP中,oid都是自增的。2. 每一个表空间,表,索引, 数据文件,函数,约束都对应一个唯一标识的oid, oid是全局递增的。3. 1259是pg_class对应的oid,每一个postgresql都是如此。select oid, relname from pg_class where oid = 'pg_class'::regclass;select attrelid...

2020-06-03 10:45:10 793

原创 机器学习的几种编码

1. One-hot(独热)编码:独热编码e1,e2,e3限制条件,数据的向量长度,必须是ek。e1 + e2 + e3 + ... + ek = 1优点:允许多个有效模型一样缺点: 非唯一性有时无法解释问题。2.dummy(虚拟)编码: 产生独特和可解释 的模型,但是不能轻易处理缺少的数据。3. Effect编码:使用不同的编码来避免虚拟编码的问题,但是大量是使用-1, 对于存储和计算都非常昂贵。独热,虚拟和效果编码非常相似。他们每个人都有优点和缺点...

2020-06-01 18:05:42 1011 1

原创 greenplum迁移的时的几点小经验

最近迁移了一套gp环境,数据大概在32TB左右,所以做一下简单的记录。OS Version:CentOS release 6.10 (Final)GP Version:GreenplumDatabase 4.3.32.0build1PC节点 :8 迁移数据:32TB过程: 由于数据库属于线上数据仓库,而迁移后的节点 和迁移前的节点数据量一致,所以选择使用gp_dump备份,gp_dump恢复的方式进行迁移。 整个迁移过程分2天完成。第1天: 迁移数据没有变化的4TB,涉...

2020-05-25 14:38:30 342

原创 python3 reduce函数错误

python3中,使用reduce函数时,需要先导入,如下:from functools import reduce

2020-05-09 11:05:55 269

原创 切换域名后,ssh配置问题

OS:CentOS release 6.10 (Final)问题:今天在在gp迁移测试时,把GP备份的域名从A机迁移到了B机。配置后,发现使用ssh 命令登录到需要同步文件到GP备机时,发现失败,提示信息如下:@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@The RSA host key for gp69.d...

2020-04-30 19:38:45 661

原创 greenplum授权问题

今天在迁移gp时,发现文件同步成,在使用gpfdist导入数据量,失败了。提示信息如下:gpfdist-p9000-P10000-f"/home/gpetl/DATA/datafile/GPGEN_DDPIM/PRODUCT_SUB_CATEGORY/20200429/GPGEN_DDPIM_PRODUCT_SUB_CATEGORY_20200429_jobid_13633_8...

2020-04-30 19:27:17 1107

原创 pandas基础

#数组排序fr1 = DataFrame(np.arange(8).reshape((2,4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])print (fr1)print (fr1.sort_index())print (fr1.sort_index(ascending=False)) #降序排序print (...

2020-03-19 18:55:50 97

原创 pandans之数组基本操作

import numpy as np#行列转换arr6 = np.arange(15).reshape((3,5))print (arr6)print (arr6.T)#数据相乘arr7 = np.random.randn(6,3)print (arr7)print (np.dot(arr7.T, arr7))arr1 = np.random.randn(5,4)...

2020-03-19 10:44:54 222

原创 requests乱码问题

错误信息:在使用requests解析网站时,在输出结果时,出现如下报错信息,导致有一部分解析出来的结果未输出成功UnicodeEncodeError: 'gbk' codec can't encode character '\u30fb' in position 41: illegal multibyte sequence默认编码是GBK,字符\ufffd不能编码为GBK。...

2020-03-13 12:31:39 788

原创 python3读取文件时偶遇乱码问题如何处理

#问题:在对data3.csv进行写入时,发现,如果不使用encoding='utf-8'选项,那么写入的文件,在使用pandas的read_csv函数读取时,会读取失败;因为默认为encoding='gbk'写入方式;所以如果需要通过 utf-8编码读取,那么写入时,也要保持一致。#指定编码:with open('data3.csv', 'a',newline='', encoding=...

2020-02-26 17:12:30 233

原创 python使用open写入时,每写一行,往下写时会出现空行

#问题,python3.7在使用open写入文件时,出现写入文件后,每一行都会出现跟随空行的情况。原因: python3更改了二级制写入方式,需要添加新参数,newlinewith open('data3.csv', 'w') as csvfile: fieldnames = ['id','name','age'] writer = csv.DictWriter(csvf...

2020-02-26 17:01:07 2608 1

原创 windos下python依赖包安装最快方式

在安装python的第三方包时,经常会去各种源包网站进行查找,但是最近在使用pip安装lxml时,一直超时失败。所以查看一下是有windows安命令行的安装方式,结果发现还真有, 命令如下:pip install -i 网址 lxml而且专门查了一下国内的镜像网站,网址如下:国内的镜像站:阿里云 http://mirrors.aliyun.com/pypi/simple/中国科...

2020-01-19 09:47:17 432

原创 pandas中loc, iloc和ix的区别

loc: 通过行标签索引数据iloc: 通过行号索引数据ix: 可通过行号索引数据也可通过标签索引数据实例 : 实际数据如下所示, DataFrame中第一行数据为1, 2, 3, 行号为0, 行标签为a,也就是我们说的索引名称为a,第二行同理。现在我们只需要访问第一行数据,通过loc, iloc, ix的方式进行访问,访问方式如下:print (df1.iloc[0])...

2019-12-30 11:26:16 168

原创 pandas中的drop_duplicates和duplicated的应用

在pandas中,duplicated和drop_duplicates函数用来对DateFrame来进行去重。默认情况下,drop_duplicates只保留第一次出现的组合 ,如果需要保留最后一次出现的组合,需要使用keep='last'参数。#!/usr/bin/python# -*- coding: UTF-8 -*-import pandas as pdfrom pan...

2019-12-17 11:02:22 1241

原创 binlog2sql工具的使用

Linux: CentOS6mysql version: mysql5.6.35参考:网址:https://www.cnblogs.com/ivictor/p/6418409.html场景:数据库被业务进行sql注入,修改了表中某一列数据。但是没找到合适的数据库备份集,于是想到了解析binlog日志然后进行sql解析的方法来进行恢复本张表。1.安装binlog2sql安装过程有些麻烦,下面是具体的...

2018-06-22 12:57:54 1782

原创 mysql本地登录无法使用端口号登录

参考文档:https://www.cnblogs.com/cnzeno/p/6347158.html最近在使用linux上进行本地登录时,发现既然无法正常登录 , 报如下错误信息:[root@xxxx ~]# mysql -h localhost -u root -p -P 3306Enter password: ERROR 2002 (HY000): Can't connect to local...

2018-06-15 11:01:45 1001

原创 mysql error11问题

参考文档:https://www.percona.com/blog/2013/02/04/cant_create_thread_errno_11/os: centos6.5mysql version: mysql5.6.35问题:在连接数据库时,遇到如下问题:Can't create a new thread (errno 11); if you are notout of available m...

2018-06-05 18:35:58 2518

原创 greenplum安装遇Failed Update port number to 40000错误

在安装greenplum过程中,遇到Failed Update port number to 40000错误 信息:os: centos6.5gp version:4.3.8初始化时日志中遇到如下问题:20180605:11:37:53:010114 gpcreateseg.sh:gp-s0011:gpadmin-[FATAL][3]:-Failed Update port number to 4...

2018-06-05 14:03:26 376

原创 mysql中questions与com_select的区别

大家知道,在mysql中,计算qps与qts时,目前有两种方式。具体的算法如下:方法一:基于 questions  计算qps,基于  com_commit  com_rollback 计算tpsquestions = show global status like 'questions';uptime = show global status like 'uptime';qps=question...

2018-04-02 15:11:23 8909

原创 搜集mysql在某一段时间内执行了多少sql语句的方法

最近开发提出一个需求,想在他们指定的时间内统计一下业务系统到底执行了多少SQL语句包括查询语句。其中最终结果只有一个,就是需要纯净无污染的qps和tps数据。因为次在做类似的查询统计时,类似set之类的设置环境变更的语句在统计时太多。当时统计出来的这类sql的语句量即然达到19亿条之多,而正常的业务查询sql,最大的查询量也就6000万左右。业务上怀疑是框架导致的问题,于是在修改后,提出要求进行测...

2018-04-02 11:26:46 1962

原创 mysql Innodb_buffer相关参数解读

##解读mysql缓冲池的一些参数---BUFFER POOL 7Buffer pool size   81919      #innodb_buffer_pool第8个池的总页面,每个页面大小16kb,1.25GB Free buffers       1025 #池中空闲池可用的页面Database pages     78154 #buffer池中的页面大小Old da...

2018-02-09 16:47:38 655

原创 mysql的一些基础知识

mysql实践:(1) mysql的页面大小可以自行设置:innodb_page_size默认大小为16KB,但是可以设置为32KB,8KB,4KB;(2) mysql varchar字段最长可存储的字节数为65535,实际为65532, utf8的每一个字节占用8位,但是实际存储的长度为63352/3-1=21842。(3) 与oracle的对比,Mysql: 单进程,多线程;Oracle: 多...

2018-02-09 16:46:28 187

原创 mysql误删除数据恢复之3 innodbackup+binlog日志解析

环境信息:mysql  Ver 14.14 Distrib 5.6.35, for Linux (x86_64) using  EditLine wrapperCentOS release 6.5 (Final)binlog_format: rowtx_isolation: read-commit步骤大体如下:(1) 拷贝备份文件到服务器;(2) 全量+增量恢复;(3) 在binlog日志中找到误...

2018-02-09 11:00:06 589

原创 mysql误删除数据恢复之二 开源工具binlog2sql

环境信息:mysql  Ver 14.14 Distrib 5.6.35, for Linux (x86_64) using  EditLine wrapperCentOS release 6.5 (Final)binlog_format: rowtx_isolation: read-commit具体参考方法:https://www.cnblogs.com/ivictor/p/6418409.ht...

2018-02-08 18:09:19 383

原创 mysql误删除数据恢复之一 innodbackup + slave

环境信息:mysql  Ver 14.14 Distrib 5.6.35, for Linux (x86_64) using  EditLine wrapperCentOS release 6.5 (Final)binlog_format: rowtx_isolation: read-commit昨天业务不小心删除了生产环境mysql中的一张表。打电话救援。于是找到备份,进行了恢复,恢复到当天早上...

2018-02-08 17:44:01 338

原创 mysql密码过期

最近对于mysql需要设置密码过期时间时发现,但是找来找去,发现对于mysql5.6来说,设置密码过期,是件不可能完成的事。只有mysql5.7.4版本之后,密码过期才通过如下参数可能实现 。default_password_lifetime=90mysql5.6.37测试结果如下:对于mysql5.6版本中,看网上提供了如下几个sql,但是唯有最后一个有用,会让密码直接过期。

2018-02-07 15:33:59 726

原创 mysql5.6 基准测试

mysql version: mysql5.6.35os: CentOS Linux release 7.2.1511 (Core) IP:10.159.45.100CPU: 32 CPUMemory: 128GBSysbench:Version: 1.1.0 (参数比起老版本,有些变化,需要留意)sysbench基准测试下载地址:https://github.

2018-02-06 15:42:38 310

原创 mysql qps与tps

在做db基准测试的时候,qps,tps 是衡量数据库性能的关键指标。本文比较了网上的两种计算方式。先来了解一下相关概念。概念介绍:QPS:Queries Per Second         查询量/秒,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理查询量多少的衡量标准。TPS :  Transactions Per Second   是事务

2018-02-06 15:31:20 1046

原创 mysql数据库字段加密

linux version: Centos7.3 Mysql vrsion: mysql5.6.34参考文档:http://blog.csdn.net/babyfish13/article/details/51150339最近两天,接到业务上一个需求,需要对表中的部分字段(比如手机号,email)进行加密,在查看mysql的相关资料后,发现需要对数据库中的部分字段加密,基本就只能从业务

2018-01-09 12:46:38 3857

数据挖掘——概念、模型、方法和算法

数据挖掘——概念、模型、方法和算法,很不错的一本书!

2015-12-19

基于微博用户关系与行为的用户建模

基于微博用户关系与行为的用户建模,很不错的一本书!

2015-12-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除