自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

武西亮的博客

大数据数据分析python,mysql,spark,tidb

  • 博客(79)
  • 收藏
  • 关注

原创 shell基础教程

!/bin/bash# 1.判断传入的参数if [ ! -n "$1" ]then echo "you have not input a word!"elif [ "$1" == 1 ]then echo "the word you input is $1"fi# 2.判断shell内的参数a=10b=20if [ $a == $b ]then echo "a 等于 b"elif [ $a -gt $b ]then echo "a 大于.

2021-02-22 17:19:29 170

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

转载自:https://blog.csdn.net/zhanglh046/article/details/78572939?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242一 ORDERBYORDERBY 跟传统数据库ORDERBY 一样,会对所有的数据进行排序,可能有很多个Map任务,但是只会由一个Reducer来进行排序,如果数据海量的话,会很影响性能,因为需要

2021-02-13 12:50:37 438

原创 linux中单箭头代表会覆盖,双箭头就是如果存在会追加

//如果这样每次重启的时候都会覆盖以前的日志,产生最新的日志。nohup bin/yanagishima-start.sh > y.log 2>&1 &//如果这样每次启动不会覆盖原来的老日志,日志会接着原来的日志继续写。nohup bin/yanagishima-start.sh >> y.log 2>&1 &...

2021-02-06 15:13:23 693

原创 pandas datetime utc to local timezone

经常遇到这种:'2021-01-27T09:38:40Z' UTC datetime格式,要转换成本地timezone格式 success_time = pd.Timestamp('2021-01-27T09:38:40Z'['completedAt'],tz="Asia/Shanghai").strftime("%Y-%m-%d %H:%M:%S") print(f"refresh done at {success_time}!")...

2021-01-27 17:40:09 425

原创 python 3d气泡图 python 3d 散点图

废话不说直接上代码:%matplotlib inlineimport numpy as npimport io,pandas as pdimport matplotlib.pyplot as pltmyString='''类别 订单量占比 门店数占比 交易额占比小龙虾 0.6 0.9 1.7川湘菜 4.5 4.8 6.5烤串 2.9 4.5 4.8面馆 3.8 8.0 3.1包子/粥 6.3 3.5 4.7西式快餐 7.9 7.5 9.2快餐简餐 22.1 16.3 18.8

2020-12-18 19:43:12 1295 1

原创 hive报错Loading data to table dwm.app_spider_detail partition (city_name=null) FAILED: Hive Internal E

hive报错:Loading data to table dwm.app_spider_detail partition (city_name=null)FAILED: Hive Internal Error: java.util.ConcurrentModificationException(null)是因为我insert into partition select form where not exists 返回空数据,导致分区表分区字段为null,所以报错。只要写个容错,确保i...

2020-11-23 14:22:34 914

原创  mysql批量update死锁,因为提交太多,所以每隔100条commit一下就可以解决了,特此纪念!

mysql批量update死锁,因为提交太多,所以每隔100条commit一下就可以解决了,特此纪念!print("update started........")if df_new.shape[0]>0: for index,row in df_new.iterrows(): i += 1 print(i) #print(f"正在更新{row['shop_code']}") sql = f''' .

2020-11-17 15:46:34 1258

原创 <scala.version>2.12.12</scala.version>

spark3.0 read mysql 报错升级scala到最新版就好了!<scala.version>2.12.12</scala.version>

2020-10-28 16:38:35 491

原创 tabpy机器学习

#connect to tableau serverimport tabpy_clientclient = tabpy_client.Client('http://localhost:9004/')#def function #deploy 函数到tableaudef clustering(x, y): import numpy as np from sklearn.cluster import DBSCAN from sklearn.preprocessing .

2020-08-16 14:18:37 427

原创 pandas自带图表

# 1.pandas 窗口函数,三角窗import pandas as pdimport numpy as np%matplotlib inlinedf = pd.DataFrame({'B': [0, 1, 2, 1, 4,2,3,0]})df['windows']=df.rolling(2, win_type='triang').sum()df.plot(style='o-',figsize=(10,5));2.核密度图df4 = pd.DataFrame({'a': np

2020-06-14 19:38:14 354

原创 pandas图表,pandas自带图表

# 1.pandas 窗口函数,三角窗```pythonimport pandas as pdimport numpy as np%matplotlib inlinedf = pd.DataFrame({'B': [0, 1, 2, 1, 4,2,3,0]})df['windows']=df.rolling(2, win_type='triang').sum()df.plot(style='o-',figsize=(10,5));```![6c7ee66f2d33a8e4

2020-06-14 19:26:09 316

原创 解决windows server多个无名用户问题

taskkill /f /im winlogon.exe /t执行命令节后,所有的无名用户就全被杀死了,内存占用从68%降低到14%,以后设置成定时任务定期执行一遍即可。

2020-05-24 19:49:10 1781 1

原创 python自带数据sqlite3学习,pandas to jeson

python自带数据sqlite3学习,pandas to jesonimport pandas as pdfrom sqlalchemy import create_engineengine = create_engine('sqlite:///foo.db', echo=True)# 建表#engine.execute("create table t1(id int,name...

2020-04-30 14:24:31 290

原创 windows server2016忘记密码,windows重置密码,windows破解密码,win10忘记密码,win10破解密码,windows server2016破解密码

1.首先设置光盘启动(如果是虚拟机,比如vm,首先重置虚拟机,然后启动的时候进入bois,设置光盘启动),总之先进入boot manager,设置第一启动为DVD2.2.然后会进入这个界面:3.然后点repaire your computer4.然后点troubleshoot5.然后点command prompt6. 输入dis...

2020-04-19 07:28:22 19377 3

原创 pandas根据字段名炒粉excel

2019-12-28 16:40:13 134

原创 mysql trigger update on update

2019-12-28 16:39:22 930

原创 linux查看并杀死端口进程

# Linux查看并杀死被占用的端口sudo apt-get install lsof   //安装lsofsudo lsof -i:端口号      //查找对应的进程号sudo kill -9 进程号      //杀死对应的进程...

2019-11-22 12:51:03 546 1

原创 mysql json table

SELECT *FROM zichaxun t1inner join JSON_TABLE(CONCAT('["', REPLACE('1,2', ',', '","'), '"]'), "$[*]" COLUMNS (score2 varchar(20) PATH "$")) t2on JSON_CONTAINS(t2.score2, CAST(t1.score as JS...

2019-10-06 07:59:05 2801 4

原创 mysql造日期,mysql create calendar,mysql造日期表,mysql create date table,mysql create calendar table

SELECT @date := DATE_ADD(@date, INTERVAL 1 DAY) AS dates FROM mysql.help_relation, (SELECT @date := DATE_SUB('2019-08-01', INTERVAL 1 DAY)) d WHERE @date BETWEEN...

2019-09-03 13:31:21 767

原创 python sql多并发

import concurrent.futuresimport urllib.requestimport pandas as pdimport numpy as npfrom sqlalchemy import create_engineimport pymysqlengine2 = create_engine('mysql+pymysql://root:wxl3322335@loc...

2019-09-03 13:15:09 539

原创 分析函数全家桶

2019-08-02 12:35:24 114

原创 Hive WITH clause example with the SELECT statement

Hive WITH clause example with the SELECT statementWITH t1 as (SELECT 1), t2 as (SELECT 2),t3 as (SELECT 3)SELECT * from t1 UNION ALLSELECT * from t2UNION ALL SELECT * from t3;Hive WITH Cla...

2019-07-10 20:14:42 137

原创 在Pycharm中自动添加时间日期作者等信息

1.pycharm→preference→Editor→File and code Templates右侧找到Python Script,如下图2.配置文件如下:##!/Users/wxl/anaconda3/bin/python3.7# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Author : Mr w...

2019-06-09 15:57:26 724

原创 Mysql 分区表

Mysql 分区表1)创建Range分区表1-1):以员工工资为依据做范围分区 create table emp(empno varchar(20) not null,empname varchar(20),deptno int,birthdate date,salary int)partition by range(salary)(partition p1 valu...

2019-05-16 07:20:56 177

原创 tableau正则表达式匹配指定字符前几位

1) tableau正则REGEXP_EXTRACT(str([score]),"(\d{4}/\d{1,2}/\d{1,2})")REGEXP_EXTRACT(str([score]),"(\d+(\.\d+)?)”2) tableau正则提取字符前两位前几位:REGEXP_EXTRACT("人教版八年级语文abcd","版(.+年级)")REGEXP_EXTRACT("人...

2019-05-15 17:52:16 9973

转载 win10定时任务报错:操作员或系统管理员拒绝了请求

转自:https://blog.csdn.net/qq_15230053win10定时任务报错:操作员或系统管理员拒绝了请求2019年01月15日 10:33:39andyguan01_2阅读数:749标签:windows定时任务更多个人分类:windowswin10定时任务报错:操作员或系统管理员拒绝了请求解决办法:打开“控制面板->管理工具-&...

2019-03-26 12:11:52 22180 5

转载 SQL中char、varchar、nvarchar的区别

转自:https://blog.csdn.net/qq_15230053SQL中char、varchar、nvarchar的区别char char是定长的,也就是当你输入的字符小于你指定的数目时,char(8),你输入的字符小于8时,它会再后面补空值。当你输入的字符大于指定的数时,它会截取超出的字符。nvarchar(n) 包含 n 个字符的可变长度 Unicode...

2019-03-26 11:30:25 119

转载 superset集成echarts

https://blog.csdn.net/qq_33172735/article/details/87977583

2019-03-21 17:28:49 1504

转载 Mysql各种索引区别

转自:https://www.cnblogs.com/chenhaoyu/p/8796146.htmlMysql索引概念:说说Mysql索引,看到一个很少比如:索引就好比一本书的目录,它会让你更快的找到内容,显然目录(索引)并不是越多越好,假如这本书1000页,有500也是目录,它当然效率低,目录是要占纸张的,而索引是要占磁盘空间的。Mysql索引主要有两种结构:B+树和hash....

2019-02-10 19:41:37 390

原创 mysql各种索引 & SQL_NO_CACHE

BTREE    适合连续读取数据RTREE    适合根据一条数据找附近的数据HASH      适合随机读取数据FULLTEXT    SPATIAL Mysql中SQL_NO_CACHE的意思是:结果被会被缓存,如果你之前缓存了,会使用缓存。如果想不使用缓存,就先清理下:"FLUSH QUERY CACHE",清空一下query cache就行了。然后执行语句的时候带...

2019-02-09 16:18:32 189

原创 python生成器

生成器也是一种迭代器,但是你只能对其迭代一次。这是因为它们并没有把所有的值存在内存中,而是在运行时生成值。你通过遍历来使用它们,要么用一个“for”循环,要么将它们传递给任意可以进行迭代的函数和结构。大多数时候生成器是以函数来实现的。然而,它们并不返回一个值,而是yield(暂且译作“生出”)一个值。 一.python中的元组推导就是生成器:g=(x for x in range(5...

2019-01-08 15:33:31 97

原创 pandas逆透视

#pandas 透视表 pivot_table'''The function pandas.pivot_table can be used to create spreadsheet-style pivot tables.It takes a number of argumentsdata: A DataFrame object values: a column or a ...

2019-01-07 15:13:10 1107

原创 centos7安装vmtools

1.点击vm 虚拟机,安装vmtools,这是会出现一个文件夹tar2.解压 tar -zxvf  filename.tar.gz3.cd 到解压的文件夹内,会有一个文件: vmware-install.pl4.然后 chmod +x vmware-install.pl 5. ./filename         (这一步就是执行pl可执行文件了)6.然后一路yes 就好了...

2019-01-04 16:00:17 1923

原创 Python时间序列生成

 #Python时间序列生成n=2dic=dict(zip([(pd.Timestamp("today")+ MonthBegin(n=-i-1)).strftime("%Y/%m/%d") for i in range(6)], [(pd.Timestamp("today")+ MonthBegin(n=-i)).strftime("%Y/%m/%d") fo...

2018-12-10 16:34:27 3501 1

原创 Spark SQL数据类型

Spark SQL数据类型数字类型 ByteType:代表一个字节的整数。范围是-128到127 ShortType:代表两个字节的整数。范围是-32768到32767 IntegerType:代表4个字节的整数。范围是-2147483648到2147483647 LongType:代表8个字节的整数。范围是-9223372036854775808到922337203685477...

2018-12-03 16:03:38 7801

原创 python鲜为人知的小技巧

 python鲜为人知的小技巧1.字典合并 以d2为基准更新d1d1={"a":1} d2={"b":2,"a":10} d1.update(d2) print(d1) print(dict(d1.items()|d2.items()))  2.for elsea=[1,2,3,4,5] for i in a: if i==0: print(i)...

2018-12-03 13:02:48 187

原创 group by cumsum sql ,pandas,saprk,tableau

  Editgroup by cumsum sql ,pandas,saprk,tableau直接干不就完了,造数据: drop table if exists group_by_cumsum; create table if not exists group_by_cumsum(create_time datetime,city VarChar(20),sales...

2018-11-25 12:19:22 455

原创 ubuntu17.04安装mysql 8

 Editubuntu17.04安装mysql 8说明:到官网下载mysql8 deb 安装包:https://dev.mysql.com/downloads/repo/apt/或者在线下载:wget -c https://dev.mysql.com/get/mysql-apt-config_0.8.10-1_all.debStep1:下载安装deb package...

2018-11-14 19:11:53 387

原创 pysaprk很多show()报错

pysaprk很多show()报错都是因为数据量很大,无法返回到驱动导致,只要在sql价格limit,或者df价格过滤就好了

2018-10-10 15:08:07 1092 1

原创 matplotlib.pyplot画图并导出保存

直接上代码: import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfig, ax = plt.subplots()bar_positions=[1,2,3,4]bar_heights=[1,2,3,4]print(np.arange(len([2,2,3,4,5])+1))ax.bar(np.a...

2018-09-16 18:02:01 27667

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除