自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Data analysis and Data mining

从事数据分析工作六年了,Linux SQL SAS PYTHON JMP.Mark!!!!!!!!!!!!!!!!!!!!!!!!July 28 2017

2017-07-28 16:01:55 488

原创 Pyspark UDF(user define functions) 在Pyspark DataFrame 使用UDF,也可以先转化rdd lambda apply

from pyspark.sql import SparkSessionfrom pyspark.sql import functionsimport pyspark.sql.functions as Ffrom pyspark.sql.functions import udffrom pyspark.sql.types import StringTypedf = spark.cre...

2020-04-06 12:08:55 378

原创 用python 读取txt文件遇到的问题

import pandas as pdmovies_names = ['movie_id', 'title', 'genres']movies = pd.read_table('movies.txt', sep='::', header=None, names=movies_names)movies.head()程序报错C:\Users\jinpeng\Anaconda3\lib...

2019-03-30 21:12:53 1703

原创 Python列表(基础知识巩固)

本节主要内容:1. 列表2. 列表的增删改查3. 列表的嵌套4. 元组和元组嵌套5. range一. 列表1.1 列表的介绍列表是python的基础数据类型之一 ,其他编程语言也有类似的数据类型. 比如JS中的数组, java中的数组等等. 它是以[ ]括起来, 每个元素用' , '隔开而且可以存放各种数据类型:lst = [1, '哈哈', "吼吼", [1,8,0,"百度"...

2019-02-26 21:17:07 220

原创 Python基本数据类型(基础知识巩固)

一.python基本数据类型1. int ==> 整数. 主要用来进行数学运算2. str ==> 字符串, 可以保存少量数据并进行相应的操作3. bool==>判断真假, True, False4. list==> 存储大量数据.用[ ]表示5. tuple=> 元组, 不可以发生改变 用( )表示6. dict==> 字典, 保存键值对, 一样可...

2019-02-25 22:47:02 249

原创 Python的格式化输出,基本运算符,编码 (基础知识巩固)

一. 格式化输出现在有以下需求,让用户输入name, age, job,hobby 然后输出如下所示: -----------info of Alex Li-----------Name : Alex LiAge : 22job : TeacherHobbie : gril----------------end----------------- 你怎么实现呢?你会发现...

2019-02-25 22:16:03 382

原创 Jupyter notebook 导出的csv 文件是乱码的解决方案

本人使用的是Jupyter notebook 编辑器做数据分析的,API 是pyspark,有时候需要把 pyspark DataFrame 转成 pandas Dataframe,然后转成CSV 文件去汇报工作,发现有中文导出的时候是乱码,问了运维的同事的他们已经设置成了UTF-8 的模式,我在代码里也设置了UTF-8 .后来发现是CSV的问题,先将CSV用txt记事本打开,然后选择ANSI编码...

2019-02-22 09:39:26 7743 1

原创 Jupyter notebook 快捷(keyboard shortcut) June 26,2018

我将我常用的整理并翻译出来。Ctrl + /   注释一个单元里的某一行  也可以反注释Ctrl + Enter 运行本单元Ctrl + left 跳到左边的字首shift + enter 运行本单元并选中下一单元Shift + J 或 Shift + Down 选择下一个cellShift + K 或 Shift + Up 选择上一个cellShift + M 合并cell. shift + t...

2018-06-26 18:50:49 1206

转载 SAS BASE&SAS EM 关联分析的学习 proc dmdb and proc assoc

本来想用其他的软件对数据做关联分析的,但公司不许安装其他的软件,只有SAS BASE SAS EG SAS EM。没办法,只能用现有的软件。1.SAS EM   1.1打开EM 软件,将数据导入EM 中,导入数据前将数据先整理一下,两个变量,一个客户号,一个是客户买的产             品。    1.2 点击左边选项框 的 流程图 ,然后把 原数据 图标和 关联 图标,用

2017-11-19 21:42:22 2912

转载 非参数统计

非参数统计出自 MBA智库百科(http://wiki.mbalib.com/)非参数统计(Nonparametric statistics) 目录[隐藏]1什么是非参数统计2非参数统计的适用范围3非参数统计的特点4非参数统计的优缺点[编辑]什么是非参数统计   非参数统计是统计学的一个重要分支

2017-08-23 21:56:39 5482

原创 对SAS知识的点滴回顾

proc sort

2017-08-01 20:45:53 528

原创 对SQL_Server 部分知识的回顾

1.给SQL server 加注释,如果只有一行 “--”,如果有多行的话,请使用/*.......*/,这个跟SAS的注释一样。1.1 SQL SERVER 有行的问题,所以使用了 set nocount on set nocount off ,分别放在开始和结尾。2.能不能在查询当中生成一个新表,当然是可以的,SELECT   * INTO  new table name  SQL

2017-07-29 17:37:33 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除