自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 python ubuntu中读含有中文的文件,最好用Notepad++转为utf8

python ubuntu中读含有中文的文件,最好用Notepad++转为utf8保存格式为csv,这个文件是文本格式,不能用excel

2018-05-04 09:36:53 670

转载 github上传文件

1、首先注册github账号,地址: https://github.com/输入账号、邮箱、密码,然后点击注册按钮.2、在打开的GIt Bash中输入以下命令(用户和邮箱为你github注册的账号和邮箱)$ git config --global user.name "hanyuntao"$ git config --global user.email "[email protected]"...

2018-04-25 16:15:45 971

原创 python基础学习(1)

前言:统计分析,机器学习,建模为什么选择python?1、python开源免费,有很多现成的计算模型库和包可以用,也有对应的可视化工具,方便绘制图表。2、python是解释性语言,相对于其他语言,代码实现需要的计算功能要简化很多,省去码代码时间。3、对于一般的中量级数据,python处理效率还可以,当然比不上java和C++,不过一般可以接受。加上可以嵌入到Java和C++中,效率问题也可以得到解...

2018-04-25 14:42:21 400

原创 python 日期转化,str便于查看和截取年月日,但是不好大小排序

date_str='2016-12-16'# str to datetimedate = datetime.datetime.strptime(date_str,'%Y-%m-%d')# datetime to strdate_str = date.strftime('%Y-%m-%d')或者直接str(date),再根据格式截取# 时间排序示例:ts =

2016-12-19 16:47:39 9689

原创 html显示中文及python文件编码问题!

一、html    df_text = '''         {}                        监控说明:pc_app过渡模型打分统计,效果评估,模型字段稳定性统计;        当天和昨天入审人群比较;字段summary            html_sc = ''# 保存成html文件,便于查看网页显示是否正确,不用自

2016-12-06 11:39:00 3963

原创 python 中数据类型的转化

1、字典转dffrom pandas.io.json import json_normalizedf = json_normalize(data)2、list中包含多个相同格式的字典,直接转为多条dflist=[{'key1':1,'key2':2},{'key1':1,'key2':2}]pandas.DataFrame.from_records(list)

2016-10-13 13:29:51 555

原创 linux下svn命令

svn add 文件名 :添加文件svn co 对应网址:copy 对应代码svn status : 对应状态svn log : 查看修改记录状态svn ci -m 'add policy_vars' : 上传代码,引号中是注释,可以记录每次操作含义svn update : 更新状态

2016-10-12 20:36:16 339

转载 KS检验

KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。KS检验与t-检验之类的其他方法不同

2016-10-12 10:24:38 37191

原创 查看代码快速方法,notepad++,pycharm!

notepad++:在notepad++中双击某个单词,整个文档都会将这个单词标出颜色,另外在查找时,可以选择在整个文档中,下面会显示一个出现这个词的窗口,双击可以直接跳转过去,很方便,选择时直接双击就可以了,不用费劲的用鼠标点选。pycharm:python用pycharm查看时,按住ctrl键点击函数可以直接寻找到函数的位置,在同目录的其他py文件中也可以自动跳

2016-09-09 10:10:55 2310

转载 notepad++ tab键转空格

tab键和空格不是完全一样的,虽然他们看起来是一个tab键=4个空格在notepad++中可以设置tab键替代空格下面的连接中有比较详细的方法:http://blog.csdn.net/cashey1991/article/details/6766261

2016-09-06 20:15:15 551

原创 ubuntu 终端ipython退出

quit()

2016-08-31 12:41:26 2262

原创 ubuntu安装xgboost

sudo pip install xgboost有时不是sudo用户,提示错误,并且卡住不运行The directory '/home/jiyuan/.cache/pip/http' or its parent directory is not owned by the current user and the cache has been disabled. Please check

2016-08-31 11:49:32 324

转载 ubuntu安装pip

Ubuntu14.04上安装pip的方法在Ubuntu14.04上,建议通过下面的方法安装,这是一种通用的方法,也适用于Windows,当然在Windows下手动下载下来就行了wget https://bootstrap.pypa.io/get-pip.py --no-check-certificatesudo python get-pip.py 如果在Ubun

2016-08-31 11:28:31 2335

转载 ubuntu安装gensim

1. 安装依赖库:Python >= 2.6. Tested with versions 2.6, 2.7, 3.3 and 3.4. Support for Python 2.5 was discontinued starting gensim 0.10.0; if you must use Python 2.5, install gensim 0.9.1.NumPy >= 1.3.

2016-08-31 11:13:38 1194

转载 python 安装jieba...

1.安装Python的GUI(IDLE)自认为python的GUI还是比较好用的,所以在Ubuntu14.04上进行了尝试。ubuntu默认安装好了python,但是并没有安装IDLE需要我们使用简单的命令:sudo apt-get install idle2.安装中文分词工具结巴(jieba)最近在做数据挖掘的作业,要用到jieba,所以不得不安装。github上的安装方法并不能正确

2016-08-30 19:51:49 6827

转载 Python os.path常用操作

Python: os.path —常用路径名操作这个模块实现了操作路径名的常用的函数。读写文件参见open(),访问文件系统参见os模块。注意在Windows上,许多函数不能正确的支持UNC路径名。splitunc()和ismount()可以正确的处理它们。和Unix shell不一样,Python不做任何自动的路径扩展。当应用需要shell一样的路径扩展的功能,可

2016-08-29 15:47:27 22679

原创 python df.mode()

Parameters: axis : {0 or ‘index’, 1 or ‘columns’}, default 00 or ‘index’ : get mode of each column1 or ‘columns’ : get mode of each rownumeric_only : boolean, default Falseif True, only apply to num

2016-08-29 15:36:54 8488

原创 python dataframe的索引

df.loc[index,columns]df.iloc[i,j] 数值df.ix[ ] 数值和字符都可以的混合索引

2016-08-22 11:06:43 1228

原创 python判断文件是否存在,是否为空,然后写入

# 将每次运行的KS值存入一个文件,每次运行时加入文件,再读取文件画出连续一些天数的ks曲线图    if os.path.exists('./ks_accumulate.csv'):        if os.path.getsize('./ks_accumulate.csv'):            print('文件存在且不为空')            ks_temp.t

2016-08-18 11:22:08 39594 1

原创 sql中的union用法

union前后可以连接两个select语句,列数需要一样,可以上下拼接select 2 as 'a'unionselect 3 as'b'得到:   a1 22 3

2016-08-11 17:42:41 661

原创 python中pd.read_sql()读取多个select后得到多个datafram

def ExceQuery(sql, database, chunksizes):    engine = create_engine(database)    if chunksizes == None:        df_list = pd.read_sql(sql, engine)    else:        df_list = []        for

2016-08-11 17:39:17 14482

原创 Python画图基本方法总结

import pandas as pdimport numpy as npfrommatplotlib.ticker import MultipleLocator, FormatStrFormatterimport matplotlib as mpl# matplotlib.use('Agg')import matplotlib.pyplot as plt

2016-08-11 17:34:29 16845

转载 ubuntu忘记密码,开机时重新设置密码的方法

修改GRUB进入单用户模式修改密码重启ubuntu系统,开机时长按shift按键进入GRUB菜单,选择第二个高级模式。(不同版本可能按键不一样,可以根据界面提示最下面的提示操作,可能是F2,ESC)在高级模式中选择Recovery mode模式,键盘按键E进入编辑模式。(直接按e,不要手快按enter键)关键步骤:在编辑模式中寻找RO修改为RW模

2016-08-11 16:36:59 1736

原创 ubutu 将svn上的文件同步到自己的文件夹下面

svn check out(同步)1. ubutu 打开teminal【将mobile同步到/home下】2. 输入 svn co http://svn.corp.ppdai.com:8080/svn/RiskTeam/mobile/3. 输入用户名4. 密码5. 或者【svn co http://111.1111.111.11:8080/a/b/c,need username

2016-08-11 16:23:20 253

转载 python的多线程

多线程  科技在发展,时代在进步,我们的CPU也越来越快,CPU抱怨,P大点事儿占了我一定的时间,其实我同时干多个活都没问题的;于是,操作系统就进入了多任务时代。我们听着音乐吃着火锅的不在是梦想。  python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点,在threading 得到了弥补,为了不浪费你和时间,所以我们直接学习threading

2016-07-12 14:10:15 262

转载 xshell 操作方法

mkdir +文件夹名   (新建目录) ls 文件浏览(使用ls命令列出文件列表的信息,默认情况下为当前目录下的所有文件,并按照字母顺序排列) file [选项]...[-f]文件..说明:显示指定文件的类型与编码格式。 cd+想跳转到的目录下   (通过修改当前所在目录,跳转到另外一个目录下) 文件拷贝:cp /文件名.c/根目录下/ 文

2016-07-01 15:11:28 911

原创 各种统计量指标

各种统计量指标(1)Weight ofEvidence(WoE)注:是指每个变量取值的权重,分bin,相当于单维看连续变量取值分区间,类型变量取离散的值。(2)InformationValue (IV)含义:预测变量特征信息的数量,从坏的中分离出好的。变量不同取值信息加和。 (3)PopulationStability Index(PSI)人口稳定性指标形式

2016-05-06 16:25:31 5987

原创 Python学习2016.4.14

(1)列表和序列有自己的排序sort方法,其对列表进行原址排序,所以元组没有(因为不可修改)sorted函数可以获得排序后的副本,不用引包可以直接用,不过序列排序后返回的是列表,序列自己的sort方法由于是原址排序,所以还是序列,不会改变类型。s =pd.Series([1, 6, 4, 0])s_sort= sorted(s)print(s_sort)print(type(s

2016-05-06 16:23:15 224

原创 python学习2016.4.13

Python函数 (1)数据框的另一种定义方式,将数据内容(多维数组)直接放入data中,再定义columns和index。(数据框.columns是取列名,.index是取行名,取出的类型类似元组,可以用[0],[1]…直接取出)df = pd.DataFrame(data=[[34, 'null', 'mark'], [22, 'null','mark'], [34, 'null'

2016-05-06 16:18:12 571

原创 Python学习2016.4.12

Python函数(1)isinstance,来判断一个对象是否是一个已知的类型。isinstance说明如下:isinstance(object, class-or-type-or-tuple)-> bool  isinstance(x, (A, B, ...)) 其第一个参数为对象,第二个为类型名或类型名的一个列表。其返回值为布尔型。若对象的类型与参数二的类型相同则返

2016-05-06 16:11:37 414

原创 python学习2016.4.1

(1)pandas.Series.value_counts:返回对象中包含唯一值个数,Series.value_counts(normalize=False, sort=True, ascending=False, bins=None,dropna=True)参数:normalize : boolean, default False如果True则返回coun

2016-05-06 16:00:22 1847

原创 python学习2016.3.31

2016.3.31(1)用type()可以查看任意数据类型。如果是单个数值,则显示具体数值类型;如果是存储容器,则显示对应的存储类型。示例:输出结果:注:若果不用np.mat([])定义矩阵或数组,用[ ]定义的存储类型都是List,无论是[]还是[[ ]]。数据框对应pandas包,df =pd.DataFrame()由于有多个列,查看各列

2016-05-05 11:53:01 593

原创 Python学习2016.3.30

2016.3.30 类型描述例子备注str一个由字符组成的不可更改的有串行。'Wikipedia'"Wikipedia""""Spanningmultiplelines"""在Python 3.x里,字符串由Unicode字符组成

2016-05-05 11:44:17 570

原创 SQL学习

2016.3.29SQL Server不区分大小写(1)isnull :使用指定的替换替换NULL。用法:ISNULL ( check_expression ,replacement_value )check_expression:将被检查是否为 NULL的表达式,可以是任何类型的。replacement_value:在 check_expression 为 NULL时将返

2016-05-05 11:42:50 284

原创 SQL转换时间函数用法

2016.4.28(1) getdate():获取当前时间。Dateadd(datepart , number, date ): 在向指定日期加上一段时间的基础上,返回新的 datetime 值。select DateAdd(MM,2,'2008-8-8') --------------返回:2008-10-08 00:00:00.000select DateAdd(dd,2,'2

2016-05-05 11:19:40 653

转载 Python制作统计图形

Python制作统计图形作者: admin 分类: python, 数据分析 发布时间: 2014-07-19 17:37 ė 6没有评论Python一般使用Matplotlib制作统计图形,用它自己的说法是‘让简单的事情简单,让复杂的事情变得可能’。(你说国外的“码农”咋这么会说,我就整不出来这工整的句子!)用它可以制作折线图,直方图,条形图,散点图,饼图,谱图等等你能想

2016-05-03 18:10:17 9505

转载 python数字图像处理:直方图与均衡化

在图像处理中,直方图是非常重要,也是非常有用的一个处理要素。在skimage库中对直方图的处理,是放在exposure这个模块中。1、计算直方图函数:skimage.exposure.histogram(image, nbins=256)在numpy包中,也提供了一个计算直方图的函数histogram(),两者大同小义。返回一个tuple(hist, bin

2016-05-03 17:56:56 990

转载 Pyhotn 中编码的问题:'ascii' codec can't decode byte 0xef in position 0: ordinal not in range(128)的错误

在Django视图函数中经常出现类似于'ascii' codec can't decode byte 0xef in position 0:ordinal not in range(128)的错误。        在解决错误之前,首先要了解unicode和utf-8的区别。        unicode指的是万国码,是一种“字码表”。而utf-8是这种字码表储存的编码方法。unicode不

2016-05-03 11:51:13 117705 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除