自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 资源 (8)
  • 收藏
  • 关注

原创 seaborn joinplot

import scipy.stats as scidef pearson(x,y): r,p = stats.pearsonr(x,y)sns.jointplot('Comedy','Adventure',pivot,kind='reg',color='g',stat_func=sci.pearsonr)显示图标import scipy.stats as scidef p...

2019-12-03 15:10:11 981

原创 r语言筛选列

数据格式如下: a b c d e 1 2 3 4 5 使用select过滤不要的列 df[,-which(names(df)%in%c("a","b")] subset(df,select=-c(a,b)) 使用select选择想要的列 df[ , c("x","y")] subset(df, select=c(x,y)) write.tab...

2019-11-13 19:34:03 10691

原创 错误 With R version 3.5 or greater, install Bioconductor packages using BiocManager; see..

在使用如下代码安装Bioconductor来源的package时,source("https://bioconductor.org/biocLite.R")biocLite("apeglm")遇到如下报错:错误: With R version 3.5 or greater, install Bioconductor packages using BiocManager; see...

2019-11-06 15:24:34 19564 2

原创 Error in DESeqDataSet(se, design = design, ignoreRank) : some values in assay are negative

原代码: dds <- DESeqDataSetFromMatrix(countData = exprSet, colData = colData, design = ~ group_list)错误原因:exprSet中存在负值 -1纠正:将矩阵中-1...

2019-11-05 13:19:28 24511 5

原创 TCGA数据 ENSG编号转为Symbol(基因名称)

当想查看对应的差异基因对应的Symbol(基因名称)的时候,发现基因为编码为ENSG开头的一串数字,Ensembl基因的ID# 安装包source("https://bioconductor.org/biocLite.R")biocLite("AnnotationDbi")biocLite("org.Hs.eg.db")# 加载包library(stats4)librar...

2019-11-04 18:33:12 20369

原创 excel生成笛卡尔积的形式

由于要在数据库中插入一系列的数据,故用到excel来进行处理 首先我们有两列数据,如图左边标红部分,右边为最终效果: 创建辅助列D列,主要用于后面的快速填充,操作方法:在D2中输入1,选择“填充”功能的等差序列,终止值为A列行数与B列行数的乘积,此处为18x55=990 在E列中编辑公式,E2单元格中输入: =INDEX(A:A,INT((ROW(...

2019-05-28 15:59:56 9893 1

原创 《python数据分析与挖掘实战》拉格朗日法进行插补

import pandas as pdfrom scipy.interpolate import lagrangeinputfile = './data/catering_sale.xls'outputfile = 'sales.xls'data = pd.read_excel(inputfile)row_indexs = (data[u'销量'] &lt; 400) | (data[...

2018-10-26 17:29:37 996 5

原创 《python数据分析与挖掘实战》matplotlib例子

绘制正弦函数import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号plt.figure(figsize = (7,5))#创建图像区域,制定比例import nu...

2018-10-26 15:52:03 829

原创 data.boxplot

餐饮销额数据异常值检测代码按着书上代码敲了一遍出现如下错误需要将源代码改为p = data.boxplot(return_type = 'dict')整体代码如下所示:#encoding:utf-8import pandas as pdimport matplotlib.pyplot as pltcatering_sale = './data/catering_sal...

2018-10-19 20:20:16 1539 1

原创 pycharm显示行数

File --&gt; Settings --&gt;Editor --&gt;Appearance ,  之后勾选Show Line Numbers。

2018-10-19 19:11:19 2793

原创 shell for循环

# /bin/basha="mango"b="xps"for i in {20180908..20180930}do/usr/bin/beeline -u "jdbc:hive2://dsrv1.heracles.sohuno.com:10000/mbadp;principal=hive/[email protected]" --h...

2018-10-15 09:28:47 361

原创 hive 提取时间戳的小时

select from_unixtime(cast(ts as bigint), 'HH') as date, act, count(objid), count(distinct imei)from mbadp.t_ods_app_news_user_behaviorwhere dt = 20180820group by from_unixtime(cast(ts as bigint), '...

2018-09-27 15:16:34 32156

原创 shell的一个输入依赖于另一个值

# /bin/bashdt1=$1dt2=$2source=$3source1=$source'_city'echo $dt1,$dt2,$source,$source1 source1的值依赖于source的输入

2018-09-21 10:27:55 238

原创 python plt图表中文字大小调节

plt.title("Feature importances", fontsize=30)plt.xticks(fontsize=30)plt.yticks(fontsize=30)# 设置坐标标签字体大小ax.set_xlabel(..., fontsize=30)ax.set_ylabel(..., fontsize=30)# 设置图例字体大小plt.show()...

2018-09-06 15:44:04 18681

原创 python快捷键

Ctrl + / 注释(取消注释)选择的行Ctrl+Shift+F 高级查找Ctrl+Enter 补全Shift + Enter 开始新行TAB Shift+TAB 缩进/取消缩进所选择的行Ctrl + Alt + I 自动缩进行Ctrl + Y 删除当前插入符所在的行Ctrl + D 复制当前行、或者选择的块Ctrl + Shift + J 合并行Ctrl +...

2018-08-31 19:21:23 218

原创 python品牌探针开发

数据格式如下有每个品牌的关注imei#encoding:utf-8import osimport pandas as pduv_table = pd.read_table('nan1.txt', sep = '\t', encoding = 'utf-8')print(uv_table.columns)uv_table['uv1'] = 1brand_list = ...

2018-08-30 19:42:44 616

原创 R语言Error in hist.default() : 'x'必需为数值

hist(as.numeric(employees$received),breaks=50)

2018-08-20 16:07:44 41536 7

原创 将dataframe中一列的某个值换一下

data_join_uv['category'] = data_join_uv['category'].map(lambda x : '商业兴趣')将data_join_uv中的值换为'商业兴趣'

2018-08-20 15:35:58 4472

原创 筛选列dataframe列为数字的数据

问题:因为要对列进行处理,然而列中有数字还有乱码符号data1为要处理的数据,列atx为要处理的列data1['t'] = data1['atx'].str.isdigit()data1 = data1[data1['t'] == True] ...

2018-08-20 14:35:28 6316 1

原创 爬虫爬取太平洋汽车的评论

#encoding:utf-8import urllibimport urllib.requestfrom bs4 import BeautifulSoupimport reimport randomimport timeimport html5lib# 设置目标url,使用urllib.request.Request创建请求url0 = "http://price.pcau...

2018-08-16 11:04:46 1601

原创 文本处理

文本格式文本处理结果:代码:#encoding:utf-8import randomfrom random import randintoldf=open('test.txt','r',encoding='utf-8')newf=open('baolai1.txt','w',encoding = 'utf-8')lines=oldf.readlines()#1...

2018-08-16 11:03:47 144

原创 python 热力图heatmap

python的热力图是用皮尔逊相关系数来查看两者之间的关联性#encoding:utf-8import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltfrom matplotlib import cmfrom matplotlib import axesimport pylabpylab.mp...

2018-08-13 10:20:43 9183 1

原创 从一个文件中随机的选取700万行数据

从一个文件中随机的选取700万行数据#encoding:utf-8import randomfrom random import randintoldf=open('0807.txt','r')newf=open('newfile.txt','w')n = 0resultList = random.sample(range(0,16203118),7000000) # samp...

2018-08-07 16:29:45 1381 1

原创 将多个csv文件写入同一个excel中的不同sheet表中

pandas 的Dataframe的to_csv()会覆盖掉之前写入的表,最终导致excel中只有一个sheet所以在这里用ExcelWriter实现写多个sheet# coding=utf_8_sigimport pandas as pdfrom openpyxl import load_workbookimport osos.chdir('E:/pycharm/Test/pr...

2018-08-01 15:07:36 10686

原创 pandas dataframe to_csv多一列的问题以及to_csv参数详解

df.to_csv("test.csv",encoding='utf-8',index=False)在后面加上index = False即可Write DataFrame to a comma-separated values (csv) fileParameters: path_or_buf : string or file handle, default None...

2018-08-01 11:10:02 13983

原创 DtypeWarning: Columns (5) have mixed types. Specify dtype option on import or set low_memory=False

 需要在代码中加这个:df = pd.read_csv('somefile.csv', low_memory=False)pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:low_me...

2018-08-01 10:29:48 12905

原创 ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.

不能使用or and 需要用|和&amp;来代替p = p[(p['category'] == u'视频兴趣PV')|(p['category'] == u'阅读兴趣PV')]

2018-07-31 18:03:51 5598

转载 正则表达式总结

1. 正则表达式语法  1.1 字符与字符类    1 特殊字符:\.^$?+*{}[]()|      以上特殊字符要想使用字面值,必须使用\进行转义    2 字符类        1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。      2. 字符类内可以指定范围,比如[a-zA-Z0-9]表示a到z,A到Z,0到9之间的...

2018-07-31 15:18:40 354

转载 常用正则表达式总结

一、校验数字的表达式1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 7 带1-2位小数的正数或负数:^(\-)?\d+(\.\...

2018-07-31 15:17:01 116

原创 将多个txt文本写入excel的不同sheet表中

需求:将txt文本中的数据插入到excel中的不同表中,并为每个sheet表添加表头如果在txt文本中已经有表头,则只需要建立个list列表,将txt名写入列表中,遍历list列表,然后将txt文本写入excel中因为文件过大,所以这里用了openpyxl,xlwt仅能插入255行,不能满足数据量大的情况# coding=utf-8import osfrom openpyxl i...

2018-07-31 15:14:08 5154

原创 Python进制转换

  二进制 八进制 十进制 十六进制 二进制 a = str(num) a = str(num) bin(dec) a = str(num) 八进制 oct(int(a,2)) oct(int(a,8)) oct(dec) oct(int(a,16)) 十进制 int(a,2) int(...

2018-07-31 15:07:51 275

原创 python merge错误ValueError: You are trying to merge on object and int64 columns.

python 在用merge函数的时候出现这种错误修改方法:city['city_num'] = pd.to_numeric(city['city_num'], errors='coerce') 将连接列都用这个函数进行转换使用to_numeric转为数值。默认情况下,它不能处理字母型的字符串'pandas'可以将无效值强制转换为NaN city['city_num'] =...

2018-07-31 14:45:26 15769

原创 pandas修改列名

在做文本分析的时候,修改一个DataFrame的column名称,总结如下: 数据如下:方法一:暴力方法&gt;&gt;&gt;a.columns = ['a','b','c']&gt;&gt;&gt;a a b c0 1 4 71 2 5 82 3 6 9但是缺点是必须写三个,要不报错。方法二:较好的方法&gt;&gt;&gt;a.r...

2018-07-31 14:38:36 1690

原创 python 写出csv文件乱码

all.to_csv('city.csv',encoding='utf_8_sig')1)程序输出中出现乱码的原因是因为python2中中文编码的问题,需要注意的是要将处理的中文文件的编码和python源文件的编码保持一致,这样不会出现中文乱码。2)在程序中能够正常输出中文,但是导出到文件后使用excel打开是出现中文乱码是因为excel能够正确识别用gb2312、gbk、gb18030...

2018-07-31 10:36:55 1454

原创 IEEE 会议链接问题

已经确定了页数,对这两页的段落进行选中,然后鼠标右键-&gt;复制外链接,这时候文本中会选出有外链接的词然后选中这个词,鼠标右键-&gt;删除外链接OK...

2018-07-26 15:55:43 438

原创 IEEE会议论文 PDF嵌入问题 not embedded

Adobe Acrobat 9.0 Pro用福昕阅读器查看字体是否嵌入【step1】: 下载 acrobat下载地址:https://pan.baidu.com/s/1qUMuTifDj1eF_Bj1x26j4Q【step2】: 安装完 acrobat后, 如下操作:文件-》 打印-》选中打印到 adobe pdf-》 属性 -》 pdf 设置 -》编辑 -》添加【...

2018-07-26 15:40:59 1241

原创 shell 文件夹操作

文件夹的删除:rm -rf 文件夹名下载文件夹到本地:下载dir目录下的所有文件,不包含dir下的文件夹:sz dir/*

2018-07-23 16:39:28 437

转载 shell '\r': command not found

当我们执行 shell 脚本的时候提示 '\r': command not found,但是检查了很多次并没有发现什么问题。原因是 windows 下的换行符是 \r\n,而 linux 下的换行符是 \n,所以只要执行下面的命令把 \r 去掉就可以了。sed -i 's/\r$//' &lt;filename&gt;#转化为unix格式 sed -i 's/\r$//' &lt;fi...

2018-07-23 15:58:40 1758

原创 shell 传入参数带引号

$ /bin/sh test.sh \'vv\'

2018-07-23 15:06:52 10790

原创 shell编程运算符

算数运算符下表列出了常用的算术运算符,假定变量 a 为 10,变量 b 为 20:运算符  说明    举例+   加法    `expr $a + $b` 结果为 30。-   减法    `expr $a - $b` 结果为 -10。*   乘法    `expr $a \* $b` 结果为  200。/   除法    `expr $b / $a` 结果为 2。%...

2018-07-18 16:29:51 195

element饿了么axure组件库2.0

饿了么Element 组件库Axure Components Element 是一套 Vue.js 后台组件库,它能够帮助你更轻松更快速地开发后台项目。

2020-12-10

axure原型axhub charts pro

适应图表展示的Axure原型,可通过Group内data和config中继器可更改数据及配置,支持多种图表,支持使用axure9

2020-12-09

tableau破解包

tableau10的破解包,下载后直接放入tableau安装位置的bin目录下。

2018-09-15

hive用户指南

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。

2018-06-07

python基础教程(第三版)带目录

本书对于学习python的新手来说是一本很好的工具书,并且附带着目录,可以方便的查看所需要的内容。

2018-06-07

基于jsp的教务管理系统

基于jsp的一个教务管理系统,代码齐全,数据库也有。。

2017-12-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除