是阿采哦-CSDN博客

原创 python连接presto传递多个参数

python连接presto传递多个参数

2022-06-02 17:01:44 850

以前又傻又菜的时候，根据条件替换某一列值或新增总是会写一些for 循环去处理，现在发现一个更简洁的方式，就是善用pandas方法。根据条件新增一列值现有数据集如下所示：调用apply()方法，可以作用于Series或者整个DataFrame，它自动遍历整个Series或者DataFrame, 对每一个元素运行指定的函数。新增一列label,要求按照id列是否包含M来指定label的取值：#按条件新增一列df['label']=df.id.apply(lambda x:...

2021-03-12 11:22:25 13870

原创 pandas数据处理——取出重复数据

平常我们用pandas做重复数据处理时，常常调用到drop_duplicates方法，来去除重复保留唯一值。现在我不想去除重复，而是把整个重复数据输出，数据如下所示：https://www.cnblogs.com/trotl/p/11876292.htmlhttps://blog.csdn.net/qq_37977267/article/details/83585869https://www.cnpython.com/qa/66175https://blog.csdn.net/qq236

2021-03-12 10:48:05 14664

原创 python用graphviz绘制流程图

通常我们使用graphviz这个包来协助绘制流程图或决策树的可视化，免费graphviz-2.38.msi下载地址：https://download.csdn.net/download/weixin_42213421/12739476下载完成后，通过以下语句将包加载进来：from graphviz import Digraph# 写明graphviz的bin文件目录os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphv

2021-02-08 11:04:17 2618 1

转载 python实现tar文件解压缩

压缩文件import tarfile import os def tar(fname): t = tarfile.open(fname + ".tar", "w:gz") for root, dir, files in os.walk(fname): print root, dir, files for file in files: fullpath = os.path.join(root, file) t.add(fullpath)

2021-02-03 10:59:17 2054 1

原创 pandas数据处理——消除空格

在数据预处理时，因为人工采集数据的过程，经常有可能把空值和空格混在一起，一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦，因为空值和空格都是代表的无数据，而pandas中Series的方法notnull()会把有空格的数据也纳入进来。一般这种情况采用的做法是，先将空格用NaN值替换，再进行空值填充。源数据形式如下：再看一下数据的行数及数据格式：可以看到，对于data["call_result2"]这一列数据是有缺失的，我们先用nan值将空格处理了，再进行空值处

2021-02-03 10:39:04 7032 1

原创 pandas数据处理——时间差计算

计算两列数据的时间差，按天数返回。源数据的格式如下：为防止两列出现空值情况，先对其进行空值填充(可选)# 时间空值填充time=date(2000,1,1)data[["l_call_time3","l_call_time2"]]=data[["l_call_time3","l_call_time2"]].fillna(time)调用pandas.to_datetime()函数将数据转换为日期时间，再进行时间差计算。data["l_call_time23"]=pd.to_da

2021-02-02 12:13:36 13879 4

原创联邦学习——面向数据安全和隐私保护破解之法

最近计划对联邦学习这个领域做一些研究，遂上网学习了相关资料，并拜读了杨强教授的新书《联邦学习 Federated Learning》，特此做点学习笔记与诸君共享之。本文主要注重概念的理解与认识，分以下三部分进行介绍：一、联邦学习概述二、联邦学习发展三、联邦学习应用前景联邦学习概述基于...

2021-01-06 14:46:25 1667 1

原创统计之美：人工智能时代的科学思维

晃晃悠悠的又看完一本书：《统计之美：人工智能时代的科学思维》该书在2019年3月首次于电子工业出版社发行，由数据科学领域从业多年的李舰博士和海恩共同编写。总体来看，本书基于经典统计学的知识体系，每章使用历史经典故事、网络热点事件、行业真实案例等背景知识对知识点进行介绍。个人感受是一本故事性质的统计学科普书籍，着重对统计学美感和思维的介绍，比较适合对大数据和人工智能感兴趣的读者入门AI统计基础。本文将从四个方面简要概述书中内容，并谈一点自己的粗浅感悟。一、基础统计学二、数据..

2020-12-17 15:24:32 1493 1

转载常用排序算法python实现

排序算法属于计算机科学中的基础算法同时又应用非常广泛。python函数也内置了一些排序接口，如sorted函数。在实际生产里，不同场景我们使用的排序算法会稍有不同，排序算法选择主要考虑如下因素：算法的执行效率排序的稳定性排序元素的个数递归调用的开销排序算法图解：接下来介绍常用九大排序算法及python实现。 ...

2020-10-15 17:40:15 298

原创增长黑客理论(AARRR)模型

刷朋友圈时，看见一位做爬虫工程师的朋友介绍自己转型成了增长黑客。脑子一愣，增长黑客是啥？我现在已经这么落后了吗？再一次为自己知识的贫乏而落泪。怀着憧憬的心情，上网学习了下。增长黑客理论什么是增长黑客(Growth hacker)？增长黑客是一群以数据驱动营销，以市场指导产品，通过技术化手段贯彻增长目标的人。...

2020-10-15 16:55:12 7612

转载用户画像：方法论与工程化解决方案

经过同事座位时，发现他桌上有本《用户画像：方法论与工程化解决方案》，拿起来翻了下，还挺新，2020年2月第一次版印。顺手牵羊拿来研究研究。从前言看，这本书的描述是一本从技术、产品和运营3个角度讲解如何从0到1借助数据仓库构建用户画像系统的一套解决方案。首先我们要明确，什么是用户画像？即用户信息标签化，通过收集用户各个维度的数据挖掘分析，从而抽象出一个用户的信息全貌。用户画像有什么用？帮助大数据“走出”数据仓库，针对用户进行个性化推荐、精准营销、个性化服务等多样化服务，..

2020-07-07 15:48:46 3662 2

转载数据仓库与数据挖掘

同事从家里带来两本老书：一本《数据仓库与数据挖掘教程》，06年出版的数据处理高校教材；另一本《网络科学导论》，12年出版的复杂网络教材。美名其曰：交流学习。两本都是非常基础的理论入门教材，但网络科学这一块实在是一点概念都没有，什么网络拓扑性质、网络动力学、网络控制等看不明白，再一次感叹术业有专攻，就不挣扎了！而《数据仓库与数据挖掘教程》是老本行，拿起这本书就有一种亲切感，虽然书里的概念写的很基础，现在看来就是一些科普性的东西。俗话说温故而知新，当你再回过头来理一些基础知识，对..

2020-07-07 15:29:58 1783

转载数据挖掘十大经典算法

一、C4.5C4.5 算法是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。 C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。C4.5 算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序

2020-06-19 17:42:55 1364

原创捋一捋XLNet

最近花了几天时间研究了下XLNet的源码和论文，它于2019年6月问世，是NLP(Natural Language Processing，自然语言处理)领域中的一个语言模型，通俗一点理解它就是一个让机器做阅读理解的算法。看了一下介绍，阅读论文时需要熟悉AR(autoregressive,自回归)、AE(autoencoding,自编码)、BERT(Bidirectional Encoder Representations from Transformers)模型、transformer-XL等，因为XL

2020-05-13 09:30:30 1336 2

转载评估客户价值的几种模型

在工作中，很多时候都是要在资源有限的情况下，去最大化的撬动效益。挖掘创造最大价值的用户，给用户分类针对性营销，客户管理，构建客户画像等等。如何挖掘能创造最大价值的客户？这里有几个常用的衡量客户价值的模型，我们来看看它们的区别及应用场景。一、RFM模型作为一种简单实用的客户分析方法，RFM模型主要有3个基础指标组成：(1)最近一次消费(Recency),指用户上一次购买时间；(2) 消费频率(Frequency)，指用户在一定时间段内的消费次数；(3) 消费金额(Mone...

2020-05-11 15:34:13 5448

转载数据挖掘150道面试题

单选题1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A)A. 关联规则发现 B. 聚类C. 分类 D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。...

2019-12-23 15:35:11 1767

转载爬虫常见面试题汇总

1.列举您使用过的python网络爬虫所用到的网络数据包（最熟悉的在前）：requests、urllib、urllib2、httplib22.列举您使用过的python网络爬虫所用到的解析数据包（最熟悉的在前）：BeautifulSoup、pyquery、Xpath、lxml3.列举您使用过的python中的编码方式（最熟悉的在前）：UTF-8，ASCII，gbk4.写出...

2019-12-12 17:36:02 2005

翻译常考python Web面试题汇总

(注：资源来源于网络)一、解释一下 WSGI 和 FastCGI 的关系？答：CGI全称是“公共网关接口”(CommonGateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。　CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。FastCGI像是一个常驻(long-l...

2019-12-02 14:51:33 451

原创 python实现二分查找

二分查找也称折半查找（Binary Search），它是一种效率较高的查找方法。但是，折半查找要求线性表必须采用顺序存储结构，而且表中元素按关键字有序排列。查找过程首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表...

2019-12-02 11:41:35 204

翻译最新python面试题汇总(三)

(注：资源来源于网络)接前文：最新python面试题汇总(一)最新python面试题汇总(二)34.补充缺失代码def print_directory_contents(sPath): """ 这个函数接受文件夹的名称作为输入参数，返回该文件夹中文件的路径，以及其包含文件夹中文件的路径。 """ # 补充代码参考解析：...

2019-12-02 11:22:56 210

翻译最新python面试题汇总(二)

接前文：最新python面试题汇总(一)13 Python中重载函数重载主要是为了解决两个问题。1.可变参数类型。2.可变参数个数。另外，一个基本的设计原则是，仅仅当两个函数除了参数类型和参数个数不同以外，其功能是完全相同的，此时才使用函数重载，如果两个函数的功能其实不同，那么不应当使用重载，而应当使用一个名字不同的函数。14 新式类和旧式类这篇文章很好的介绍...

2019-11-29 16:27:40 149

翻译最新python面试题汇总(一)

注：所有答案均为参考，并非标准，无需背诵。资源来源于网络1 Python的函数参数传递看两个如下例子，分析运行结果:代码一：a = 1def fun(a): a = 2fun(a)print(a) # 1代码二：a = []def fun(a): a.append(1)fun(a)print(a) # [1]答案：所有的变量都...

2019-11-29 11:00:00 141

原创 python常见数据处理汇总

再次感慨数据预处理的重要性...............每次都是因为一个小小的问题，花了太多的时间，希望每次遇到新的问题都记录一下方便查阅。工具：jupyter 环境：python3一、读取常见数据直接调用pandas模块，如txt、csv、excel等等。%%timeimport pandas as pddf = pd.read_excel('demo.xlsx',sh...

2019-11-28 17:57:08 688

原创 python3实现Apriori算法

算法思想Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。首先找出所有的频繁项集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。然后使用第1步找到的频繁项集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最...

2019-10-24 10:37:54 2382 1

原创 python图像处理常用code小结(PIL库)

以前上学的时候，用Matlab来处理操作，那个用户体验简直了~，电脑太垃圾，带不动。Matlab确实是一个强大的图像处理工具，不过对于一些简单的图像处理，如图像增强、图像锐化等等，调用python的第三方包PIL(Python Image Library)也可以解决问题，这里把python调用PIL做一些简单的图像处理操作总结下。主要用到PIL库里的三个模块：Image、ImageDraw,I...

2019-10-09 16:03:55 331

原创由人工智能开发人工智能：Auto ML

人工智能的应用将会取代很多工作，如会计、翻译、客服。被置于风险中的不是普通体力工作者，而是一些普通的脑力工作者。当然，程序员也将面临着被人工智能取代的风险，程序员中不是人人都能参加顶级学术会议的大牛，也存在着每天进行着简单脑力劳动的普通人，毕竟不是每个公司都请得起大牛。随着各个大小公司对人工智能需求的上升，人们越来越希望AI可以更加亲民，让普通人也可以开发人工智能产品。由google公司开发的...

2019-10-08 12:01:06 417

原创卷积神经网络要义

什么是卷积(convolutional)？如果脱离出卷积神经网络这个应用背景，单纯从数学层面上看，卷积其实就是一个函数和另一个函数在某个维度上的加权“叠加”。图像识别领域是卷积神经网络大显神威的“圣地”，我们把卷积看成一种有效提取图片特征的方法，一般用一个正方形的卷积核，遍历图片上的每一个像素点，图片与卷积核重合区域内对应的每一个像素值乘卷积核内相对应点的权重，然后求和，再加上偏置项后，最...

2019-09-20 17:49:04 200

原创神经网络的搭建及参数概述

我们知道基于Tensorflow的NN(Neural Network,神经网络)：用张量表示数据，用计算图搭建神经网络，用会话执行计算图，再优化线上的权重(参数),得到模型。大致分为四个步骤：（1）准备数据，提取特征；（2）前向传播，即搭建模型计算过程，定义从输入层到输出层的计算；（3）反向传播，训练模型参数，迭代优化使损失函数降到最小；（4）在测试集或验证集上，评估模型性能，训练好模型...

2019-08-28 17:26:45 696

原创 Tensorflow框架初识

我们常说不要重复的造轮子，要尽可能的利用已有的成熟框架，毕竟站在巨人的肩膀上看世界，将会看的更远看的更多。目前，工业界和学术界已经提供了很多开源的神经网络实现如Caffe、Tensorflow、Keras、PyTorch等等，这些框架的功能非常强大，底层的实现细节框架已经帮我们做好，我们只需要定义自己的需求就行。要说目前最为成熟、社区基础最为雄厚的深度学习框架，非Google出品的tensor...

2019-08-26 10:07:22 590

原创利用Tensorflow实现手写数字识别（附python代码)

手写识别的应用场景有很多，智能手机、掌上电脑的信息工具的普及，手写文字输入，机器识别感应输出；还可以用来识别银行支票，如果准确率不够高，可能会引起严重的后果。当然，手写识别也是机器学习领域的一个Hello World任务，感觉每一个初识神经网络的人，搭建的第一个项目十之八九都是它。我们来尝试搭建下手写识别中最基础的手写数字识别，与手写识别的不同是数字识别只需要识别0-9的数字，样本数据集也只需...

2019-08-22 16:00:22 15907 22

原创利用随机梯度递减解决线性回归问题(附python代码)

数据来源：来自加州大学埃文分校(UCI)机器学习数据库，采用白酒质量数据集合，共有4898条数据，共包含12项评价指标分别为酸度、游离二氧化硫、密度、pH、氯化物、硫酸盐、酒精度含量等，最后一项表示白酒的评级(0-10级)链接：http://archive.ics.uci.edu/ml/datasets/Wine+Quality一、认识数据通过观察数据，有些指标范围在0-1之间，有...

2019-08-12 15:18:49 579

原创 ‘Command "python setup.py egg_info" failed with error code 1’错误解决，pycorrector安装

在安装pycorrector时，遇到一些奇怪的bug，pycorrector安装需要依赖jieba、scipy、scikit-learn、pypinyin、kenlm等第三方库，同时需要Microsoft Visual C++14.0支持，这些都安装完成后，就报了以下错误：Command "python setup.py egg_info" failed with error code 1...

2019-07-10 21:28:04 861

原创 2018年秋招笔试面试---小学渣求职历险记(深圳篇)

前文导读：2018年秋招笔试面试----小学渣求职历险记(中南篇)我从来没有去过深圳，每次都是从男友那里了解到关于深圳的只言片语，说深圳开放，深圳包容，深圳如何如何….反正我内心是不以为然的，眼见为实，我要亲眼去看。刚好就有一个很好的契机，10月15号深圳会展中心将举办2018年第22届全国高校毕业生秋季双选会，650+名企，近20000+岗位，，这不就是为我们这些应届毕业生准备...

2018-11-06 11:06:35 1272 3

原创 2018年秋招笔试面试----小学渣求职历险记(中南篇)

写下这篇文章既是对我近两个月断断续续校招的总结与思考，又希望能给正在找或未来找工作的学弟学妹一点借鉴。看了网上一些大佬的面经全是大厂offer，又觉得自己的这些又有点拿不出手，转念一想，无需攀比，重要的是你经历的这份过程。粗略算了一下，包括面完的，邀请面还没面的，拒绝的杂七杂八大概经历快20家公司,连男票都调侃我，说我是面霸…期间有我喜欢的公司看不上我，看上我的公司我看不上它，还有互相...

2018-11-02 13:48:21 6581 3

原创文本分类概述

好久没有更新博客了.......刚开始开通时激情满满，励志每周都坚持，结果中间停了两个月，好可惜。事情太多，分身乏术,想想还是自己花在学习上的时间变少了，该好好反省一下。最近在看这本书《机器学习实践指南》案例应用解析，第二版，麦好著。从学校图书馆借来的，没有看完，不敢妄议，一些好的概念和代码也从上面借鉴一些。文章分三块，1).文本分类概述 . 2.)余弦相似度概述及分类 3.）相似...

2018-08-14 17:47:27 399

转载 win10安装mongodb教程及其失败解决方案

MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。 MongoDB 下载1.先登录Mongodb官网https://www.mongodb.com/download-center#community ...

2018-06-21 10:28:22 19190 4

原创 java连接oracle数据库

import java.lang.reflect.Method;import java.sql.Blob;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultS...

2018-05-12 21:24:53 270

原创基于python的冒泡排序

'''冒泡排序'''#外循环 len(arr)-1#内循环 len(arr)-i-1#相邻两个元素之间比较import randomarr=[]def genArray(n): for i in range(n): arr.append(random.randint(0,999))genArray(10)def show(arr): for i in ...

2018-04-21 16:55:31 136

原创用python实现选择排序

"""选择排序"""环境：spyder(python3.6)import randomarr=[] #没有定义长度，长度为0#随机生成一个数组def genArray(n): for i in range(n): #0,1,2,3,4.... #arr[i] 要注意下标越界 arr.append(random.randint(0,...

2018-04-07 16:46:51 470

空空如也

空空如也