自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

灰寨小学的python---小陈

人生苦短 我用python

  • 博客(209)
  • 收藏
  • 关注

原创 Flink--TaskManager--Slots关系详解

TaskManager 与SlotsFlink 中每一个人worker( TaskManager)都是一个JVM 进程,它可能会在独立的线程上执行一个或多个subtask。为了控制一个worker 能接收多少个task, worker 通过task slot 来进行控制(一个worker 至少有一个task slot)每个task slot 表是TaskManager 拥有资源的一个固定大小的子集。假如一个TaskManager 有三个slot, 那么它会将其管理的内...

2021-09-01 10:36:51 1008

原创 FastAPI+apSheduler动态定时任务

一、apSheduler第一部分内容限于apSheduler3.0以下版本,以上版本可移步至FastAPI+apSheduler动态定时任务https://www.cnblogs.com/zhangliang91/p/11603916.html1. 引子(Introduction)Advanced Python Scheduler (APScheduler) 是一个轻量级但功能强大的进程内任务调度器,允许您调度函数(或任何其他python可调用文件)在您选择的时间执行。2. 特性(Fe.

2020-11-18 10:20:48 5307 1

原创 SQL sum over partition by 的用法

0、select * from wmg_test; ---测试数据1、select v1,v2,sum(v2) over(order byv2) as sum --按照 v2排序,累计n+n-1+....+1from wmg_test;2、select v1,v2,sum(v2) over(partition by v1order byv2) as sum --先分组,组内在进行 1 中的操作from wmg_test;3、sel...

2020-11-17 09:38:10 1332

原创 Kettle8.2连接Oracle数据库失败解决方法

本地oracle:(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 127.0.0.1)(PORT = 1521))(CONNECT_DATA = (SERVER = DEDICATED)(SERVICE_NAME = orcl)))url:kettle7.1连接Oracle数据库正常,但是今天连接另一个版本的Oracle数据库报错网上说是Oracle的ojdbc相关的jar包版本问题,除了换jar包还有个方法可解决:(DESCRIPTION =.

2020-11-07 21:56:45 1739 1

转载 Tableau LOD详细级别表达式入门(include函数、exclude函数、fixed函数)

本文是对include、exclude、fix函数的简单总结,示例使用的是Tableau自带的“超市-示例”数据。include函数include函数的作用是“维度增强”,类似于数据库中常用的 GROUP BY 函数,起到一个分组的作用。include.png首先解释一下表格,第一行是对include函数返回的结果取均值,第二行是直接拖拽对利润取均值,第三行是直接拖拽对利润求和。为方便理解,首先看最简单的第三行,直接把“地区”拖拽到列上,把“利润”拖拽到行上就是第三行的结果。对.

2020-10-30 11:39:25 10831

转载 pycharm开发flask指定ip、端口无效

转载:https://blog.csdn.net/JENREY/article/details/86699817网上看了很多解决方案,但是都解决不了。原因分析是因为使用了pycharm2018版本的问题。并不是flask框架本身的问题(不管你是如何设置的flask配置,通过加载config也好,还是通过run的时候传入形参也好,均不影响)。可以很明显的看出上图的问题,虽然我们制定了参数,但是还是不好使。解决方案:pycharm2018会自动识别出来你的flask项目(即使你创建项目的时候

2020-06-30 15:54:46 284

转载 pip安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) 提高pip 安装速度

转发博客:https://blog.csdn.net/nahanai/article/details/96435128问题:安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProxyError解决:pip ins...

2020-03-06 14:34:46 552

转载 Windows下创建Django项目步骤

第一步创建Python虚拟环境https://blog.csdn.net/smile_mengmeng/article/details/90262753我们在用python开发的时候,随着开发应用的增多,比如这个项目用django开发后台,之后又用scrapy来开发爬虫应用等,如果不用虚拟环境这些软件包都会被放到python的site-package目录下,为了项目整洁最好给每个项目各自创建...

2020-02-26 16:33:32 246

转载 python 字典列表/列表套字典 去重重复的字典数据

python 字典列表/列表套字典 数据去重第一种:defdeleteDuplicate(li):func=lambdax,y:xifyinxelsex+[y]li=reduce(func,[[],]+li)returnli关于reduce(),请看http://docs.python.org/2/library/f...

2019-12-19 17:42:04 1062

转载 Python3读取、写入、追加写入Excel文件

一、需要用到的库:1.操作xls格式的表格文件:读取:xlrd写入:xlwt修改(追加写入):xlutils2.操作xlsx格式的表格文件:读取/写入:openpyxl二、实现代码1.操作xls格式的表格文件:# coding=UTF-8import xlrdimport xlwtfrom xlutils.copy import copydef wr...

2019-12-18 11:20:37 307

转载 大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/m0_37907797/article/details/102781027大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主...

2019-11-22 15:09:44 222

转载 Oracle12c下载和安装图解

转载:https://blog.csdn.net/u012422919/article/details/81746521下载:1、https://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html下载oracle 12c,有两个文件,File1和File2;2、下载后解压两个文件,然后将...

2019-11-22 10:44:49 264

转载 Conda install package遇到CondaHTTPError: HTTP 000 Connection Failed问题

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/xiangcheng001/article/details/90022419新安装的anaconda,在使用conda install时候会遇到错误信息:SSLError(MaxRetryError('HTTPSConnectionP...

2019-09-17 17:37:27 612

转载 windows上安装Anaconda和python

转载自:http://www.cnblogs.com/denny402/p/5121501.html 一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点:1、不开源,价格贵2、软件容量大。一般3G以上,高版本甚至达5G以上。3、只能做研究,不易转化成软件。因此,我们这里使用python这个脚本语言来进行数字图像处理。要使用python...

2019-01-21 21:34:52 186

转载 分类算法之决策树ID3详解

回顾决策树的基本知识,其构建过程主要有下述三个重要的问题:     (1)数据是怎么分裂的     (2)如何选择分类的属性     (3)什么时候停止分裂     从上述三个问题出发,以实际的例子对ID3算法进行阐述。先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给...

2018-12-10 10:32:01 554

转载 Vm虚拟机扩展Ubuntu系统磁盘空间

一般我们在安装虚拟机时都会选择默认的20G磁盘空间,但是一旦需要搭建一两个交叉编译环境后,20G的空间就无法满足了,我就是出现了这样的情况,所以也在这里建议大家,如果需要在虚拟机上搭建比较复杂的环境的话,一般给虚拟机50G的内存空间较合适。这里是我的Ubuntu系统下现在的空间大小: 一旦达到97%左右,系统会警告磁盘空间不足,在我的台式机上我已经扩展过了,今天扩展我的笔记本上的虚拟机...

2018-11-07 16:49:39 244

转载 Linux下fdisk命令操作磁盘详解--添加、删除、转换分区等

linux下fdisk命令操作磁盘详解--添加、删除、转换分区等fdisk 操作硬盘的命令格式如下:[root@localhost beinan]# fdisk 设备比如我们通过 fdisk -l 得知 /dev/hda 或者 /dev/sda 设备;我们如果想再添加或者删除一些分区,可以用[root@localhost beinan]# fdisk /dev/hda或...

2018-11-07 11:24:20 539

原创 Ubuntu 扩大虚拟机系统磁盘空间

 VMWare 11 版本给虚拟机默认分配20G磁盘,扩展至30G。下面是扩展方法:虚拟机磁盘扩容  虚拟机保持关闭状态,设置 -> 磁盘 -> 拓展 -> 最大磁盘大小  设成 30G系统中使用拓展的空间  磁盘扩容后系统并不能自动使用,需要将拓展的空间挂载到系统中。  启动Ubantu, 执行命令:$ sudo df -h # 查看磁盘空间占用情况...

2018-11-07 11:22:28 156

原创 书单 | 做数据分析不得不看的书有哪些?

学习这种实践性很强的技术,只看书其实是一件信噪比非常低的事情。在 DataCastle 的另一篇文章中,详细给出了一个快速入门数据分析师的学习路径,如果你有兴趣,可以看看:如何快速成为数据分析师当然,读书也有读书的学习方法,推荐的书不多,但保证每一本都值得看,更重要的是,给你一条合理的学习路径,并配合一些另外的学习资源,你能对核心的知识、实践的技巧有更好的理解。(以下推荐的书并非都是必读,也并...

2018-09-04 10:13:24 704

原创 谷歌浏览器 Doc 简介--Documents

在网页上,组成页面(或文档)的对象被组织在一个树形结构中。       页面的顶级包含在<html>标签中,在其中会找到<head>和<body>标签,而其它标签包含在这两个标签中,依次类推。       javascript将文档树中的每一项都当做对象,可以使用javascript操纵这些对象。用来表示文档中对象的标准模型就称为DOM(Documen...

2018-09-02 14:03:44 1495

转载 ElasticSearch + Canal 开发千万级的实时搜索系统【转】

公司是做社交相关产品的,社交类产品对搜索功能需求要求就比较高,需要根据用户城市、用户ID昵称等进行搜索。项目原先的搜索接口采用SQL查询的方式实现,数据库表采用了按城市分表的方式。但随着业务的发展,搜索接口调用频次越来越高,搜索接口压力越来越大,搜索数据库经常崩溃,从而导致搜索功能经常不能使用。从上面的系统架构图可以看出,当用户修改资料时,接口会修改用户库信息,接着触发器会将改变的用户...

2018-08-26 09:15:50 432

转载 [Elasticsearch] Elasticsearch权威指南翻译目录

为了方便大家能够更加快速地找到自己需要参考的那部分,对已经翻译完成的部分根据权威指南的目录做了相应目录,希望能够有所帮助。起步(Getting Started)1. 你懂的,为了搜索英文原文链接:You Know, for Search2. 集群中的生活译文链接: [Elasticsearch] 集群的工作原理 - 第一部分 [Elasticsearch] 集群的工作原理 - ...

2018-08-26 09:08:30 201

转载 [Elasticsearch] 集群的工作原理 - 第一部分

ES就是为高可用和可扩展而生的。扩展可以通过购置性能更强的服务器(垂直扩展或者向上扩展,Vertical Scale / Scaling Up),亦或是通过购置更多的服务器(水平扩展或者向外)扩展,水平缩放/缩小)来完成。尽管ES能够利用更强劲的硬件,垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展 - 通过向集群中添加更多的节点来分布负载,增加可靠性。在大多数数据库中,水平扩展通...

2018-08-26 09:07:09 367

原创 ElasticSearch 学习记录之 分布式文档存储往ES中存数据和取数据的原理

分布式文档存储ES分布式特性屏蔽了分布式系统的复杂性 集群内的原理 垂直扩容和水平扩容 真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点一个集群拥有相同的cluster.name 配置的节点组成, 它们共同承担数据和负载的压力 主节点负责管理集群的变更例如增加、删除索引,或者增加、删除节点等。 而主节点并不需要...

2018-08-26 09:00:50 778

原创 爬虫Scrapy框架的setting.py文件详解

  # -*- coding: utf-8 -*-   # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find mor...

2018-08-23 15:56:36 2564

原创 垂直型爬虫架构设计

(一)1.爬虫的分类:        对于我来说,爬虫分为两类:            需要载入配置文件的爬虫与不需要载入配置文件的爬虫。            其实也就是人们常说的垂直型爬虫跟宽度(深度)遍历爬虫。    2.爬虫的架构:        1.宽度遍历爬虫。            做过SEO的朋友大概都知道,如果一个网站需要百度能够尽快的抓取,那么仅仅优...

2018-08-23 15:17:42 900

转载 在Excel中使用SQL语句查询和筛选

本文转自:http://blog.sina.com.cn/s/blog_5fc375650102e1g5.html今天在微博上看到@数据分析精选 分享的一篇文章,是关于《在Excel中使用SQL语句实现精确查询》,觉得非常受用,分享给大家。微博上有人回复评论说直接用vlookup、或者导入数据库进行查询处理就好了,岂不是更高效、更灵活;其实给人的第一直观感觉是这样子的,但是我们多想一步,这...

2018-08-22 10:34:08 32883

转载 数据分析与处理 -- Leveldb 实现原理

LevelDb日知录之一:LevelDb 101  说起LevelDb也许您不清楚,但是如果作为IT工程师,不知道下面两位大神级别的工程师,那您的领导估计会Hold不住了:Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师,为数甚少的Google Fellow之二。  Jeff Dean其人:http://research.google.com/pe...

2018-08-22 10:30:21 208

原创 Python数据分析----Python3操作Excel-以豆瓣图书Top250为例

本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录。旨在进行更多的爬虫实践练习以及模块学习。工具1.Python 3.52.BeautifulSoup、xlwt模块开始动手首先查看目标网页的url: https://book.douban.com/top250?start=0, 然后我尝试了在代码里直接通过字符串连...

2018-08-21 14:49:30 510

原创 数据分析之numpy模块学习

Python模块中的numpy,这是一个处理数组的强大模块,而该模块也是其他数据分析模块(如pandas和scipy)的核心。接下面将从这5个方面来介绍numpy模块的内容:1)数组的创建2)有关数组的属性和函数3)数组元素的获取--普通索引、切片、布尔索引和花式索引4)统计函数与线性代数运算5)随机数的生成 数组的创建numpy中使用array()函数创建数组...

2018-08-21 14:47:54 239

转载 数据分析/数据挖掘 入门级选手建议

1.数据分析和数据挖掘联系和区别联系:都是搞数据的区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力。数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多= =。 2.怎么入门请百度“如何成为一名数据分析师”或者“如何成为一名数据挖掘工程师”。英文好上Quora,不行上知乎,看看入门资料。 3.选哪些书看入门资料给你提供的书,有电子版下电子版,没电...

2018-08-21 14:45:52 292

转载 数据分析师最常用的10个机器学习算法

在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。 因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。 当然,你尝试的算法必须和你...

2018-08-21 11:49:54 24206 2

原创 pandas--总结篇

pandas是本书后续内容的首选库。pandas可以满足以下需求: 具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源(索引方式不同)的数据而导致的常见错误。. 集成时间序列功能 既能处理时间序列数据也能处理非时间序列数据的数据结构 数学运算和简约(比如对某个轴求和)可以根据不同的元数据(轴编号)执行 灵活处理缺失...

2018-08-21 11:33:42 1529

转载 几张图帮你理解 docker 基本原理及快速入门

几张图帮你理解 docker 基本原理及快速入门写的非常好的一篇文章,不知道为什么被删除了。  利用Google快照,做个存档。快照地址:地址作者地址:青牛什么是dockerDocker 是一个开源项目,诞生于 2013 年初,最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。 项目后来加入了 Linux 基金会,遵从了 Apa...

2018-08-21 11:05:30 290

转载 Docker学习笔记

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。官网:https://www.docker.com/相关资料:1、Docker入门教程 http://dockone.io/article/1112、Docker_百度百科 http:...

2018-08-21 11:02:54 1186

原创 数据分析---pandas库

一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd 2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name....

2018-08-21 10:58:37 142

原创 随机获取代理 ip

import requestsimport random# 请求API,并解析json成dictionaryproxy_result = requests.get("http://127.0.0.1:8080").json()# print(proxy_result)# num = proxy_result['num']# updatetime = proxy_result['upda...

2018-08-07 20:06:57 1335

转载 构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI 欢迎Star/Fork使用本项目采用python3进行开发,建议使用virtualenv# 下载源码git clone https://github.com/SimpleBrightMan/proxypool.gitcd prox...

2018-08-07 19:06:25 433

转载 python爬虫之PyQuery的基本使用

python爬虫之PyQuery的基本使用PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/...

2018-08-07 10:50:05 224

原创 Scrapy框架--Requests对象

 Scrapy框架--Requests对象  Scrapy使用request对象来爬取web站点。  request对象由spiders对象产生,经由Scheduler传送到Downloader,Downloader执行request并返回response给spiders。  Scrapy架构:  1、Request objectsclass scrapy.http.R...

2018-08-02 23:33:25 2434

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除