python小陈-CSDN博客

原创 Flink--TaskManager--Slots关系详解

TaskManager 与SlotsFlink 中每一个人worker( TaskManager)都是一个JVM 进程，它可能会在独立的线程上执行一个或多个subtask。为了控制一个worker 能接收多少个task, worker 通过task slot 来进行控制（一个worker 至少有一个task slot）每个task slot 表是TaskManager 拥有资源的一个固定大小的子集。假如一个TaskManager 有三个slot，那么它会将其管理的内...

2021-09-01 10:36:51 1008

原创 FastAPI+apSheduler动态定时任务

一、apSheduler第一部分内容限于apSheduler3.0以下版本，以上版本可移步至FastAPI+apSheduler动态定时任务https://www.cnblogs.com/zhangliang91/p/11603916.html1. 引子（Introduction）Advanced Python Scheduler (APScheduler) 是一个轻量级但功能强大的进程内任务调度器，允许您调度函数(或任何其他python可调用文件)在您选择的时间执行。2. 特性（Fe.

2020-11-18 10:20:48 5307 1

原创 SQL sum over partition by 的用法

0、select * from wmg_test; ---测试数据1、select v1,v2,sum(v2) over(order byv2) as sum --按照 v2排序，累计n+n-1+....+1from wmg_test;2、select v1,v2,sum(v2) over(partition by v1order byv2) as sum --先分组，组内在进行 1 中的操作from wmg_test;3、sel...

2020-11-17 09:38:10 1332

原创 Kettle8.2连接Oracle数据库失败解决方法

本地oracle：(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 127.0.0.1)(PORT = 1521))(CONNECT_DATA = (SERVER = DEDICATED)(SERVICE_NAME = orcl)))url:kettle7.1连接Oracle数据库正常，但是今天连接另一个版本的Oracle数据库报错网上说是Oracle的ojdbc相关的jar包版本问题，除了换jar包还有个方法可解决：(DESCRIPTION =.

2020-11-07 21:56:45 1739 1

转载 Tableau LOD详细级别表达式入门(include函数、exclude函数、fixed函数)

本文是对include、exclude、fix函数的简单总结，示例使用的是Tableau自带的“超市-示例”数据。include函数include函数的作用是“维度增强”，类似于数据库中常用的 GROUP BY 函数，起到一个分组的作用。include.png首先解释一下表格，第一行是对include函数返回的结果取均值，第二行是直接拖拽对利润取均值，第三行是直接拖拽对利润求和。为方便理解，首先看最简单的第三行，直接把“地区”拖拽到列上，把“利润”拖拽到行上就是第三行的结果。对.

2020-10-30 11:39:25 10831

转载 pycharm开发flask指定ip、端口无效

转载：https://blog.csdn.net/JENREY/article/details/86699817网上看了很多解决方案，但是都解决不了。原因分析是因为使用了pycharm2018版本的问题。并不是flask框架本身的问题（不管你是如何设置的flask配置，通过加载config也好，还是通过run的时候传入形参也好，均不影响）。可以很明显的看出上图的问题，虽然我们制定了参数，但是还是不好使。解决方案：pycharm2018会自动识别出来你的flask项目（即使你创建项目的时候

2020-06-30 15:54:46 284

转载 pip安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) 提高pip 安装速度

转发博客：https://blog.csdn.net/nahanai/article/details/96435128问题：安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProxyError解决：pip ins...

2020-03-06 14:34:46 552

转载 Windows下创建Django项目步骤

第一步创建Python虚拟环境https://blog.csdn.net/smile_mengmeng/article/details/90262753我们在用python开发的时候，随着开发应用的增多，比如这个项目用django开发后台，之后又用scrapy来开发爬虫应用等，如果不用虚拟环境这些软件包都会被放到python的site-package目录下，为了项目整洁最好给每个项目各自创建...

2020-02-26 16:33:32 246

转载 python 字典列表/列表套字典去重重复的字典数据

python 字典列表/列表套字典数据去重第一种：defdeleteDuplicate(li):func=lambdax,y:xifyinxelsex+[y]li=reduce(func,[[],]+li)returnli关于reduce()，请看http://docs.python.org/2/library/f...

2019-12-19 17:42:04 1062

转载 Python3读取、写入、追加写入Excel文件

一、需要用到的库：1.操作xls格式的表格文件：读取：xlrd写入：xlwt修改（追加写入）：xlutils2.操作xlsx格式的表格文件：读取/写入：openpyxl二、实现代码1.操作xls格式的表格文件：# coding=UTF-8import xlrdimport xlwtfrom xlutils.copy import copydef wr...

2019-12-18 11:20:37 307

转载大学四年自学走来，这些私藏的实用工具/学习网站我贡献出来了

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/m0_37907797/article/details/102781027大学四年，看课本是不可能一直看课本的了，对于学习，特别是自学，善于搜索网上的一些资源来辅助，还是非常有必要的，下面我就把这几年私藏的各种资源，网站贡献出来给你们。主...

2019-11-22 15:09:44 222

转载 Oracle12c下载和安装图解

转载：https://blog.csdn.net/u012422919/article/details/81746521下载：1、https://www.oracle.com/technetwork/database/enterprise-edition/downloads/index.html下载oracle 12c，有两个文件，File1和File2；2、下载后解压两个文件，然后将...

2019-11-22 10:44:49 264

转载 Conda install package遇到CondaHTTPError: HTTP 000 Connection Failed问题

2019-09-17 17:37:27 612

转载 windows上安装Anaconda和python

转载自：http://www.cnblogs.com/denny402/p/5121501.html 一提到数字图像处理编程，可能大多数人就会想到matlab，但matlab也有自身的缺点：1、不开源，价格贵2、软件容量大。一般3G以上，高版本甚至达5G以上。3、只能做研究，不易转化成软件。因此，我们这里使用python这个脚本语言来进行数字图像处理。要使用python...

2019-01-21 21:34:52 186

转载分类算法之决策树ID3详解

回顾决策树的基本知识，其构建过程主要有下述三个重要的问题：（1）数据是怎么分裂的（2）如何选择分类的属性（3）什么时候停止分裂从上述三个问题出发，以实际的例子对ID3算法进行阐述。先上问题吧，我们统计了14天的气象数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给...

2018-12-10 10:32:01 554

转载 Vm虚拟机扩展Ubuntu系统磁盘空间

一般我们在安装虚拟机时都会选择默认的20G磁盘空间，但是一旦需要搭建一两个交叉编译环境后，20G的空间就无法满足了，我就是出现了这样的情况，所以也在这里建议大家，如果需要在虚拟机上搭建比较复杂的环境的话，一般给虚拟机50G的内存空间较合适。这里是我的Ubuntu系统下现在的空间大小：一旦达到97%左右，系统会警告磁盘空间不足，在我的台式机上我已经扩展过了，今天扩展我的笔记本上的虚拟机...

2018-11-07 16:49:39 244

转载 Linux下fdisk命令操作磁盘详解--添加、删除、转换分区等

linux下fdisk命令操作磁盘详解--添加、删除、转换分区等fdisk 操作硬盘的命令格式如下：[root@localhost beinan]# fdisk 设备比如我们通过 fdisk -l 得知 /dev/hda 或者 /dev/sda 设备；我们如果想再添加或者删除一些分区，可以用[root@localhost beinan]# fdisk /dev/hda或...

2018-11-07 11:24:20 539

原创 Ubuntu 扩大虚拟机系统磁盘空间

　VMWare 11 版本给虚拟机默认分配20G磁盘，扩展至30G。下面是扩展方法：虚拟机磁盘扩容　　虚拟机保持关闭状态，设置 -> 磁盘 -> 拓展 -> 最大磁盘大小设成 30G系统中使用拓展的空间　　磁盘扩容后系统并不能自动使用，需要将拓展的空间挂载到系统中。　　启动Ubantu，执行命令：$ sudo df -h # 查看磁盘空间占用情况...

2018-11-07 11:22:28 156

原创书单 | 做数据分析不得不看的书有哪些？

学习这种实践性很强的技术，只看书其实是一件信噪比非常低的事情。在 DataCastle 的另一篇文章中，详细给出了一个快速入门数据分析师的学习路径，如果你有兴趣，可以看看：如何快速成为数据分析师当然，读书也有读书的学习方法，推荐的书不多，但保证每一本都值得看，更重要的是，给你一条合理的学习路径，并配合一些另外的学习资源，你能对核心的知识、实践的技巧有更好的理解。（以下推荐的书并非都是必读，也并...

2018-09-04 10:13:24 704

原创谷歌浏览器 Doc 简介--Documents

在网页上，组成页面（或文档）的对象被组织在一个树形结构中。页面的顶级包含在<html>标签中，在其中会找到<head>和<body>标签，而其它标签包含在这两个标签中，依次类推。 javascript将文档树中的每一项都当做对象，可以使用javascript操纵这些对象。用来表示文档中对象的标准模型就称为DOM（Documen...

2018-09-02 14:03:44 1495

转载 ElasticSearch + Canal 开发千万级的实时搜索系统【转】

公司是做社交相关产品的，社交类产品对搜索功能需求要求就比较高，需要根据用户城市、用户ID昵称等进行搜索。项目原先的搜索接口采用SQL查询的方式实现，数据库表采用了按城市分表的方式。但随着业务的发展，搜索接口调用频次越来越高，搜索接口压力越来越大，搜索数据库经常崩溃，从而导致搜索功能经常不能使用。从上面的系统架构图可以看出，当用户修改资料时，接口会修改用户库信息，接着触发器会将改变的用户...

2018-08-26 09:15:50 432

转载 [Elasticsearch] Elasticsearch权威指南翻译目录

为了方便大家能够更加快速地找到自己需要参考的那部分，对已经翻译完成的部分根据权威指南的目录做了相应目录，希望能够有所帮助。起步(Getting Started)1. 你懂的，为了搜索英文原文链接：You Know, for Search2. 集群中的生活译文链接： [Elasticsearch] 集群的工作原理 - 第一部分 [Elasticsearch] 集群的工作原理 - ...

2018-08-26 09:08:30 201

转载 [Elasticsearch] 集群的工作原理 - 第一部分

ES就是为高可用和可扩展而生的。扩展可以通过购置性能更强的服务器（垂直扩展或者向上扩展，Vertical Scale / Scaling Up），亦或是通过购置更多的服务器（水平扩展或者向外）扩展，水平缩放/缩小）来完成。尽管ES能够利用更强劲的硬件，垂直扩展毕竟还是有它的极限。真正的可扩展性来自于水平扩展 - 通过向集群中添加更多的节点来分布负载，增加可靠性。在大多数数据库中，水平扩展通...

2018-08-26 09:07:09 367

原创 ElasticSearch 学习记录之分布式文档存储往ES中存数据和取数据的原理

分布式文档存储ES分布式特性屏蔽了分布式系统的复杂性集群内的原理垂直扩容和水平扩容真正的扩容能力是来自于水平扩容–为集群添加更多的节点，并且将负载压力和稳定性分散到这些节点中 ES集群特点一个集群拥有相同的cluster.name 配置的节点组成，它们共同承担数据和负载的压力主节点负责管理集群的变更例如增加、删除索引，或者增加、删除节点等。而主节点并不需要...

2018-08-26 09:00:50 778

原创爬虫Scrapy框架的setting.py文件详解

# -*- coding: utf-8 -*- # Scrapy settings for demo1 project # # For simplicity, this file contains only settings considered important or # commonly used. You can find mor...

2018-08-23 15:56:36 2564

原创垂直型爬虫架构设计

（一）1.爬虫的分类：对于我来说，爬虫分为两类：需要载入配置文件的爬虫与不需要载入配置文件的爬虫。其实也就是人们常说的垂直型爬虫跟宽度（深度）遍历爬虫。 2.爬虫的架构： 1.宽度遍历爬虫。做过SEO的朋友大概都知道，如果一个网站需要百度能够尽快的抓取，那么仅仅优...

2018-08-23 15:17:42 900

转载在Excel中使用SQL语句查询和筛选

本文转自：http://blog.sina.com.cn/s/blog_5fc375650102e1g5.html今天在微博上看到@数据分析精选分享的一篇文章，是关于《在Excel中使用SQL语句实现精确查询》，觉得非常受用，分享给大家。微博上有人回复评论说直接用vlookup、或者导入数据库进行查询处理就好了，岂不是更高效、更灵活；其实给人的第一直观感觉是这样子的，但是我们多想一步，这...

2018-08-22 10:34:08 32883

转载数据分析与处理 -- Leveldb 实现原理

LevelDb日知录之一：LevelDb 101　　说起LevelDb也许您不清楚，但是如果作为IT工程师，不知道下面两位大神级别的工程师，那您的领导估计会Hold不住了：Jeff Dean和Sanjay Ghemawat。这两位是Google公司重量级的工程师，为数甚少的Google Fellow之二。　　Jeff Dean其人：http://research.google.com/pe...

2018-08-22 10:30:21 208

原创 Python数据分析----Python3操作Excel-以豆瓣图书Top250为例

本文利用Python3爬虫抓取豆瓣图书Top250，并利用xlwt模块将其存储至excel文件，图片下载到相应目录。旨在进行更多的爬虫实践练习以及模块学习。工具1.Python 3.52.BeautifulSoup、xlwt模块开始动手首先查看目标网页的url： https://book.douban.com/top250?start=0，然后我尝试了在代码里直接通过字符串连...

2018-08-21 14:49:30 510

原创数据分析之numpy模块学习

Python模块中的numpy，这是一个处理数组的强大模块，而该模块也是其他数据分析模块（如pandas和scipy）的核心。接下面将从这5个方面来介绍numpy模块的内容：1）数组的创建2）有关数组的属性和函数3）数组元素的获取--普通索引、切片、布尔索引和花式索引4）统计函数与线性代数运算5）随机数的生成数组的创建numpy中使用array()函数创建数组...

2018-08-21 14:47:54 239

转载数据分析/数据挖掘入门级选手建议

1.数据分析和数据挖掘联系和区别联系：都是搞数据的区别：数据分析偏统计，可视化，出报表和报告，需要较强的表达能力。数据挖掘偏算法，重模型，需要很深的代码功底，要码代码，很多= =。 2.怎么入门请百度“如何成为一名数据分析师”或者“如何成为一名数据挖掘工程师”。英文好上Quora，不行上知乎，看看入门资料。 3.选哪些书看入门资料给你提供的书，有电子版下电子版，没电...

2018-08-21 14:45:52 292

转载数据分析师最常用的10个机器学习算法

在机器学习领域，有种说法叫做“世上没有免费的午餐”，简而言之，它是指没有任何一种算法能在每个问题上都能有最好的效果，这个理论在监督学习方面体现得尤为重要。举个例子来说，你不能说神经网络永远比决策树好，反之亦然。模型运行被许多因素左右，例如数据集的大小和结构。因此，你应该根据你的问题尝试许多不同的算法，同时使用数据测试集来评估性能并选出最优项。当然，你尝试的算法必须和你...

2018-08-21 11:49:54 24206 2

原创 pandas--总结篇

pandas是本书后续内容的首选库。pandas可以满足以下需求：具备按轴自动或显式数据对齐功能的数据结构。这可以防止许多由于数据未对齐以及来自不同数据源（索引方式不同）的数据而导致的常见错误。. 集成时间序列功能既能处理时间序列数据也能处理非时间序列数据的数据结构数学运算和简约（比如对某个轴求和）可以根据不同的元数据（轴编号）执行灵活处理缺失...

2018-08-21 11:33:42 1529

转载几张图帮你理解 docker 基本原理及快速入门

几张图帮你理解 docker 基本原理及快速入门写的非常好的一篇文章，不知道为什么被删除了。利用Google快照，做个存档。快照地址：地址作者地址:青牛什么是dockerDocker 是一个开源项目，诞生于 2013 年初，最初是 dotCloud 公司内部的一个业余项目。它基于 Google 公司推出的 Go 语言实现。项目后来加入了 Linux 基金会，遵从了 Apa...

2018-08-21 11:05:30 290

转载 Docker学习笔记

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。官网：https://www.docker.com/相关资料：1、Docker入门教程 http://dockone.io/article/1112、Docker_百度百科 http:...

2018-08-21 11:02:54 1186

原创数据分析---pandas库

一、生成数据表 1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd 2、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name....

2018-08-21 10:58:37 142

原创随机获取代理 ip

import requestsimport random# 请求API，并解析json成dictionaryproxy_result = requests.get("http://127.0.0.1:8080").json()# print(proxy_result)# num = proxy_result['num']# updatetime = proxy_result['upda...

2018-08-07 20:06:57 1335

转载构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序，并提供开放的实时API服务:proxypool-open-WebAPI 欢迎Star／Fork使用本项目采用python3进行开发，建议使用virtualenv# 下载源码git clone https://github.com/SimpleBrightMan/proxypool.gitcd prox...

2018-08-07 19:06:25 433

转载 python爬虫之PyQuery的基本使用

python爬虫之PyQuery的基本使用PyQuery库也是一个非常强大又灵活的网页解析库，如果你有前端开发经验的，都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择，PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同，所以不用再去费心去记一些奇怪的方法了。官网地址：http://pyquery.readthedocs.io/...

2018-08-07 10:50:05 224

原创 Scrapy框架--Requests对象

Scrapy框架--Requests对象 Scrapy使用request对象来爬取web站点。 request对象由spiders对象产生，经由Scheduler传送到Downloader,Downloader执行request并返回response给spiders。 Scrapy架构： 1、Request objectsclass scrapy.http.R...

2018-08-02 23:33:25 2434

空空如也

空空如也