自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 Python-pythonic积累

1连接含有空值字符串,去空words_list = "".join([i for i in strings if i != ' '])

2019-07-27 09:37:26 204

原创 MySQL-常用函数

MySQL-rand()函数MySQL-round()函数MySQL-locate()函数MySQL-group_concat_max_len

2019-07-20 19:22:22 389

原创 Restarting network (via systemctl):  Job for network.service failed. See ‘systemctl status network.s

Centos7 重启网络报错Restarting network (via systemctl): Job for network.service failed. See ‘systemctl status network.service’ and ‘journalctl -xn’ for details.执行上面命令遇到XXXXXXFailed to start LSB: Bring up/down networkingXXXXXX尝试了修改配置文件/etc/sysconfig/netwo

2020-06-30 21:42:40 1829

原创 ML - 特征工程

1.数据预处理1.1结构化数据1.1.1缺失值处理1.1.1.1直接删除如果数据不重要且缺失值不多1.1.1.2补齐如果数据重要且缺失值不多,想办法搞来1.1.1.3统计值填充统计值一般泛指平均值、中位数、众数、最大值、最小值等,具体使用哪一种统计值要根据具体问题具体分析。比如,填工龄,对年龄分箱求平均值填充1.1.1.4不处理缺失值自成一类1.1.1.5向前向后填充1.1.1.6插值法填充1.多项式插值2.lagrange插值1.1.1.7预测值填充1.1.2离群点处理

2020-05-25 22:10:45 328 1

原创 DL - BERT

transformer传统RNN:RNN需要用到之前的中间结果,不能并行加速训练Attention机制,不同词重要性不一样,Self-Attenion机制,进行并行计算传统word2vec用词向量表达文本特征存在缺陷:向量训练好就不变了不同词在不同的语境下表达的含义不同,比如说:东北话 干哈呢?,在南方人听起来可能是,你在问我做什么,但东北人的意思却是走啊,出去喝点。BERT解决...

2020-04-15 14:15:05 250

原创 Hadoop - 笔试积累

1.HDFS默认将文件块复制成三份存放(对于HDFS来说,丢失一个DataNode意味着丢失了存储在它的硬盘上的数据块的副本。假如在任意时间总有超过一个副本存在(默认3个),故障将不会导致数据丢失。当一个硬盘故障时,HDFS会检测到存储在该硬盘的数据块的副本数量低于要求,然后主动创建需要的副本,以达到满副本数状态。)2.有实时计算能力的组件StormFlinkSpark Streami...

2020-03-31 15:17:51 179

原创 ML- 生成式模型和判别式模型

定义监督学习方法可以分为两类,生成方法(generative approach)和判别方法(discriminative approach),所对应学习到的模型被称为生成式模型(generative model)和判别式模型(discriminative model)生成式模型这种模型表示了给定输入X产生输出Y的生成关系。因为有监督学习可以视作一个条件概率分布,说白了就是求在知道特征X的...

2020-03-18 20:14:21 224

原创 Python - Conda管理虚拟环境

1.利用conda创建一个tensorflow的开发环境# 创建conda create -n tf2 python=3.6# 激活conda activate tf2# 退出conda deactivate # 删除conda remove -n tf2 --all2.使用配置文件建立environment.yml文件,写入name: mxnetdependencies...

2020-03-18 13:53:16 186

原创 Algorithms -sort

1.选择排序从数组中选择最小元素,将它与数组的第一个元素交换位置。再从数组剩下的元素中选择出最小的元素,将它与数组的第二个元素交换位置。不断进行这样的操作,直到将整个数组排序。选择排序需要 ~N2/2 次比较和 ~N 次交换,它的运行时间与输入无关,这个特点使得它对一个已经排序的数组也需要这么多的比较和交换操作。def selection_sort(collection): n =...

2020-03-12 12:13:12 117

原创 概率统计 - 有趣的概率题

1.问题:x+y+z+m=10,其中x,y,z,m都是正整数,那么x,y,z,m有多少种不同的取值组合?答案:84解析:思路一:挡板问题求解。十个小球,每个小球代表1,通过3个挡板将其分成四份。9个空位,选3个空位,插入挡板C93=84C_{9}^{3} = 84C93​=842问题:一个盒子中有三个大小相同的球,这三个球可能是红和蓝两种颜色,并且一个球是红的还是蓝的是等可能...

2020-03-11 21:09:38 2082 2

原创 ML - Ensemble Learning

集成学习团结就是力量。集成学习可以将多个学习器进行结合,达到更好的泛化性能。多个学习器可以为同一类学习器,比如都是决策树。也可以包含不同类型的个体学习器,比如同时包含决策树和神经网络。分类一类是:个体学习器间存在强依赖关系、必须串行生成的序列化方法,代表:Boosting另一类:个体学习器间不存在强依赖关系,可以同时生成的并行化方法,代表:Bagging,Random ForestB...

2020-03-11 16:44:38 328

原创 ML - Apriori

Association Rule关联规则:项目集之间的蕴含表达式,形如X -> Y,其中X,Y是不相交项集。关联规则的强度可以用它的支持度和置信度来度量项目集Itemset: 一系列的items,对项集X的支持度计数表示为,支持度Support: 事务中包含项目集的频率**置信度Confidence:**衡量在事务中的Y项目集中X出现的频率Association rule ...

2020-03-11 14:40:54 180

原创 ML - DBSCAN

密度聚类:desity-based clustering此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本的密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。DBSCAN是著名的密度聚类算法。它常常用于异常检测,他的注意力放在离群点上,所以,当遇到无监督的检测任务时,他是首选。一些概念DBSCAN: 基于一组邻域(nei...

2020-03-11 11:53:21 294

原创 ML - Decision Tree

决策树是一类常见的机器学习方法,决策过程的最终结论对应了我们希望的判定结果。而决策树学习的关键是选择最优化分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。为了度量纯度,我们引入了几个概念,先从信息熵讲起信息熵熵是指问题内部混乱程度,熵值越高,混乱程度越高,纯度越小。信息熵:是度量样本集合纯度最常用的一种指标,假定当前样...

2020-03-11 10:52:02 327

原创 ML - 解决欠拟合和过拟合

模型欠拟合:在训练集以及测试集上同时具有较高的误差,此时模型的偏差较大;模型过拟合:在训练集上具有较低的误差,在测试集上具有较高的误差,此时模型的方差较大。如何解决欠拟合:添加其他特征项。组合、泛化、相关性、上下文特征、平台特征等特征是特征添加的重要手段,有时候特征项不够会导致模型欠拟合。添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。例如,FM(Factorizat...

2020-03-11 09:25:07 293

原创 ML- 范数与正则化惩罚

范数L1范数L1范数是我们经常见到的一种范数,它的定义如下:表示向量x中非零元素的绝对值之和。L1范数有很多的名字,例如我们熟悉的曼哈顿距离、最小绝对误差等。使用L1范数可以度量两个向量间的差异,如绝对误差和(Sum of Absolute Difference)由于L1范数的天然性质,对L1优化的解是一个稀疏解,因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏,去掉一些没...

2020-03-10 22:06:33 449

原创 ML - 数据标准化与模型评估

数据特征决定模型结果的上限,而模型的优化不过是在逼近这个上限如果某一列数值特别大,模型可能会不精确,比如误认为这一列数据特别重要。特征标准化特征标准化就是希望数据在处理后,每个特征的数值在同一范围内浮动常用标准化方法,原始数据-原始数据均值,再除以原始数据标准差。首先,减去均值,数据就以原点为中心对称了。将与均值的差与标准差做比,就是让数据压缩到较小的空间中。模型评估交叉验证把...

2020-03-10 21:51:47 512

原创 ML - 数据样本分布不均:过采样、欠采样、阈值移动

逻辑回归做二分类任务有个基本假设,那就是不同类别额训练样本数目相当。如果差别很大,训练出来的学习器将没有价值。毕竟只要输出占比多的结果,正确率就不会太低。再缩放用m+表示正例数目,m-表示负例数目,则观测几率是m+/m-在“训练集是真实样本总体的无偏采样”的前提下,观测j几率可以代表真实几率所以进行rescaling通常采用的是,直接基于原始训练集进行学习,在预测前,把该式嵌入到决策过...

2020-03-10 21:08:27 1482

原创 ML - LR

引入线性回归可以得到预测值,但这无法用于分类,如果能把预测到的结果转为概率正则可判断。那如何转为概率呢?Sigmoid函数这里自变量可以为任意实数,而输出可以以0.5为阈值进行正负例类别划分。你也可以以别的值为阈值,记住要从实际业务的角度出发来选择模型对数几率回归将线性回归的式子带入,就可以得到logistic function(亦译作逻辑回归)的假设函数假如样本数据的标签y有两...

2020-03-10 20:48:50 204

原创 ML - 时间序列ARIMA

平稳性平稳性要求经由样本时间序列所拟合的曲线,在未来的一段期间内仍能顺着现有的形态“惯性”地 延续下去。平稳性要求序列的均值和方差不发生明显的变化。严平稳分布不随时间的改变而改变,例如,白噪声(标准正太分布期望为0,方差为1)弱平稳弱平稳是通常见到的,它期望和相关系数的依赖性不发生改变。因为未来时刻的值需要过去的信息。差分如果时间序列不平稳,可以通过差分的方式使其变得的平稳。差分就...

2020-03-10 15:25:48 793

原创 Error - 使用statsmodels报错ModuleNotFoundError: No module named 'pandas.tseries.tools'

pandas好像在某次更新后就不这么使用tools。问题在statsmodel还是老版本pip install statsmodels --upgrade然后更新太慢read time out 了使用豆瓣镜像源,爽歪歪pip install statsmodels --upgrade -i https://pypi.douban.com/simple/...

2020-03-10 10:36:37 4847 2

原创 Selenium -

1.登录豆瓣from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.chrome.options import Optionsdef login_douba...

2020-03-08 18:03:19 176

原创 PyEcharts -

PyEchart官方文档Echart例子echart的主题构建工具可以好好参考1.画不出图检查数据是numpy.int64一类的数据格式,转为python自带的int或float就可以了。# 需要转换格式 numpy.int64在pychart中画不出图v_hour = [list(z) for z in zip(S_hour.index,[int(x) for x in S_hour...

2020-03-08 17:57:41 353

原创 Pandas - I/O read_csv() to_csv()等

1.read_csv()设置读取文件列名默认用第零行做列名。header默认为第0行。可以选择为None,这样用0,1整数做列名。设置为10,则前十行都舍弃,以第十一行为列名# 以第10行为列名(从0计行数)bao = pd.read_csv('sym_yang.csv', header=10)自行传入列名,用names=[[’’,’’,’’]]pd.read_csv('sym...

2020-03-08 16:46:03 183

原创 ML - SVM

SVM提出问题分类学习最基本的想法就是基于训练集D在样本空间找到一个超平面,将不同类别的样本分开。但是划分超平面的可能性有很多,该如何寻找?划分超平面的线性方程描述:wTx+b=0w^Tx + b = 0wTx+b=0在二维空间,这个discriminant是line,3-D: plane, m-D: hyperplane.我们要找的就是Maximum margin,这个最大间隔可以这...

2020-03-03 17:39:26 287 1

原创 Pandas - 常用操作

1.独热编码pd.get_dummies(raw[‘combined_shot_type’], prefix=‘combined_shot_type’)

2020-03-01 21:28:13 217

原创 Matplolib-颜色大全

List of named colors

2020-02-29 17:01:40 257

原创 Python-处理字典

1.对字典按值排序得到元组列表dup_name = sorted(dup_name.items(),key=lambda x:x[1],reverse=True)dup_name[('周鑫', 3), ('吴昊', 3), ('陈锋', 3), ('张博', 3), ('张一帆', 3), ('李志鹏', 3)]...

2020-02-12 20:31:01 179

原创 Pandas - 操作DataFrame

1.DataFrame两列相除,分母为零处理方法# 直接相除,分母不可为零df['dead_rate'] = df['dead_count']/df['confirmed_count']# 分母为零返回0df_city['dead_rate'] = df_city.apply(lambda x: x['dead_count'] / x['confirmed_count'] if x['c...

2020-02-12 20:28:42 2433

原创 Python-处理字符串

1.字符串表达式eval()dic = {'a':1,'b':2}s = str(dic)type(eval(s))dict

2020-02-12 19:51:32 220

原创 部署-Sanic+Gunicorn+Nginx+阿里云Ubantu服务器

背景sanic项目阿里云Ubantu服务器Gunicorn+Nginx部署Python准备1.安装python3.6sudo apt-get updatesudo apt-get install software-properties-commonsudo add-apt-repository ppa:jonathonf/python-3.6sudo apt-get update...

2019-08-23 21:10:01 647

转载 MySQL-MySQL UNION 与 UNION ALL 语法与用法

https://www.cnblogs.com/zhangminghui/p/4408546.htmlMySQL UNION 与 UNION ALL 语法与用法1.MySQL UNION 语法MySQL UNION 用于把来自多个 SELECT 语句的结果组合到一个结果集合中。语法为:SELECT column,… FROM table1UNION [ALL]SELECT column...

2019-08-14 15:30:13 338

原创 Python-解决中文字符串乱码

编码再解码即可得到中文data = "\u3010\u6f14".encode("utf-8").decode("utf-8")

2019-08-14 15:09:16 1151

原创 Linux-安装MySQL、Redis

背景阿里云Ubantu服务器安装数据库Xshell远程连接阿里云Navicat、RedisDesktopManager远程连接阿里云数据库步骤-MySQL安装apt-get install mysql-serverapt-get install mysql-client查看服务状态,打开、关闭服务service mysql statusservice mysql start...

2019-08-14 11:35:56 168

原创 Python-pydub Decoding failed. ffmpeg returned error code: 1

背景AudioSegment.from_mp3()mp3转wav报错Decoding failed. ffmpeg returned error code: 1原因小程序开发工具录得mp3文件本身进行加密的问题,自己录得mp3不会报错

2019-08-14 10:31:44 2586 1

原创 小程序-Recorder Manager API(开发工具调用得到假的MP3)

背景小程序开发,后台python实现调用百度语音识别api。百度语音识别(普通版)格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。小程序实现录音// 小程序官方api Democonst recorderManager = wx.getRecorderManager()reco...

2019-08-13 22:26:47 789

原创 Python-如何测试异步数据库代码

问题产生用pytest写好pymysql的测试代码之后,完成了pymysql代码,测试通过。然后决定将数据库改成异步,即pymysql->aiomyqsql,然而返回结果不再是元组,而是coroutine对象,这时产生困惑,如何测试异步数据库?解决思路看到了静觅的a异步协程使用方法,获得了启发,可以在测试代码里,使用asyncio,并通过task的result()方法,来assert结...

2019-07-28 10:13:25 293

转载 Python-typing: 类型标注与支持 Any类型

Any docsAny 是一种特殊的类型。静态类型检查器将所有类型视为与 Any 兼容,反之亦然, Any 也与所有类型相兼容。这意味着可对类型为 Any 的值执行任何操作或方法调用,并将其赋值给任何变量:from typing import Anya = None # type: Anya = [] # OKa = 2 # OKs = '' ...

2019-07-27 09:59:14 5568

翻译 Python-aioredis

aioredis api——referenceConnection usage is as simple as:import asyncioimport aioredisasync def connect_uri(): conn = await aioredis.create_connection( 'redis://localhost/0') val =...

2019-07-26 21:02:37 1694

原创 Python-time和datetime

time docstime.localtime([secs])与 gmtime() 相似但转换为当地时间。如果未提供 secs 或为 None ,则使用由 time() 返回的当前时间。当 DST 适用于给定时间时,dst标志设置为 1 。time.strftime(format[, t])转换一个元组或 struct_time 表示的由 gmtime() 或 localtime() 返回...

2019-07-26 19:32:31 354

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除