自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 资源 (2)
  • 收藏
  • 关注

原创 车辆装载率优化算法

帮我做一个集装箱装载率优化算法,有如下条件:货物装载不能超过集装箱长宽高,货物是立方体,货物只能正放,不能倒放,货物可以摆放多层,但是某些大体积的货物只能摆放下层,需要装载更多的货物。请给出详细的代码实现,以及详细的算法介绍。这是一个NP难问题,需要用到启发式算法来解决。下面是一个简单的贪心算法,它可以用来近似地解决集装箱装载率优化问题。算法步骤:将货物按体积从大到小排序。对于每件货物,从底部开始往上放置,直到无法再放为止。如果有货物无法放置在当前层,将其放到下一层,重复步骤2。

2023-04-03 21:53:31 560

原创 计算机二级python指导用书编程题答案

个人手写,欢迎指正更新中。。。#!/user/bin/env python#-*- coding:utf-8 -*-#author:M10import random#3-1输入整数,输出百分位及以上的数字'''s = input("输入整数哦")print(s[:-2])'''#3-2获取输入字符串,按照空格分割,按行打印'''i = input(&a

2018-11-10 20:31:08 5267 7

原创 基于sklearn的决策树算法

1、决策树介绍决策树简单的理解为if-then的集合,其优点主要有分类速度快、可读性等。决策树的生成主要可分为三个步骤:特征的选择、决策树的生成、决策树的剪枝。1.1特征选择对于结点的选择,总得需要一个计算方法来实现,这个方法的目标是优先选择分类能力强的特征,这样才提高决策树的效率,如果随机选择特征的话将会产生复杂度或者是结点更多的决策树,显然不是我们想要的。 怎么计算特征的分类...

2018-08-27 19:11:54 15262 9

原创 python实现梯度下降

1、Rosenbrock函数#!/user/bin/env python#-*- coding:utf-8 -*-#梯度下降Rosenbrock函数def rb(x,y): #定义rosenbrock函数 return (1-x)**2+100*(y-x**2)**2def partial_x(x,y): #计算x的偏导数 return -2*(...

2018-08-25 20:03:52 1397

原创 python两个一维列表合并成一个二维列表

>>> list1 = [1,2,3,4,4]>>> list2 = [2,3,4,5,2]>>> z = list(zip(list1,list2))>>> z[(1, 2), (2, 3), (3, 4), (4, 5), (4, 2)]>>> z[1][1]3>&am

2018-08-03 14:55:00 50137 4

原创 python可视化交互库dash

R有shiny,应该是非常好用的,python像shiny的交互可视化的库不多,dash其中之一,简单实用,但整体似乎还不如shiny。1安装pip install dashpip install dash-rendererpip install dash-html-componentspip install dash-core-components2官方实例#...

2018-07-22 20:10:54 8475 2

原创 python3列表推导式

1列表推导效率比传统的for 循环+append要快code测试如下:#传统的循环import datetimetime1 = datetime.datetime.now()list1 = []for i in range(100000): if i%3==0: list1.append(i)time2 = datetime.datetime.now(...

2018-07-22 16:13:19 1029

原创 mysql多字段查询去重

当数据表有主键时,使用group by 获取相同字段的最大主键即可,code如下:SELECT rn.*FROM table_name rnWHERE rn.id IN (SELECT MAX(r.id) from table rGROUP BY a,b,c,d)其中id为表table的主键,a,b,c,d为同时相同时去重的字段。 当数据表没有主键时,需要首先加上主键,使...

2018-07-20 14:49:15 7296

原创 pymysql获取要查询的字段名(列名)

使用pymysql连接数据库进行查询时,获取的只是查询的结果,并不包含列名。 可以使用cursor.description来获取列名的相关信息。执行结果如下所示。#!/usr/bin/env/python# -*- coding:utf-8 -*-import pymysqlimport pandas as pdimport timedef execude_sql(sql):# ...

2018-07-02 14:53:03 34850 2

原创 python pymysql链接数据库查询结果转为Dataframe

import pymysqlimport pandas as pddef con_sql(db,sql):# 创建连接 db = pymysql.connect(host='127.0.0.1', port=3308, user='name', passwd='password', db=db, charset='utf8')# 创建游标 cursor = db.curso...

2018-06-25 18:50:45 9318

原创 python实现感知机

1。综述感知机(perceptron)是而分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1或-1值,即正类或负类。感知机对应于输入空间中的将输入特征分类的超平面,属于判别模型。 利用梯度下降对误分类的损失函数进行最小化,求的感知机模型。 输出空间为:y={+1,-1}感知机的从输入到输出的函数:f(x) = sign(w*x+b)其中,w,b为感...

2018-05-10 12:07:32 2960

原创 python zip方法用法

参考:https://blog.csdn.net/xlinsist/article/details/51346523 http://www.runoob.com/python/python-func-zip.html1.zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。x=[1,2,3]y=[4,5,6]zipd = zip(x,y)

2018-04-23 22:46:47 795

原创 numpy.mean()的几种用法

import numpy as npx = np.array([1,2,3,4,5])y = np.array([0,2,3,4,6])z = np.array([[1,2],[3,4]])#二维数组np.mean(x==y)#返回条件成立的占比Out[5]: 0.59999999999999998np.mean(x)#均值Out[6]: 3.0np.mean(z)Out[10]:

2018-04-22 13:46:58 22576 1

原创 pandas库scatter_matrix绘图可视化参数详解

使用散点图矩阵图,可以两两发现特征之间的联系scatter_matrix(frame, alpha=0.5, c,figsize=None, ax=None, diagonal='hist', marker='.', density_kwds=None,hist_kwds=None, range_padding=0.05, **kwds)1。frame,pandas dataframe对象 2。a

2018-04-21 21:06:17 43418 17

原创 python自然语言处理(二)

1词性标注简单的理解就是对词性(POS)进行标注,但在不同的领域,词性可能是不同的,Penn Treebank pos标记库:https://blog.csdn.net/u010099495/article/details/46776617 其中程序需要安装两个依赖包nltk.download('punkt')nltk.download('averaged_perceptron_t...

2018-04-01 12:34:35 687

原创 python自然语言处理(一)

1标识化处理word_tokenize()是一种通用的,面向所有语料库的标识化方法,基本能应付绝大多数。 reges_tokenize()基于正则表达式,自定义程度更高。#!/user/bin/env python#-*- coding:utf-8 -*-import reimport operatorimport nltkstring = "Thanks to a han...

2018-03-26 12:09:01 1318

原创 使用python执行mysql编码存入Excel时报错

存入Excel时出现错误: TypeError: cannot use a string pattern on a bytes-like objectsql执行部分语句如下:CONCAT(SUM(CASE WHEN 节点名 = '基础教程' THEN 命中率 ELSE 0 END),'%')将结果转为dataframe后,执行结果如下: 均显示b’[结果]’ 解决方法:CONCAT(SUM

2018-03-22 11:18:39 258

原创 DataFrame.to_excel多次写入不同Sheet

主要需要pd.ExcelWriter([文件路径])方法 参考官方文档:>>> writer = pd.ExcelWriter('output.xlsx')>>> df1.to_excel(writer,'Sheet1')>>> df2.to_excel(writer,'Sheet2')>>> writer.save()以下为实际应用:"""df1,df2均为sql查询来的数据exce

2018-03-20 17:08:26 48086 6

原创 python群发邮件并将excel附件添加到正文

本文几个目的: 1。使用smtp库群发邮件 2。添加邮件的附件 3。将Excel附件添加到正文中"""to_addr表示群发集,使用形如('abc.163.com,add.163.com,[email protected]')html表示要展示在正文中的网页或者表格等。password字段表示邮箱的验证码,在打开smtp协议时记得,并不是邮箱的密码。"""def send_email(to_ad

2018-03-19 17:18:12 8772 3

原创 python pandas实现excel转为html格式

#!/usr/bin/env Python# coding=utf-8import pandas as pdimport codecsxd = pd.ExcelFile('/Users/wangxingfan/Desktop/1.xlsx')df = xd.parse()with codecs.open('/Users/wangxingfan/Desktop/1.html','w','u

2018-03-19 11:55:32 14004 1

原创 Cannot attach additional subparts to non-multipart/*

在使用python添加附件发送时报错:Cannot attach additional subparts to non-multipart/* 查询得知,错误的原因在于: msg=MIMEText(‘hello,send by python…’,’plain’,’utf-8’) 将这行替换为: msg = MIMEMultipart() 即可

2018-03-19 11:08:25 11119

原创 朴素贝叶斯分类及python实现

1。基础理论朴素贝叶斯属于分类算法中的一种,是数据挖掘常用的算法之一,简单的理解,有(c1,c2,c3,,,c(n))n个分类,对于某一类c(i),有若干特征属性(a1,a2,a3,,,a(m))m个属性,而现在出现c(j),我们要根据它的属性a判断它比较偏向于哪一类。这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不

2018-03-14 11:27:52 1910

原创 python实现kNN算法识别手写体数字

1。总体概要kNN算法已经在上一篇博客中说明。对于要处理手写体数字,需要处理的点主要包括: (1)图片的预处理:将png,jpg等格式的图片转换成文本数据,本博客的思想是,利用图片的rgb16进制编码(255,255,255)为白色,(0,0,0)为黑色,获取图片大小后,逐个像素进行判断分析,当此像素为空白时,在文本数据中使用0来替换,反之使用1来替换。from PIL import Image

2018-03-04 19:53:55 5581 1

原创 基于python的kNN分类算法

kNN(邻近)算法简介kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或

2018-03-03 21:12:51 2194

原创 python数据分析-文本相似度分析

由于本文设计较多知识点,在编写代码之前需要搞清楚这些知识点的含义。1。知识点解释Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 gensim 以“文集”——文本文档的集合

2018-03-03 10:29:42 10372 4

原创 使用jieba模块进行自然语言处理并制作词云

需要使用python的jieba模块,安装可以使用pip install jieba 关于jieba,支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典1。三种模式impor

2018-03-01 19:50:33 750

原创 python数据分析数据标准化及离散化

标准化1。离差标准化是对原始数据的线性变换,使结果映射到[0,1]区间。方便数据的处理。消除单位影响及变异大小因素影响。 基本公式为:x’=(x-min)/(max-min)代码:#!/user/bin/env python#-*- coding:utf-8 -*-#author:M10import numpy as npimport pandas as pdimport matplo

2018-02-25 21:31:02 6102

原创 python数据清洗(缺失值与异常值处理)

1。 将本地sql文件写入mysql数据库本文写入的是python数据库的taob表source [本地文件] 其中总数据为9616行,列分别为title,link,price,comment2。使用python链接并读取数据查看数据概括#-*- coding:utf-8 -*-#author:M10import numpy as npimport pandas a...

2018-02-24 16:47:47 50425 4

原创 python3 scrapy框架crawl模版爬取京东产品并写入mysql

crawl将自动对所有链接进行分析,将符合的链接数据爬取。官方文档 ,其中价格,好评率需要用浏览器抓包分析真实地址,本文所用的基础技术包括:sql语句,re表达式,xpath表达式,基本的网络知识和python基础jd.py# -*- coding: utf-8 -*-import scrapyimport urllib.requestfrom scrapy.linkext...

2018-02-21 23:40:28 1539 6

原创 python3 scrapy模拟登陆豆瓣

首先感谢知乎,在我遇到问题时提问有人及时帮助解决。问题在下面说。1。遇到的问题由于程序没有做后续的数据处理,所以没有用到pipelines,只在爬虫文件里编辑,在模拟浏览器时也将也将浏览器header写在db.py文件中,在知乎得到答案,USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (

2018-02-21 03:17:10 1208

原创 使用scrapy框架爬取当当网图书并存入mysql

这些数据并不需要模拟登陆,模拟登陆会在下一偏博客写。 主要步骤: 创建项目scrapy startproject dangdang 使用默认模版创建爬虫scrapy genspider -t basic dd dangdang.com1。编写items,即需要爬的分类import scrapyclass DangdangItem(scrapy.Item): # defi...

2018-02-19 22:23:42 2131

原创 python多线程获取内涵段子

1 主要几个难点1。每页会有20个段子,会出现加载更多,点击加载更多,url并没有改变,打开显示网页源代码,并没有获得段子。所以需要用到抓包获取实际段子地址,使用Chrome自带的检查找到真实的地址。 触发一次加载操作,我们获得的真实地址为: 多次触发后分析地址可得到max_time为time.time()获取的当前的时间戳,所以我么可以通过推后time.sleep(2)来更新段子。2。从网

2018-02-08 23:13:26 334

原创 python3 unicode列表转换为中文

查了很多很多的资料无果,果然知乎牛逼,链接,完美解决。 爬取网站时,最终得到list内容,编码为unicode,想让其转换为汉字并输出。 需要提取的为下图中unicode部分: 保存为列表,然后使用for循环: text为获取的网页。pat = '"group": {"text": "(.*?)"'text_list = re.compile(pat).findall(text)fo

2018-02-08 21:50:11 21245 1

原创 python urllib库获取淘宝主图

1 分析首先对网页url进行分析。我们将第二页、第三页最后s=44改为s=0时,我们刚好获取的为第一页数据,所以我们总结出商品的页数为链接最后的s=44*ii为页数为[0,1,2,3…]#第一页链接#https://s.taobao.com/search?q=%E8%B6%85%E7%9F%AD%E8%A3%99&imgfile=&js=1&stats_click=search_ra

2018-02-03 09:50:46 1832 1

原创 python使用代理服务器获取网页数据

免费代理ip网址:http://www.xicidaili.com/ 多次重复获取网页时,很容易被网站的反扒封掉ip,这时可以使用代理,python使用代理非常简单,三行代码即可实现。#使用urllib库的ProxyHandler添加代理ip地址。proxy_add为要添加的ip地址,:端口即可proxy = urllib.request.ProxyHandler({'http':prox

2018-02-02 18:53:53 947

原创 python爬虫异常处理

URLError造成原因1 本地网络未连接 2 服务器不存在 3 连接不到特点的服务器 4 httperror,httperror是urlerror子类 使用try,except来捕获异常import urllib.requestimport urllib.errortry: urllib.request.urlopen('http://blog.csdn.net')#需要检测的

2018-02-01 12:31:17 747

原创 python多线程基础

1 简介多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度。程序的运行速度可能加快。在一些等待的任务实现上如用户输入、文件读写和网络收发数据等,线程就比较有用了。在这种情况下我们可以释放一些珍贵的资源如内存占用等等。 一个小的例子

2018-01-29 21:32:44 206

原创 python中处理列表序列等的几个关键词

1 insertinsert() 函数用于将指定对象插入列表的指定位置。 eq;>>> list = [1,2,3,4,5,6]>>> list.insert(0,0)>>> list[0, 1, 2, 3, 4, 5, 6]2 appendappend() 方法用于在列表末尾添加新的对象。 eq:>>> list = [1,2,3,4]>>> list.append(5)>>> li

2018-01-27 12:23:45 637

原创 numpy中使用genfromtxt对列进行预处理

使用genfromtxt从内存中读取两行数据:3k,in434,32,45,134k,in542,32,52,1将上面两组数据放入numpy数组:import numpy as npfrom io import BytesIOdata = '3k,in434,32,45,1\n34k,in542,32,52,1'data_np = np.genfromtxt(Bytes

2018-01-25 13:16:19 1953

原创 python3中Numpy的genfromtxt问题

根据官方文档举例 使用python3运行发现报错 TypeError: Can't convert 'bytes' object to str implicitly查询得知,python2与py3不兼容原因import numpy as npfrom io import BytesIOa = '1,2,3\n4,5,6\7,8,9'data = np.genfromtxt(BytesI

2018-01-24 17:28:14 4457

手机号码归属地数据库2018.3月,379678条数据

截止2018年3月,共379678条数据,手机号前7位,包括手机号归属地,手机运营商等等,数据真实有效。对手机号码归属地查询非常有效。实测很方面

2018-03-18

手写体数字识别数据训练数据测试数据

手写体数字文档,用于学习图像识别等,包括训练数据,测试数据,共几百份数据,而且像素统一为32*32

2018-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除