pcy1127918-CSDN博客

原创 allennlp库报错 from typing import ( ImportError: cannot import name ‘OrderedDict‘

在用allennlp库的时候，报错from typing import ( ImportError: cannot import name 'OrderedDict'，其他博主给的回答都是typing只要Python大于3.5即可，当时使用的虚拟环境Python版本是3.6，后来在其他Python3.7的虚拟环境发现导入没有问题，所以把Python从3.6换到3.7就可以。...

2022-01-13 16:39:54 3419 3

原创 python ccfcsp 201909-2 小明种苹果（续）

题目有点长，耐心点看。思路：对每棵树，有一个总数记录，有一个状态记录（是否发生苹果掉落)，所以，total列表用来记录所有苹果树的苹果总数，isdrop记录所有树的状态在输入每棵树的数据时，对于a_ij进行判断，小于等于0进行更新total列表，否则，就和total中的当前项进行比较，大于最新数据表示存在掉落情况，对应的isdrop更新为True，并且对total的当前项进行赋值操作对...

2019-12-08 09:49:17 437

原创 Python根据多个条件进行排序

小白一名，最近在做ccfcsp的题目，做到201503-02数字排序，个人认为这个题目就是属于多条件排序，当然题目里面说的也很清楚，先按照次数进行降序，次数相同的话，就按照升序进行排。在csdn里查找几个关于Python多条件排序，说的好像都没毛病，但是配的代码自己运行，就会出现问题，得不出博主的结果，也不敢问，自己觉得写的代码好像错了哈。所以自己在他们的基础上，归纳下哈。主条件升（...

2019-12-06 20:18:44 772

原创 numpy.newaxis作用

总的来说newaxis是增加一个新的维度，举例如下，a:1维数组，c和d都通过npy.newaxis变成二维数组,npy.newaxis在前面时就是增加列数，npy.newaxis在后面时增加了行数。>> a=npy.array([1,2,3,4,5])>>> c=a[npy.newaxis,:]>>> carray([[1, 2, 3...

2018-07-29 14:52:19 918

原创 tf.random_normal()和numpy.random.normal()区别

在学习莫烦tensorflow途中，经常用numpy下的random下的normal代替random_normal，因为不太清楚区别，就出错了，举例：x_data=npy.linspace(-1.0,1.0,300)[:,npy.newaxis]noise=npy.random.normal(0,0.05,x_data.shape)#noise=tf.random_normal(x_...

2018-07-29 14:38:06 4922

原创 tensorflow之保存、载入模型

保存模型：saver=tf.train.saver()saver.save(sess,path)#参数一个是会话session，一个是保存路径这个不仅保存网络结构，还包括了参数。载入模型：saver=tf.train.saver()saver.restore(sess,path)载入保存的模型。注意这几行代码是在with tf.Session() as sess:下...

2018-06-22 16:07:58 170

基于tensorflow，数据来源是mnist,包括了60000的样本，10000的测试样本。之前在学习tensorflow的课程，所以做下笔记。RNN循环神经网络，可以用在语音识别和文字等方面，但是语音和文字不像图片那样，可以单独地把像素点提取出来。上图就是RNN的简易示图，除去中间的反馈回路，和大多数神经网络类似。我认为反馈回路，就是上一时刻的输出作为下一时刻的输入。举个例子，将文本进行切词，...

2018-06-22 16:03:06 719 1

原创爬取智联招聘数据--数据清洗和可视化

我是选择互联网行业、实习生、全国这几个类别，通过智联招聘得到的数据，上面列出的城市是全国实习生平均月薪最高的前30个。很奇怪，我本来以为肯定会是北上广深杭，结果大多是北京周边城市。import numpy as npyimport pandas as pdaimport matplotlib.pyplot as pltimport pymysqlimport refrom pylab import...

2018-04-24 14:02:14 5048

原创 scrapy爬取智联招聘

我想分析下互联网行业全国招聘实习生的情况，通过爬取智联招聘，得到15467条数据，并导入Mysql在items.py里：import scrapyfrom scrapy.http import Requestfrom lxml import etreefrom zhaopinzhilian.items import ZhaopinzhilianItemclass RecuritSpid...

2018-04-23 10:52:11 1887

原创 python xpath 解析html--<table>下<tb>、<ul>下<li>

用xpath来解析一般标签都很简单，因为大多数到可以找到class或者是id等属性，确定一类情况。但是<table>下有多个<tb>，<ul>下有多个<li>，而且还没有属性，类似这种：解决办法：第一种：用etree.HTML()res = etree.HTML(response.txt)table_list = res.xpath('//table...

2018-04-18 19:34:50 7181

原创 knn分类算法实现手写体数字识别python

之前写过knn分类算法代码，想把knn用于设别手写体数字，看下正确率。大概思路：获取图片（可以自己写，我之前有写过黑白图片转文本的代码，也可以网上找，反正数据量大会更好）->转成文本->建立大量的训练数据集->建立好训练数据与类别的关联->测试注意：训练数据一定要明确给出类别。本次实验手写体数字一共就是10中类别，0-9获取图片转成文本之前写过，跳过，直接从建立训练数据开始...

2018-04-17 17:55:51 2359

原创 Python使用pandas处理CSV文件之导入错误解决

我之前在Python下，用pandas.read_csv()某一个.csv文件，但是一直导不进来，后来上网搜索，才知道导入csv必须要安装xlrd,xlwt这两个模块，我之前只有xlrd，所以导入不进来。直接在控制台里先卸载 :pip uninstall -y xlrd、pip uninstall -y xlrd，后重新安装：pip install xlrd xlmt。另外.csv文件用panda...

2018-04-17 16:22:29 3310 2

原创 Python Logistic Regression（逻辑回归）实现预测某事件

逻辑回归模型，自己的理解逻辑就相当于是非，那就只有0,1的情况。这个是我在一个大神那看到的，https://blog.csdn.net/zouxy09/article/details/20319673逻辑回归模型用于分类，可以知道哪几个影响因素占主导地位，从而可以预测某事件。我从网上下载了一个2017某高中理科一模成绩单，模糊姓名和学校，具体长这样：最后一列是能否过二本，搜索当年二本线480，su...

2018-04-17 16:14:55 14375 3

原创 IndexError:boolean index did not match indexed array along dimension 0

IndexError: boolean index did not match indexed array along dimension 0; dimension is 8 but corresponding boolean dimension is 7在学习回归算法的时候，使用sklearn.linear_model下的RandomizedLogisticRegression（下列简称为RLR...

2018-04-17 15:26:09 21974 2

原创朴素贝叶斯分类算法Python代码

2018-04-16 19:55:47 1976

原创缩进的问题unexpected indent

有时候语法没有错误，但是缩进有问题，会显示上边的错误提示框，有时候Python file是看不出来缩进问题的，解决办法就是把代码复制到pycharm里，调整好格式后，再复制回Python file中，就可以了。...

2018-04-16 11:30:52 10099

原创手写体数字识别-建立训练集

将黑白图片转成文本，就是读取该图片的像素，得到RGB值，如果为0就是黑色转成1，否则就是白色转成0。要提前下载pillow模块，直接cmd，里面输入pip install pillow 就可以了。Image.getpixel(width,height)就可以得到该点的RGB值，不要颠倒成Image.getpixel(height，width)。另外注意，fh要用‘a’追加的方式打开，用w的方法就会...

2018-04-16 10:53:26 2866

原创 UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

针对我上一篇《简易版计算文本相似度》出现的问题：Traceback (most recent call last): File "D:/pythonlianxi/wenbensimi1.py", line 52, in <module> d3 = open(doc3).read()UnicodeDecodeError: 'gbk' codec can't decode byte...

2018-04-16 09:38:57 7175

原创简易版计算文本相似度

我简单地计算《后宫甄嬛传》和《冷月如霜》的文本相似度，还有《后宫甄嬛传》和《寂寞空庭春欲晚》的文本相似度，并没有去掉标点符号，停用词等。使用了TF-IDF，TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。这是百度查到的解释。另外，dictionary.doc...

2018-04-16 09:18:30 1887

原创 KNN分类算法代码

KNN分类算法，KNN能够採用Euclidean（欧几里得）、Manhattan（曼哈顿）、Mahalanobis（马氏距离）等距离用于计算。此次代码用欧几里得求距离。testdata是测试数据集，traindata是训练数据集，labels是类别集。要提前知道的：1、数据框DataFrame.shape(),得到的是该数据框的行列数2、numpy.tile函数:eg:a=array([1,5,6...

2018-04-15 20:33:48 793

原创自动模拟登录豆瓣及验证码处理

items.py这个文件，如果不用item的话就可以不用写。1、自动登录豆瓣，所以要知道豆瓣的网址：https://www.douban.com/2、要找Post表单，打开源文件，找到method="post",可以看到旁边的action="https://www.douban.com/accounts/login，这个url，在一般情况下，不一定是真正的表单，如果有反爬机制强的话，很有可能就不是...

2018-03-30 11:37:54 2266

原创用scrapy循环爬取京东数据导入Mysql

感觉网上用scrapy爬京东数据的文章挺多的，但是我还是想自己写一遍吧。京东是有反爬机制的，所以我用到用户代理、伪装成浏览器。爬取数据是京东商城的手机信息 URL：https://list.jd.com/list.html?cat=9987,653,655&page=1大概是9000多条数据，不在列表之内的商品没有算在内。我遇到的问题：1、用户代理最好是用方法（use_proxy）...

2018-03-29 11:43:29 1214

转载 Telnet console listening on 127.0.0.1:6023”

[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023”“ DEBUG: Crawled (403) <GET403是禁止访问，查到代理问题导致有些网站无法访问，解决方法是在settings.py中修改：DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.userage...

2018-03-16 15:23:34 48157 4

原创 float object is not iterable

最近在学Python的scrapy框架，身为小白的我刚想用自动爬虫爬一个网页，在敲下scrapy crawl lesson.py，就一直出现问题，问题是float object is not iterable,开始，不知道什么原因，毕竟自己的代码和这个原因真无关，就把ROBOTSTXT_OBEY = True改成ROBOTSTXT_OBEY = False嗯，没有解决，上网查原因，大多数都说要把...

2018-03-16 08:46:59 10963 2

pcy1127918的博客