自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

广埠屯小拉登的博客

一个致力于了解大数据的男人

  • 博客(19)
  • 资源 (3)
  • 收藏
  • 关注

原创 【Effective Python】用sort/sorted方法的key参数来表示复杂的排序逻辑

用sort/sorted方法的key参数来表示复杂的排序逻辑01. 简介sort()是应用在内置的列表类型(list)上的方法,主要有以下特点:这个方法会修改原始的 list(返回值为None)通常这个方法不如sorted()方便如果你不需要原始的 list,list.sort()方法效率会稍微高一些。02. 用法2.1 基本用法>>> a = [3,6,1,8,0,5,7,9,2,4]>>> a.sort()>>> a[0,

2021-05-20 16:44:25 392 2

原创 【Pandas】Pandas中的DataFrame数据结构的部分用法

 由于最近涉及到数据分析,所以使用了很多关于pandas包的一些功能,持续总结如下:文章目录01. 读写数据1.1 读取mysql中数据转DataFrame格式1.2 读取多个csv文件合并到同一个DataFrame中1.3 从DataFrame中读取行列1.4 遍历DataFrame02.统计方法2.1 统计个数2.2 分组求和2.3 根据其他列计算出新列的值2.4 统计每行特定值的个数2.5 关联2.6 分组取topN03.其他3.1 类型转换3.2 排序然后重新编号3.3 查找和替换3.4 填充缺失

2020-12-29 16:28:47 311

原创 【爬虫】Scrapy中Cookie设置的一些测试

00. 环境scrapy:2.3.0python:3.701. Scrapy中设置Cookie的几种方法 在scrapy中主要有以下几种设置cookie的方法,其中第一种和第三种可以直接使用网页中复制过来str类型的cookie,第二种和第四种需要设置为dict类型的cookie1.1 利用seetings文件中的DEFAULT_REQUEST_HEADERS设置cookieDEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,applic

2020-12-23 16:46:24 440

原创 【算法技巧】双指针运用

文章目录双指针运用(持续更新中...)0. 简介01. 环形链表I/II1.1 环形链表Ⅰ1.2 环形链表 Ⅱ双指针运用(持续更新中…)0. 简介 双指针法也叫快慢指针,在数组里是用两个整型值代表下标,在链表里是两个指针(python似乎只能用.next的个数表示不同步长),双指针法一般时间复杂度能达到O(n)。两个指针的位置一般有两种:两个指针以不同的速度(或起始时间)往相同方向移动...

2020-04-14 22:49:39 231

原创 Python本地利用Jupyter Notebook调试远程服务器

0. 前言 最近在公司希望在本地调用服务器的Python进行Python的调试,踩了很多坑,现在记录下主要的过程。1. 环境本机环境:Ubuntu 16.04Python:Anaconda服务器环境:centos2. 服务器Jupyter Notebook设置01. 在服务器安装anaconda  自己或者联系SRE在服务器安装anaconda(主要是由于这个集成了很多包,方便...

2019-11-27 19:58:06 698

原创 【爬虫】关于淘宝的sign参数生成算法

 关于淘宝的数据抓取,可能涉及到的一个参数就是sign,sign的值是有一个计算公式的,基于已有的经验,知道这种参数一般多是会保存在js文件里的。(1)在淘宝页面,打开开发者工具(F12),然后搜索sign,一个个查找在哪里出现的sign的赋值…忽略搜索过程,可以发现在sign的计算关键代码在mtop.js 中,也就是(https://g.alicdn.com/mtb/lib-mtop/2....

2019-09-14 18:21:14 10481 6

原创 【Leetcode29】利用位运算对加减乘除的实现【Python】

Part1. 利用位运算实现乘法思路:利用乘数的各位是否为1,将所有为1的位,让被乘数左移动相应的位数,然后相加Ps:这里其实还有一种累加的思路,即通过将被乘数累加乘数次# 5 * 3 = 15# 5可以表示为 101 # 3可以表示为 011# Step1. 判断乘数为1的数位为第0位,和第1位# Step2. 将被乘数左移动0位,得到101# Step3. 将被乘数左移动1位,...

2019-03-26 18:20:57 819 6

原创 WordCount.java的简单介绍

  以WordCount为例,计算文件中每一个英文单词出现的次数,主要是这样的思路:Map: 将原本文字转换为(key,value)的形式,其中key是word,value是单词出现的次数Shuffle: 将相同的key排列在一起Reduce: 将相同的key 的value相加 主要操作步骤分为这样几步:编辑WordCount.java编译WordCount.java创建测试文本文...

2019-01-23 14:29:00 1176

原创 VM虚拟机环境下Hadoop的部署与设置(多台机器)

Hadoop Multi Node ClusterHadoop Multi Node Cluster规划如下图,由多台电脑組成:有一台主要的电脑master,在HDFS擔任NameNode角色,在MapReduce2(YARN)擔任ResourceManager角色有多台辅助的电脑data1、data2、data3,在HDFS擔任DataNode角色,在MapReduce2(YARN...

2019-01-21 22:13:43 987

原创 VM虚拟机环境下Hadoop的部署与设置(单一节点)

Hadoop Single Node Cluster是只以一台机器,建立hadoop环境,您仍然可以使用hadoop命令,只是无法发挥使用多台机器的威力。 因为只有一台服务器,所以所有功能都在一台服务器中,安装步骤如下:安装JDK设定 SSH 无密码登入下载安装Hadoop设定Hadoop环境变数Hadoop组态档设定建立与格式化HDFS目录启动Hadoo...

2019-01-21 17:52:37 451

原创 [机器学习]人工神经网络手写数字识别

00.写在前面  由于最近要出去实习,所以开始接触机器学习的内容,逐步将自己的实验内容整理成博,以供以后使用。这次主要是关于验证码的识别和手写数字的识别,其实两者根本上是相同的原理工具: pycharm + python3.5 + keras01.训练数据的获取  为了能得到后面实验所需的数据,我自己手写了一部分数据用于制作训练数据,并将其转化为数字格式。   1.1 调整图...

2018-06-30 13:41:28 575 2

原创 [Python]scrapy爬取当当网书籍相关信息

  最近想买两本程序设计的书籍,也就在当当网上面看了下,发现真是太多的书了。所以想着利用爬虫知识爬取下程序设计相关书籍的一些信息。 00_1. 首先是今天所用到的东西   python 3.5 + scrapy 1.5 00_2.scrapy的相关简单命令 I. 创建爬虫项目之前# 通过view指令可以下载指定网站,并用默认浏览器打开 scrapy view http://ww...

2018-05-20 14:57:34 1495

原创 [Python] 关于读写*.txt文件的那点事

00.写在前面  最近由于经常需要操作文本文件,所以涉及到很多文本文件的读写操作,也做一个简单的总结,方便自己以后查阅,也方便大家阅读。   python版本:2.7.13   01.关于文件读取的方法(1)利用 read() 一次性读取。这里针对小文件,可以一次性读取所有内容到内存,然后存成一个str 类型的变量。Rootpath='F:\\Points_DEMs.txt'with open

2018-04-11 21:34:08 270 1

原创 VS2012下安装GDAL库

00.实验需求   最近需要在C++里面读取DEM的数据,然后进行比较,DEM为Geotiff格式的数据,于是思考如何才能做到。经过科学上网,得到结论是gdal可以在C++ 里面读取这种格式文件,遂实验之。 01.系统说明   Win7(64位),VS2011,GDAL 2.2.2 02.下载GDAL   进入GDAL的官方下载页面(http://trac.osgeo.org/gdal/w

2018-03-26 21:35:04 2451 2

原创 C++ 利用Vector和高斯消去法求二维矩阵的逆

00.基本原理:假设存在矩阵A,求矩阵A的逆矩阵X。   根据逆矩阵的定义,则有:AX=E,   其中,A为n阶系数矩阵;E为单位矩阵,即E=(e1,e2,…,en),其中ei (i=1,2,…,n) 为单位列向量;X为n个列向量构成的矩阵,即X=(x1,x2,…,xn),其中xi (i=1,2,…,n) 为列向量。   于是,可以把等式AX=E看成是求解n个线性方程组Axi=ei (i=1,

2018-03-17 15:27:45 1855

原创 python中使用 ARIMA是出现类型转换错误的解决办法

0.出现错误处的相关代码:model = ARIMA(ts, order=(2, 1, 0))result_AR = model.fit(disp=-1)plt.plot(ts_log_diff)plt.plot(result_AR.fittedvalues, color='red')plt.title('AR model RSS:%.4f' % sum(result_AR.fitte...

2018-03-13 17:33:37 5613

原创 [遥感]利用python爬虫获取美国冰雪数据中心的数据

00. 写在前面:  由于最近学习方面需要用到NSIDC(美国冰雪数据中心)的数据进行计算,但是手工下载又特别耗费时间,需要一个一个去点击,所以我尝试着去写一个小爬虫获取所需数据。   对所有需要在NSIDC下数据的科研工作者可能会有点左右,233333      欢迎大家指出问题,共同学习。我只是一个萌新。。。      所用到的工具:pycharm +python2.7.13 ...

2018-03-08 20:02:13 7215 23

原创 利用免费代理ip网站建立自己IP数据库

00.写在前面:   呃….前两天爬取NSIDC的数据的时候被封IP,导致我不能下载数据,科研止步不前,于是下定决心来建立一个自己的代理IP池。   欢迎大家指出问题,共同学习。我只是一个萌新。。。      所用到的工具: pycharm + python2.7.13 + BeautifulSoup + mysql + MySQLdb     OK,正式开始今天的工作。  01.从免

2018-03-06 14:37:14 1406

原创 Python爬网易云音乐的那些事

不知不觉中喜欢周杰伦已经那么多年了,刚好最近也在学习python爬虫的东西,顺便记录下爬取JAY的热门歌曲和热门评论的过程。0_1. 首先是今天所用到的东西py2.7.13(IDE使用的是Pycharm) + requests +urllib2 + re0_2.确定我们的目标网页,我们从这个杰伦歌曲合集页面(http://music.163.com/#/artist?id=6452)开始。OK,正...

2018-03-04 13:50:36 5372 1

necp再分析数据下载

necp再分析数据下载

2017-04-20

envi4.8汉化卸载包

支持envi4.8 汉化和卸载

2016-08-13

数据结构与软件设计资料

测绘工程的朋友可以用一下, 可以复习的时候用到的东西

2014-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除