自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孔祥旭的博客

这辈子努力一些, 争取下辈子不来了

  • 博客(43)
  • 收藏
  • 关注

原创 正则 全文替换

main.rsuse std::fs;use std::fs::File;use std::io::prelude::*;use regex::Regex;fn main() { // 打开文档源文件 let mut file = File::open("index.html").unwrap(); // 将源代码 绑定到 变量 let mut contents = String::new(); file.read_to_string(&mut

2021-12-16 15:17:50 440

原创 Rust爬取某大学内网班级信息

阻塞式抓取,同时写入到本地,源代码查看

2021-10-27 16:33:01 211

原创 ⑵. 获取第一个<查找>连接串

数据库表设计如下:

2021-07-02 13:57:58 146

原创 ㈠. Rust语言 web框架actix-web和sqlx的踩坑日记 + 搭环境

学了好几个月的Rust, 终于上手写一个web项目, 处处是坑, 某些地方卡住了我一周多时间, 分享几个坑, 给后来的小伙伴本人电脑环境我尽可能少依赖第三方库, 做一个干净, 比较少的代码让大家看懂, 给大家提供一个模板第一个坑今天, 也就是2021年6月30日, 目前的actix-web的最新版本是3.3.2, 同时actix-web的异步运行时是基于tokio 0.1x系列构建的与此同时, sqlx的最新版本是0.5.5, 这个第三方库运行时是基于tokio1.x系列的也就是说,

2021-06-30 18:19:34 2029

原创 Pysprak

pyspark --master local[N]local[N]代表在本地终端运行, 同时使用N个线程, N尽量使用机器CPU核心数量方法说明sc.master查看运行线程的数量sc.textFile(‘file:/usr/readme.txt’)读取本地文件, 路径加file, 告诉系统要读取HDFS文件sc.textFile.count()显示项数...

2018-12-03 17:34:40 336

原创 安装Scala语言和Spark

安装scala 2.11.6解压tar xvf scala-2.11.6.tgz迁移目录sudo mv scala-2.11.6 /usr/local/scala修改环境变量sudo gedit ~/.bashrcexport SCALA_HOME=/usr/local/scalaexport PATH=$PATH:$SCALA_HOME/bin使环境变量生效...

2018-12-01 14:41:30 175

原创 hadoop

Hadoop搭建更换系统源解决virtualbox安装增强包失败Java命令查看当前java版本java -version安装默认java jdksudo apt-get install default-jdk查询java安装路径update-alternatives --display java 我的java路径为/usr/lib/jvm/java-11-openjdk...

2018-11-26 16:09:45 418

翻译 Python库-Twilio 语音交互

pip install twilio注册第一步先创建账户, 登录进去验证手机, 点击右上角, 个人设置, Phone Number创建项目, sms或voice都可以获取一个手机号Calls——Geo Permissions改下权限, 勾上中国, 先进行手机验证才行当您的电话号码收到来电时,Twilio会向您的服务器/answer路径发送HTTP请求。您的应用告诉T...

2018-09-06 17:58:36 981

原创 视觉处 基础篇

方法 用处 imread() 支持各种静态图像文件格式(不同系统支持格式不一样, 但都支持bmp格式, 通常还应该支持PNG, JPEG和TIFF格式) imwirte() 支持各种静态图像文件格式(不同系统支持格式不一样, 但都支持bmp格式, 通常还应该支持PNG, JPEG和TIFF格式)...

2018-07-24 16:40:32 230

原创 python机器学习0基础到入门的心得----入门篇5 支持向量机

SVM是最好的现成分类器, 这里的“现成”指的是分类器不加修改即可直接使用。同时,这就意味着在数据集上采用原始的数据

2018-07-06 09:53:56 301

原创 python机器学习0基础到入门的心得----入门篇4 Logistic回归

概述最优化算法, 假设现在有一些数据点, 我们用一条直线对这些点进行拟合(该线称为最佳拟合直线), 这个拟合过程就称作回归主要思想:根据现有数据对分类边界线建立回归(‘回归’源一词于最佳拟合, 表示要找到最佳拟合参数集)公式, 以此进行分类优点:计算代价不高, 易于理解和实现缺点:容易欠拟合, 分类精度可能不高适用数据类型连...

2018-07-02 14:35:09 230

原创 Pandas机器学习一些操作

读取csv文件import pandas as pd# 读取data = pd.read_csv("./train.csv")对csv文件进行操作# -----------------------------------------查询------------------------------------------------------# 条件查询, 缩...

2018-06-27 17:47:57 242

原创 python机器学习0基础到入门的心得----入门篇3 朴素贝叶斯

什么是朴素贝叶斯整个形式只做最原始, 最简单的假设上一章要求分类器做出多数表决, 给出该样本到底属于哪一类, 不过分类器有时会产生错误结果, 这时候可以要求分类器给出一个最优的类别猜测结果, 也就是选择高概率的决策结果, 同时给出这个猜测的概率是多少本章节代码优点:数据较少的情况仍然有效, 可以处理多类别问题缺点:对于输入数据的方式比较敏感适用数据类型...

2018-06-22 19:01:57 341

原创 算法与算法之间的比较

k近邻:使用开销大, 对训练集所有样本进行一次特征距离运算, 耗时很大, 无法给出数据的内在价值ID3决策树:可以展现数据的内在价值, 遍历所有特征, 取不同特征值,划分最优数据子集, 速度比k近邻快...

2018-06-22 15:12:05 1595

原创 python机器学习0基础到入门的心得----入门篇2 决策树

什么是ID3决策树使用决策树来处理分类问题, 同时也是经常使用的数据挖掘算法输入测试集, 不断推断分解, 逐步缩小待猜测事物的范围, 划分出最优数据子集将无序的数据变得更加有序一次只选一个特征去划分最优数据子集本章节代码 上面的图片就是决策树的最终展现图优点不需要了解算法时间复杂度不高数据易于展现可以处理不相关特征缺点:可能会产生过度匹配, ...

2018-06-22 10:36:26 280

原创 python机器学习0基础到入门的心得----入门篇1 k近邻算法

K-近邻算法这个算法是机器学习最简单的一个算法, 也可以说机器学习入门的算法优点精度高, 可自定义k值对异常值不敏感不需要训练缺点时间复杂度高,O(n**m), 需要遍历n个样本, m个特征计算量大, 内存开销大必须指定k值, k值选择不当可能会造成分类精度不准确 取小: 容易受异常点影响取大: 容易收到最近的数据太多导致比例变化适用的数据类型:...

2018-06-21 16:26:50 193

原创 python机器学习0基础到入门的心得----基础篇

前言我是一名在职爬虫工程师, 经常跟数据打交道, 也对数据产生了兴趣, 感觉近些年的人工智能和机器学习大火, 由此产生了一些兴趣, 想要走机器学习的路子, 借csdn博客来分享我学习的过程经验, 我对python有一定的开发经验, 可能接下来的东西对于新手有点蒙, 我也没有办法, 但是我会尽力去大白话去分析去说明, 阐述我的理解, 希望对看到这篇文章的你有一点学习帮互助, 我的github, ...

2018-06-21 13:44:01 792 2

原创 scrapy_splash文档

Splash是通过Lua脚本来控制了页面的加载过程, 加载过程完全模拟浏览器,可以执行某些特定js脚本或者方法安装使用pip安装scrapy-splashpip install scrapy-splashScrapy-Splash使用Splash HTTP API,因此您还需要一个Splash实例。通常要安装docker并运行Splash,就像这样就足够了:doc...

2018-06-21 09:45:11 2063

原创 Jenkins 用户文档 - 导游界面(基于Linux)

什么是Jenkins流水线?Jenkins Pipeline(或简单的称为“流水线”)是一套插件,支持实现并集成持续的交付管道到Jenkins。Jenkins 流水线提供了一套可扩展的工具,用于将“简单到复杂”的交付管道建模为“代码”。Jenkins流水线的定义通常写入到一个文本文件(称为Jenkinsfile)中,该文件又被检入到项目的源代码控制库中有关管道和更新的更多信息Jenki...

2018-06-21 09:44:47 302

原创 Jenkins 流水线语法

字符串插值Jenkins Pipeline使用与Groovy相同的语法进行字符串插值。Groovy的字符串插值支持可能会让很多语言新手感到困惑。虽然Groovy支持使用单引号或双引号来声明一个字符串,例如:def singlyQuoted = 'Hello'def doublyQuoted = "World"只有后一个字符串将支持基于美元符号($)的字符串插值,例如:de...

2018-06-21 09:44:23 31140

原创 CyGwin使用

CyGwin是一款在windows下使用的unix终端, 不用安装虚拟机, 也不用安装linux系统下载地址 新建系统变量 CYGWIN ntsec tty 追加path cygwin/bin路径ssh-host-configShould StrictModes be used? (yes/no)noDo you want to ins...

2018-05-22 11:45:52 4389

原创 docker入门持续交付之路

安装Docker | 服务相关wget -qO- https://get.docker.com/ | sh# 以非root用户可以直接运行dockersudo usermod -aG docker 主机用户名# 启动dockersudo service docker start# 登陆本地机器上的docker公用镜像库docker login镜像加速# 在...

2018-02-08 10:19:53 653

原创 shell快速上手

告诉系统其后路径所指定的程序即是解释此脚本文件的 Shell 程序。#!/bin/bash运行脚本方式:chmod +x ./test.sh # 使脚本具有执行权限./test.sh # 执行脚本'''一定要写成 ./test.sh,而不是 test.sh,运行其它二进制的程序也一样,直接写 test.sh,linux 系统会去 PATH 里寻找有没有叫 test.s

2018-01-25 10:35:18 693

原创 第三方库异步IO库 gevent

协程是一中多任务实现方式,它不需要多个进程或线程就可以实现多任务。greenlet:yield能实现协程,不过实现过程不易于理解,greenlet是在这方面做了改进greenlet可以实现协程,不过每一次都要人为的去指向下一个该执行的协程,显得太过麻烦from greenlet import greenletimport timedef A(): whi

2018-01-19 10:04:17 1774

原创 scrapy基础知识

scrapy简单介绍:基于twisted异步io框架,性能是最大的优势可以加入request和beautifulsoup方便扩展,提供了很多内置功能内置的css和xpath selector非常方便默认深度优先网页分类:静态网页: 事先在服务端生成好的页面,页面内容是不会变的动态页面: 通过后台传输ajax局部刷新页面信息,是渲染之后的webservice

2018-01-06 23:32:47 450

原创 正则表达式

\ 转移,比如\? ^ 以..开头 . 匹配任意字符 * 出现0次或者无数次 $ 以…结尾 ? 非贪婪模式, 匹配0次或1次贪婪模式: 默认反向匹配,贪婪模式可控,视情况而定() 只提取子字符串, 用group(1)提取, 默认从1开始 + 至少一次或者无数次 {} 匹配几个{2, } 至少出现两个{2, 5} 至少出现两个,最

2018-01-01 23:11:47 148

原创 python编码

计算机只能处理数字, 文本转换成数字才能处理, 计算机中8 bit作为一个字节,一个字节最大的数字就是 255python2默认ASCII编码,python3默认是Unicode编码Windows中文地区默认是gb2312Linux默认为utf-8计算机是美国人发明的,一个字节可以表示素有字符,ASCII处理中文是不够的,中文不止255个汉字, 所以

2018-01-01 22:37:08 168

原创 网站逆向分析js之RSA算法原理

传统密码无论加密解密都用了一个密码rsa非对称性加密由一对密钥组成,配对使用public key(代号’e’),公钥,专门用来加密,可以由多人掌管private key(代号’d’),私钥,专门用来解密,由主人自己进行保管一般公开发布公钥,自己用私钥进行解密举个例子,我是B:A 想要发送’Hello World’一个字符串给我, A 必须在我这拿一个公钥(e),用公钥(e)加密了这段文字,

2017-12-24 21:52:08 1131

原创 数据规整

// Pandas分组聚合创建对象:姓名、历次测验语文成绩,数学成绩,英语成绩df = pd.DataFrame({ 'name': ['张三','李四','王五','李四','王五','王五','赵六'], 'chinese':np.random.randint(35,100,7), 'math':np.random.randint(35,100,7), 'engl

2017-12-18 22:25:25 1238

原创 Pandas

Pandas(panel data & Data Analysis):最流行的Python数据分析库import pandas as pd基于Numpy,专用于数据预处理和数据分析的Python第三方库,最适合处理大型结构化表格数据Series 一维,带标签数组DataFrame 二维,Series容器,最常用Panel 三维,DataFrame容器list:Python自带数据类型,功能简

2017-12-18 14:14:57 3242 2

原创 Numpy

Numpy(Numerical Python)是一个开源的、高性能的Python数值计算库为提高运算效率,ndarray数组值的类型默认相同,创建时自动指定默认数据类型(内存占用最大的值类型) 默认浮点类型(float)导包:import numpy as np// 创建ndarray数组 可以自定义数据类型np.array(数组,dtype=np.bool)# 转数组类型数组.astype(

2017-12-16 00:22:54 36286

原创 Matplotlib

Matplotlib是最流行的Python底层绘图库,主要做数据可视化图表导包: import matplotlib.pylot as plt ………….绘图库 import numpy as np ………………………numpy库命令:// 折线图 折线图用于显示随时间或有序类别的变化趋势# 可以绘制多个图表plt.plot( x轴,

2017-12-15 00:19:14 603

原创 Jupyter Notebook

命令// 指定文件目录启动打开,必须有相关的解释器环境 (指定路径)jupyter notebook// 运行代码 shitf + enter ………………….. …………………………光标跳到下个代码 ctrl + enter ………………………………………………….光标指向当前// 命令行模式(esc) y

2017-12-14 23:57:21 256

原创 MarkDown语法

2017-12-14 21:18:55 117

转载 长连接与短连接

所谓长连接,指在一个TCP连接上可以连续发送多个数据包,在TCP连接保持期间,如果没有数据包发送,需要双方发检测包以维持此连接,一般需要自己做在线维持。  短连接是指通信双方有数据交互时,就建立一个TCP连接,数据发送完成后,则断开此TCP连接,一般银行都使用短连接。  比如http的,只是连接、请求、关闭,过程时间较短,服务器若是一段时间内没有收到请求即可关闭连接。  其实长连接是相对于通常的短

2017-12-08 23:17:34 168

转载 Scrapy-redis实现分布式爬取的过程与原理

Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Sc

2017-12-08 23:05:04 10945

转载 http和socket之长连接和短连接区别

TCP/IP TCP/IP是个协议组,可分为三个层次:网络层、传输层和应用层。 在网络层有IP协议、ICMP协议、ARP协议、RARP协议和BOOTP协议。 在传输层中有TCP协议与UDP协议。 在应用层有:TCP包括FTP、HTTP、TELNET、SMTP等协议                  UDP包括DNS、TFTP等协议 短连接 连接->传输数据->关闭连接 

2017-12-08 23:02:55 162

转载 关于request、response转发与重定向的简述

在做页面的请求与响应的时候我们多用request与response进行操作,而我们大家也知道,request是表示用户发向服务器的请求,而response是对用户请求的一个响应。     关于转发和重定向,通俗的讲转发就像是你向售后技术支持打电话问问题,打过去是客服小王接的,但是小王无法解决,他让你等会儿,别挂电话,然后他去把问题告诉小李,让小李过来帮你解决,虽然换了人解决可是还是在这个售后处...

2017-12-08 13:42:13 247

原创 巧用Anaconda Navigator创建虚拟环境

利用Anaconda3的来创建虚拟环境先安装虚拟环境./Anaconda3-5.0.1-Linux-x86_64激活一下环境配置,个人理解source ~/.bashrc切换到虚拟环境目录source activate env_namepip install 正常安装东西

2017-12-04 19:24:54 5227

转载 怎样用通俗的语言解释REST,以及RESTful?

我在这里的答案主要解释什么是REST? 为什么要用REST?不包括具体该如何使用REST风格,你可以在网上看教程去学习相关知识。要解释什么是REST,你应该先了解什么是API(Application Programming Interface,应用程序编程接口),形象一点说就是像一个公司比如腾讯,阿里巴巴之类,他们可以提供一个API,然后我们或者一些其他的小公司可以编一个软件去

2017-11-02 23:24:06 345

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除