SY_2333-CSDN博客

原创【爬虫】python使用selenium抓取淘宝中的商品数据

前言最近因为项目需要又得抓一批数据，和之前的scrapy不同，这次选择使用selenium来爬取。两种方法的区别如下：scrapy之类的库是基于网络请求来爬取的，也就是直接向目标服务器发送http请求，在这个过程中需要自己构造请求字段也就是json格式的request body。selenium一类的库是基于自动化测试的，我们只需要知道想要访问的链接就好，其它的（异步加载图片、信息之类的）交给浏览器来做。也因此在使用时需要额外下载浏览器以及对应驱动，比如googledriver。总而言之，虽然s

2021-09-13 16:46:32 3867

原创【面经】2022互联网算法岗面试总结

项目问答汇总介绍一下项目加入之后项目有什么可见进展算法知识点问答汇总1. 为什么网络输入需要进行归一化神经网络学习过程本质就是为了学习数据的内部分布（或者说内部数据之间的差异），一旦训练数据与测试数据的分布（总体数据分布）不同，那么网络的泛化能力也大大降低。另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度。2. 为什么要BatchNorm参考1：https://blog.csdn.net/qq

2021-08-26 16:08:12 993

原创【scrapy爬虫】爬取华为应用市场中所有应用的评论数据

前言项目需求需要爬取评论数据，在此做一个记录，这里爬取的是web端的数据，以后可能会考虑爬取android app中的数据。一、安装并创建Scrapy项目scrapy官方文档：https://docs.scrapy.org/en/latest/intro/install.htmlscrapy是一个比较好用的python爬虫框架，官方文档写得也比较详细。可以直接运行以下命令安装：pip install Scrapy安装完毕后，需要创建Scrapy项目，相当于是一个爬虫框架项目，在想要放置项目

2021-05-19 17:26:35 4609 22

原创【PyTorch】实现一个简单的CNN图像分类器

算是一个简单的deep-learning框架。从加载数据集开始，包括了模型设计、训练、测试等过程。一. 加载数据二. 模型设计三. 训练四. 测试

2021-02-10 20:16:42 10965

原创【读书笔记】《深度学习进阶，自然语言处理》总结记录

最近需要开始做nlp相关的东西，参考知乎的问答列了一个书单，其中有这本：《深度学习进阶，自然语言处理》。断断续续花了几周时间把这本书看完了，总结回顾了一下书中的大致内容，并在此做一个记录，不过详细的地方大家还是买书去看比较好。这本书比较好的就是不止有原理性地描述，还有正向与反向传播计算图的说明以及不借助pytorch、tensorflow等深度学习库的底层计算实现。由于主要涉及深度学习，在传统机器学习算法以及一些公式的推导上相比西瓜书和统计学习方法来说没有那么详细，但总的来说是一本很不错的书。一、神经网

2021-02-05 21:59:21 1588 1

原创【Android】Ubuntu14.04上配置TaintDroid（包含android4.3源码编译过程）

一. 创建ubuntu虚拟机因为本人的电脑都是windows系统，但是windows上似乎没办法编译Android源码，所以只能创建虚拟机，这里我使用VMware创建虚拟机，虚拟机版本是Ubuntu14.04，分配的最大空间是120G。二. 在虚拟机上安装JDKTaintDroid是一个非常老的工具了，如果不是最近项目需求我也不会去用它，它只支持到Android4.3及以下版本，所以安装的JDK版本必须是小于等于6的，这里我安装JDK SE6。Oracle 各版本JDK下载页面（需要注册登录下载）

2020-12-24 15:47:44 686 2

原创【Pytorch】我在kaggle Titanic竞赛上的整个流程记录

前言第一次尝试在kaggle上找机器学习（ML）项目练手，Titanic问题是官方的入门项目，在此做一个记录。kaggle官网：https://www.kaggle.com/加入竞赛进入官网之后左边那一栏的compete表示ML竞赛项目，点击某项竞赛后会有项目说明（Overview），数据集（Data）以及其他人对此项目的一些讨论（Notebooks、Discussion），点击join compete即可加入此竞赛。接下来要做的事就是使用数据集完成Overview中说明的任务，并将模型在测试集上

2020-09-03 15:41:58 1045 1

原创【pytorch】手动在网络中实现正向传播与反向传播代码解析

代码与教程此博文是关于pytorch中文教程中手动在网络中实现前向传播和反向传播部分的代码解析。先贴上教程来源与代码：教程为：https://pytorch.apachecn.org/docs/0.3/pytorch_with_examples_pytorch-tensors.html代码如下：import torchdtype = torch.FloatTensor# dtype = torch.cuda.FloatTensor # 取消注释以在GPU上运行# N 批量大小; D_i

2020-09-03 10:08:05 1819

原创 python3是如何使用线程的（Event与Condition）

创建线程python3中使用threading来创建线程，代码如下：from threading import Threadt = Thread(target = myfunction,args=(function_arg1,...))t.start()使用target指定线程需要进行的操作，创建一个线程实例后，在调用start()方法之前，线程不会被执行。可以使用t.is_alive()查询线程是否在运行。线程同步操作Event可以使用Event来对线程进行阻塞操作，基本的使用方法如下：

2020-08-31 16:14:55 1005

原创【CNN】卷积层参数与输入输出大小计算说明

基本计算公式W为输入大小，F为卷积核大小，P为填充大小(padding)，S为步长(stride)，N为输出大小。有如下计算公式：N=(W−F+2P)S+1N=\frac{(W-F+2P)}{S}+1N=S(W−F+2P)+1由上述公式很容易推得一些常用的卷积层参数——输入输出的大小不变，仅通道数量改变。# 一个卷积核大小为5*5的卷积层参数kernel_size = 5stride ...

2020-01-12 21:17:51 24562 1

原创《信息安全数学基础》第一章.整数的可除性

1.1 整除的概念、欧几里得除法1.1.1 整除的概念整除符号定义以及三个小定义：关于0、1、自身素数与合数的定义6个小定理（传递性、线性保持性等，均可由定义推导）1.1.2 Eratoshenes筛法平凡除法（Eratoshenes筛法）步骤素数无穷多个的证明1.1.3 欧几里得除法余数的定义、不完全商的写法最小非负余数、最小正余数、最大非正余数、最大负余数、绝对值...

2019-09-09 17:19:16 979

原创 GitHub的基本使用（入门）

注册打开网页版github：https://github.com/ ，直接注册一个账号就行。此时就可以直接在网页上创建自己的仓库并添加代码进去了，不过想要使本地仓库能够实时与其同步而不用自己手动上传的话还需要下载桌面版git。桌面版下载与配置下载地址：git-scm.com ，选择匹配电脑的合适版本下载并安装，安装时我按默认勾选。安装好之后打开Git Bash，可以勾选安装后自动打开，也可以...

2019-07-24 15:44:07 198

原创支持向量机（SVM）原理与公式推导

一. SVM简介支持向量机一般用于解决二分类问题，即给定数据集T={(x1x_1x1,y1y_1y1),(x2x_2x2,y2y_2y2),(x3x_3x3,y3y_3y3)…}，找到一个可以分开数据集的超平面：w∗⋅x+b∗=0(式 1.1)w^* \cdot x+b^*=0\qquad (式 \ 1.1)w∗⋅x+b∗=0(式 1.1)此最优超平面应当使支持向...

2019-05-21 16:30:34 1305

原创 Pytorch中的gather方法

官方说明gather可以对一个Tensor进行聚合，声明为：torch.gather(input, dim, index, out=None) → Tensor一般来说有三个参数：输入的变量input、指定在某一维上聚合的dim、聚合的使用的索引index，输出为Tensor类型的结果（index必须为LongTensor类型）。#参数介绍：input (Tensor) – The sou...

2019-05-14 14:51:47 7239 3

原创 python使用pandas将数据记录进表格

构造DataFrame在pandas中，表格数据基本都是以DataFrame保存的，所以一般需要先将普通数据转换为DataFrame格式再进行操作，有5种常用方法。引入库import pandas as pd，没有的需要下载：pip install pandas1. 由Series数据转换这种方式指定每一列为一个Series数据并给出列名，要求必须指定列名不然会报错，不要求每一个Serie...

2019-05-10 10:10:47 13924

原创 Python利用NLPIR与gensim做中文词嵌入

gensim中的word2vec模块首先下载gensim：pip install gensim本来我的环境是python2.7，pip下载失败，提示error: command 'E:\\Anaconda2\\Scripts\\gcc.bat' failed with exit status 1，找了一圈没找到原因，猜想可能是gcc版本不够，于是重装了Anaconda，换成了python3.6...

2019-04-19 11:13:14 674 1

原创 GitHub Page绑定自己的域名

很早就想写一个自己的网站，但仅仅是自用的话租服务器又不太划算，发现可以直接在github上搭免费的个人网页，就开始着手搭建了。在github上创建仓库直接右上角new repository：在repository name里填上“自己的名字+.github.io”，也就是前面的Owner名，这里由于我已经创建过了所以有提示。然后就可以直接在这个仓库里面写代码了，直接Creat new f...

2019-04-09 16:44:00 3732

原创 Python使用pandas读取excel表格数据

导入import pandas as pd若使用的是Anaconda集成包则可直接使用，否则可能需要下载：pip install pandas读取表格并得到表格行列信息df=pd.read_excel('test.xlsx')height,width = df.shapeprint(height,width,type(df))表格如下：得到如下输出，为一个4行5列的数据块：...

2019-04-08 16:14:04 99845 12

SY的博客