cscainiao111-CSDN博客

原创 go学习-日常记录

1、Go 没有面向对象，可以使用定义一个结构体类型和该类型的一个方法来实现类似面向对象编程。

2023-07-18 15:04:52 543

原创 go语言学习中遇到的问题

问题1：go.mod文件中无法使用github.com/Knetic/govaluate v3.0.0。以上，或者有些项目没有遵循以上的原则，go mod为了能够正常使用它们，会在引入。原因是对于一些比较老的项目可能当时go mod还没出现，但版本早已经迭代到。

2023-07-18 14:48:24 53

原文链接：https://zhuanlan.zhihu.com/p/83987698最重要的快捷键ctrl+shift+A:万能命令行 shift两次:查看资源文件新建工程第一步操作module设置把空包分层去掉,compact empty middle package 设置当前的工程是utf-8,设置的Editor-->File Encodings-->全部改成utf-8,注释ctrl+/:单行注释光标操作ctrl+alt+enter:向上插入 shift+en

2021-01-22 15:32:47 374

转载 python 类中魔法方法汇总

魔法方法含义基本的魔法方法 __new__(cls[, ...]) 1. __new__ 是在一个对象实例化的时候所调用的第一个方法 2. 它的第一个参数是这个类，其他的参数是用来直接传递给 __init__ 方法 3. __new__ 决定是否要使用该 __init__ 方法，因为 __new__ 可以...

2020-01-02 11:11:01 872

原创实用linux命令汇总

1、ps -aux|grep -E 'uwsgi|nginx'|awk '{print $2}'|xargs kill -9 删除所有uwsgi|nginx进程2.find / -name nginx.conf 查找nginx配置文件

2019-12-19 17:19:40 101

原创爬虫chromedriver被识别怎么办？

模拟登录淘宝chromedriver被识别怎么办？ (2019-6-11更新)虽然chromedriver已经可以可以使用浏览器登录了，但是由于浏览器还是被chromedriver控制的，chromedriver有一些特性可以被js感知到，所以很多网站可以在网站中加入js逻辑来判断当前的浏览器是否是由driver控制，比如检测是否存在特有标识$cdc_lasutopfhvcZLmcfl、win...

2019-12-18 14:21:27 3952

原创 execjs执行js出现window对象未定义时的解决

最近在开始学习js逆向，里面很重要的一个方法就是把js代码扣下来用python模拟执行但是发现js里面有window对象时用execjs执行，当使用node.js环境时会出现window对象未定义的情况。记录下在网上找到的解决方案。1、当js代码少时，如果是使用window对象的某个方法，看能不能用其他的写法达到同样的目的。替换掉window对象。比如...

2019-10-29 17:38:18 10913 5

转载 python logging 模块学习

今天在崔大大的博客中看到了python logging 模块的学习，受益匪浅，记录下来链接：https://cuiqingcai.com/6080.html ，方便日后查看。以下是部分学习记录：## 1、基础使用import logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(pat...

2019-08-22 10:40:06 196

原创 pip 安装psycopg2 出现Command "python setup.py egg_info" failed with error code 1解决方案

1. 如果在CentOS上，你需要postgres开发包yum install python-devel postgresql-devel2. 如果在Ubuntu上

2019-04-08 10:58:39 2480

原创爬虫之readability、html2text应用

# pip install readability-lxml# pip install html2textimport requestsfrom readability import Documentimport html2textresponse = requests.get('http://www.infzm.com/content/146720')doc = Docume...

2019-03-29 17:03:21 351

原创 scrapy使用布隆过滤器

pip install scrapy-redis-bloomfilter在settings中这样配置：# Ensure use this SchedulerSCHEDULER = "scrapy_redis_bloomfilter.scheduler.Scheduler"# Ensure all spiders share same duplicates filter throu...

2019-03-28 11:57:14 921

原创 Superset linux和windows安装使用

1.1 windows安装（python3.7+win10）参考文章https://www.jianshu.com/p/b02fcea7eb5b ；https://zhuanlan.zhihu.com/p/28485468 1.1.1 安装虚拟环境 virtualenv 安装命令： pip install...

2019-03-20 12:13:07 1324

原创 windows pip安装出现 error: Microsoft Visual C++ 14.0 is required根本解决方案。基本pip安装出错的都能解决

既然提示缺Microsoft Visual C++ 14，那我们就安装不就ok了Microsoft Visual C++ 14.0的百度云下载地址为：https://pan.baidu.com/s/12TcFkZ6KFLhofCT-osJOSg提取码：wkgv下载完后双击按提示安装即可，亲测可用。...

2019-03-19 10:21:36 2121

原创 scrapyd部署scrapy爬虫项目

## 第一部分：环境安装1.安装python 以及爬虫项目需要的各类数据库（redis，postgresql）并远程连接数据库。2.pip安装爬虫项目需要的python库（requests，Scrapy，scrapy-redis，selenium）等等。## 第二部分：上传项目上传爬虫项目到linux。## 第三部分：scrapyd部署1.部署前需要确保爬虫项目无问题，直接...

2019-03-18 15:38:51 392

原创大众点评店铺评论信息获取

import sysimport osimport reimport requestsfrom pyquery import PyQuery as pqheaders = {"Host": 'm.dianping.com','Accept-Encoding': 'gzip',# "Accept": 'text/html,application/xhtml+xml,applic...

2019-01-16 19:39:22 2986

原创爬虫破解58同城租房信息字体加密（附源码）

详细说明请看：https://blog.csdn.net/m0_37156322/article/details/84658872以下是详细代码import base64from io import BytesIOfrom fontTools.ttLib import TTFontimport requestsimport refrom lxml import etree...

2019-01-16 18:47:16 5169 5

原创爬虫使用mongodb查询创建索引

创建索引conn = pymongo.MongoClient(host='127.0.0.1', port=27017)db = conn.weibocollection = db.weibo_testcollection.create_index([('data_id', 1)])添加索引也可以添加多个索引collection.create_index([('data_i...

2018-09-10 16:44:35 512

原创 pandas 中dataframe 中的模糊匹配与pyspark dataframe 中的模糊匹配

1.pandas dataframe 匹配一个很简单,批量匹配如下df_obj[df_obj['title'].str.contains(r'.*?n.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次pyspark dataframe 中模糊匹配有两种方式2.spark dataframe api, filter rlike 联合使用df1=...

2018-08-28 11:33:47 11538

原创 docker安装

安装docker 之前设置docker仓库sudo yum install -y yum-utils device-mapper-persistent-data lvm2sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repoubuntu需要额外执行下面的命令 ...

2018-08-10 14:56:36 155

原创 scrapy遇到的坑

1.有时候我们爬取数据跑了半天，突然报错了，例如网络中断，我们想继续爬取，不需程序从头开始爬取，可以采取下面的方案要启用一个爬虫的持久化，运行以下命令:scrapy crawl somespider -s JOBDIR=crawls/somespider-1然后，你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。恢复这个爬虫也是同样的命令:scrapy ...

2018-08-09 14:56:04 1397 1

原创 mysql主从配置

MYSQL主从配置1.1 部署环境主(master_mysql): 192.168.1.200从(slave_mysql): 192.168.1.2011.2 安装mysql主和从: yum install mysql-server1.3 配置1.3.1 主配置(master_mysql配置)vim etcmy.cnfserver-id=200 #设置主服务的ID...

2018-08-08 16:27:24 207

原创分析ajax爬取拉钩网

首先进去拉钩网站，搜索python，鼠标右键检查，页面如下分析可以知道网页是ajax加载的查看preview发现数据是在result里面查看headers里面，分析请求的接口是https://www.lagou.com/jobs/positionAjax.json?city=%E6%88%90%E9%83%BD&needAddtionalResult=fals...

2018-08-06 10:49:30 290

原创 python爬取智联招聘信息

import randomimport refrom time import sleepimport requestsfrom tqdm import tqdmimport user_agentsimport csvdef get_page(city,keyword,page): # 构造请求地址 paras = { 'jl': city, #搜索...

2018-05-17 20:22:04 618

原创 mysql常用操作

启动mysql数据库1.运行窗口servers.msc2.net start mysql57 SQL1简述-- SQL(Structured Query Language): 结构化查询语言(关系型数据库的编程语言)-- DDL(数据定义语言): create(创建) / drop(删除) / alter(修改)-- DML(数据操纵语言): insert(插入) / delete(删除) /...

2018-05-17 19:58:37 410

xx117501的博客