自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 Kylin迁移安装文档

Kylin 安装下载从 Apache Kylin下载网站(https://kylin.apache.org/download/) 下载一个适用于您 Hadoop 版本的二进制文件。例如,适用于 HBase 1.x 的 Kylin 2.5.0 可通过如下命令行下载得到:cd /usr/local/wget http://mirror.bit.edu.cn/apache/kylin/apache-kylin-2.5.0/apache-kylin-2.5.0-bin-hbase1x.tar.gz解压

2020-05-11 11:18:55 317

原创 爬虫-深度学习(1)

近期公司安排了几份爬虫项目的工作, 经过几天的奋战, 基本功能都已实现, 一时间增加了对爬虫的兴趣.为了进一步提升自己, 闲暇时间摸索着学习下爬虫工作中遇到的深度学习的知识爬虫之路很坎坷, 有时间就会整理些笔记, 供大家学习&爬坑。

2022-09-06 18:07:58 438 1

原创 logging文档

###logging.basicConfig函数各参数:filename: 指定日志文件名filemode: 和file函数意义相同,指定日志文件的打开模式,'w'或'a'format: 指定输出的格式和内容,format可以输出很多有用信息,如上例所示:% (levelno)s: 打印日志级别的数值% (levelname)s: 打印日志级别名称% (pathname)s: 打印当前执行程序的路径,其实就是sys.argv[0]% (filename)s: 打印当前执行程序名% (func

2021-09-14 16:45:52 272

原创 Base64简单加密

Base64加密字符串加密# 想将字符串转编码成base64,要先将字符串转换成二进制数据import base64import zlib# 先将字符串转换成二进制数据org_str = "print('hello')"bytes_str = org_str.encode("utf-8")# 再压缩# 得到的加密后的字符串compressed_str = zlib.compress(bytes_str)print(compressed_str)# 然后base64加密encod

2021-09-13 10:03:10 463

原创 django - jd_scripts

+QQ: 2427212923

2021-04-13 13:18:16 283

原创 Python和Pygame游戏开发指南

Python和Pygame游戏开发指南笔记一、Pygame知识点pygame.init()pygame.time.Clock()pygame.display.set_captionpygame.display.set_modepygame.display.update()pygame.time.wait(1000)pygame.draw.***pygame.eventpygame.quit()二、零碎知识点assert语句一条a

2021-03-03 16:45:04 444 1

原创 本地进程的那些命令~

1. 快速关闭相同程序多个进程taskkill /f /im [进程名]2. 解决本地电脑与远程服务器无法复制粘贴结束 rdpclip.exe 进程

2020-11-09 09:44:02 99

原创 Nginx文档

一. 安装Nginx1. 将系统软件包更新为最新版本yum -y update2. 使用YUM软件包管理器从EPEL存储库中安装Nginx HTTP服务器yum install epel-releaseyum install nginx3. 启动,并使它能够在系统启动时自动启动systemctl start nginxsystemctl enable nginxsystemctl status nginx4. 配置防火墙以允许Nginx通信firewall-cmd --zone=

2020-09-28 15:03:35 134

原创 GitHub图片无法显示

解决GitHub图标头像或者项目图片无法显示第一步: 去查git网站ipraw.githubusercontent.com我查到的是 199.232.68.133第二步: 修改hosts文件hosts文件位置:C:\Windows\System32\drivers\etc\hosts打开后在最后添加:'格式: 查到的ip git网址如: 199.232.68.133 raw.githubusercontent.com...

2020-09-22 11:01:19 199 1

原创 机器学习知识点(一)

评估指标1. 分类任务评估指标1) 准确率(accuracy)准确率 = 正样本数 / 总样本数2) 精确率(precision)和召回率(recall rate)精确率和召回率是矛盾统一的一对指标.TP是正类样本中被分类器预测为正类的数目,FN是正类样本中被分类器预测为负类的数目,FP是负类样本中被分类器预测为正类的数目,TN是负类样本中被分类器预测为负类的数目。精确率 = TP / (TP + FP)召回率 = TP / (TP + FN)3) F1Score和ROC曲

2020-09-11 13:44:40 170

原创 机器学习: ①绪论: 着手写作灵感来源

今天看到一句话:写作不止只为以后方便查阅,更是对自己思维模式的训练,是对自己知识盲区的查漏补缺。未来也许并不会从事科研工作,但通过写作锻炼出来的凝练思维逻辑和清晰表达复杂信息的能力,必将对我未来从事的每一样工作都有所裨益以后每天抽点时间写一套机器学习的文档ヾ(◍°∇°◍)ノ゙加油 !...

2020-09-10 16:50:36 90

原创 Python2与Python3区别整合

一、数据类型方面1) 报错情况: TypeError: ‘range’ object does not support item assignment原因: range() 返回的是“range object”,而不是实际的list值解决方法: 将a = range(0,N)改为a = list(range(0,N))2) 报错情况:...

2020-08-20 16:04:47 90

原创 法律纠纷信息检索(爬虫)

一、程序所需环境① 最新版的chrome和firefox浏览器, 以及相应的chromedriver.exe, geckodriver.exe② Python 3.7③ Python包: scrapy, baidu-aip, selenium ...二、进度 + 问题 + 难点1.中国裁判文书网: http://wenshu.court.gov.cn1) 该网站难点是反爬机制很多2) 该程序目前只能通过selenium调用firefox浏览器(chrome页面是空白网页)3) 该网站返回结

2020-08-20 15:49:35 1525

原创 pycharm永久激活

版本只能是2019.1欢迎评论

2019-11-04 08:35:25 647 3

原创 集群监控页面爬取hive状态, 并模拟页面重启hive

coding=utf-8import httplibimport gzipimport StringIOimport jsonimport osdef get_cookie():header = {‘Host’:‘192.22.107.97:9999’,‘Authorization’:‘Basic YWRtaW46YWRtaW4=’,‘Accept-Language’:‘zh-C...

2019-09-20 11:24:45 303 1

原创 Hive表comment中文乱码解决方案

hive注释中文乱码问题:针对元数据库metastore中的表,分区,视图的编码设置。 1、进入数据库metastore中修改mysql编码设置。 2、修改metastore的连接URL。1、修改表字段注解和表注解进入mysql 选择hive库执行:alter table COLUMNS_V2 modify column COMMENT varchar(256) character...

2019-09-20 11:02:28 1715

原创 pandas基本操作

一. 导入数据pd.read_csv(filename):从CSV文件导入数据pd.read_table(filename):从限定分隔符的文本文件导入数据pd.read_excel(filename):从Excel文件导入数据pd.read_sql(query, connection_object):从SQL表/库导入数据pd.read_json(json_string):从JSON格...

2019-09-09 16:18:13 117

原创 DASK

一、什么是DASK?Dask 是一个开源项目,为你提供 NumPy 数组、Pandas Dataframes 以及常规 list 的抽象,允许你使用多核处理器并行运行它们的操作。参考:在 Python 中,如何运用 Dask 数据进行并行数据分析...

2019-08-19 08:49:27 8594

原创 Flink 入门(Windows)

a

2019-07-25 16:49:08 107

原创 Python - matplotlib

import matplotlib.pyplot as pltplt.subplot(221) # 第一行的左图plt.subplot(222) # 第一行的右图plt.subplot(212) # 第二整行plt.show()# 注意:其中各个参数也可以用逗号, 分隔开。# 第一个参数代表子图的行数;第二个参数代表该行图像的列数; 第三个参数代表每行的第几个图像。...

2019-07-25 16:48:50 79

原创 Python-Pandas

获得行索引信息df.index获得列索引信息df.columns获得df的sizedf.shape获得df的行数df.shape[0]获得df的列数df.shape[1]获得df中的值df.values

2019-07-25 16:48:35 114

原创 linux 常用指令

显示文本行数:临时设置行显示: esc + ‘set nu’永久设置行显示: vim ~/.vimrc + ‘set nu’

2019-07-25 16:48:15 143

原创 sql 常用指令

contact(): 拼接cast(): 类型转换current_date(): 返回的是当前会话时间,而sysdate返回的是服务器时间 格式:yyyy-mm-dd HH:MM:SSround(): 用于把数值字段舍入为指定的小数位数datediff(): 返回两个日期之间的时间...

2019-07-25 16:47:56 72

原创 python 单词字母反转, 对应位置大小写不变

和同学无意交流时, 说到的他的朋友刷面试题目遇到的一个变成小题目,直接附代码:words = 'This is an Apple on eBay'fun = lambda m, n: m.upper() if n.isupper() else mprint(''.join(fun(m, n) for m, n in zip(' '.join(i[::-1] for i in words...

2019-07-24 13:16:37 1798

原创 自动化特征工程(featuretools)

一、特征是什么?在机器学习中,特征可以描述为解释现象发生的一组特点。当这些特点转换为一些可测量的形式时,它们就称作特征。二、特征工程特征工程可以简单定义为从数据集的已有特征创建新特征的过程。三、特征工程必要性一个预测模型的性能很大程度上取决于训练该模型的数据集的特征质量。如果能创建新特征来帮助向模型提供有关目标变量的更多信息,那么它的性能将会提升。因此,当数据集中没有足够有用特...

2019-07-12 16:05:59 4463

原创 离线安装python包(附示例:featuretools)

一、基本方法:  1、逐个包安装  2、批量安装 二、基本步骤:(示例:featuretools)  step1:    · 下载包: msgpack-0.6.1-cp27-cp27mu-manylinux1_x86_64.whl    · pip install msgpack-0.6.1-cp27-cp27mu-manylinux1_x86_64.whl  step2:   ...

2019-07-10 16:07:18 2036 1

原创 软件、组件、插件、工具下载地址汇总

Hadoop组件Flink:https://flink.apache.org/downloads.htmlKafka:http://kafka.apache.org/downloads工具Netcat:https://eternallybored.org/misc/netcat/ (Netcat是一个有“瑞士军刀”美誉的网络工具)欢迎评论补充...

2019-07-03 13:06:06 275

原创 Kafka 可靠性和一致性

1. 可靠性为了保证数据的可靠性,我们最少需要配置一下几个参数:1. producer 级别: · acks=all(或者 request.required.acks=-1) · 同时发生模式为同步 producer.type=sync:Leader 在返回确认或错误响应之前,会等待所有同步副本都收到悄息 2. topic 级别: · 设置副本数 repli...

2019-07-02 10:07:31 643

原创 Python Data Analysis(Python 数据分析)

第一章:Python程序库入门第二章:Numpy数组统计学与线性代数

2019-06-28 15:48:10 1451

DDLTask.rar

完美解决hive中文注释乱码问题 个人主页: https://blog.csdn.net/weixin_39916734

2019-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除