自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yuxj的博客

慢慢学

  • 博客(33)
  • 收藏
  • 关注

原创 AWS Kinesis agent 代理服务的安装和使用

aws kinesis agent 代理服务

2023-04-23 17:20:24 603 1

原创 Pyflink教程(六):窗口函数

pyflink 窗口函数

2023-03-14 11:21:40 1174

原创 Pyflink教程(五):连接mysql

pyflink-mysql

2023-03-10 10:46:33 476

原创 Pyflink教程(三):自定义函数

pyflink

2023-03-08 15:38:00 748

原创 Pyflink教程(四):datastream_api

pyflink

2023-03-08 15:29:17 1681 7

原创 Pyflink教程(二):table_api&sql

pyflink

2023-02-24 11:04:37 747

原创 Pyflink教程(一):table_api&sql

pyflink table_api 学习笔记

2023-02-23 10:42:18 1943

原创 linux搭建pyspark环境,本地pycharm使用远程连接

linux搭建pyspark环境,本地pycharm使用远程连接

2022-11-07 15:13:58 1862

原创 在AWS-EMR上使用Ranger管理Atlas权限

aws-emr上安装ranger atlas,并使用ranger管理atlas权限

2022-06-07 16:02:03 950 3

原创 sagemaker在终端节点部署Tensorflow模型并调用

tensorflow2.0 h5 sagemaker 终端节点

2022-02-23 17:50:50 1187

原创 Linux下安装Anaconda3

背景本机信息:VMware Centos6需安装:Anaconda3-2021.05-Linux-x86_64.sh去官网下载个最新的就行。开始安装下载完成后,切换用户。 切换到安装包路径 cd /opt/software sh Anaconda3-2021.05-Linux-x86_64.sh 按提示输入yes,然后一直空格阅读说明 然后根据提示输入你想安装anaconda的位置 然后在来个yes成功,exit 重新登录该用户,就会发现前面有了个ba

2022-01-05 10:41:45 360

原创 机器学习-sklearn模型选择和最优参数选择

写在前言 当你决定调用sklearn中提供的模型去做回归或分类等操作的时候,在不考虑数据优劣的情况下,你就只能依赖sklearn中提供模型和对应模型参数来进行拟合和参数优化来达到最后的最优结果,这个时候大部分人就会处在我到底选择哪个模型,选择了模型之后我模型参数我该怎么选什么的纠结之中,因为一个模型的选择和参数的选择就决定了你的结果的上限是什么。比如,你现在要做一个二分类预测,手里有10w左右的数据,在sklearn中你可以选择的模型就很多了,临近、支持向量机...

2021-09-06 11:22:26 8550 1

原创 机器学习-随机森林(RandomForest)详解

1.什么是随机森林随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。 解读下上面的话:1.随机森林属于集成算法,属于集成算法中的bagging,另一种就是boosting了,集成意味着着该算法是多个算法组合而成 2.随机森林是由决策树集成的,这个很好理解,单木为树,多木成林...

2021-09-02 10:42:01 46001 1

原创 机器学习-逻辑回归(LogisticRegression)详解

逻辑回归详解1.什么是逻辑回归 逻辑回归是监督学习,主要解决二分类问题。 逻辑回归虽然有回归字样,但是它是一种被用来解决分类的模型,为什么叫逻辑回归是因为它是利用回归的思想去解决了分类的问题。 逻辑回归和线性回归都是一种广义的线性模型,只不过逻辑回归的因变量(Y)服从伯努利分布(离散分布),而线性回归的因变量(Y)满足的是高斯分布(正态分布),因此他们两个是很相似的(PS:线性回归是拟合一条直线,而逻辑回归是根据sigmoid将线性变成非线性,所以去掉sigmoid,他们一样的...

2021-08-27 16:10:16 15597 1

原创 streamsets-datacollector 安装与启动

streamsets-datacollector-all-3.21.0 安装步骤1.安装jdk8jdk安装网上教程很多,在这就不详细记录了2.下载streamsets官网https://archives.streamsets.com/index.html 注册账户后下载 Full TarballTarball for Linux(Tarball sha1)在下载的过程中 我们可以创建几个能用到的文件夹mkdir/data/streamsets/datamkdi...

2021-03-26 17:20:57 3141

原创 centos 安装superset教程

首先python 版本必须是3.6以上,因为用的pip的安装的 ,如果低于3.6 会提示说是不支持<3.6版本。1.最后创建一个虚拟环境,这些做避免和其他包起冲突(ps: 比如superset依赖的有些包需要低版本的,比如pandas之类python常用包,如果降低版本怕对其他项目造成影响#mkdir superset#cdsuperset# pipinstall virtualenv#virtualenv venv#. ./venv/bin/activate这样就O...

2020-06-17 17:23:19 684

原创 机器学习特征选择-逻辑回归RandomizedLogisticRegression

data = pd.read_excel(filename)x = data.iloc[:,:8].as_matrix()y = data.iloc[:,8].as_matrix()from sklearn.linear_model import LogisticRegression as LRfrom sklearn.linear_model import RandomizedLog...

2019-10-07 16:55:50 3671

原创 安装Anaconda 后匹配现在电脑的python版本

首先先去官网下载Anacondahttps://www.anaconda.com/distribution/先不管是python多少版本的 先下载后安装,安装教程百度然后打开cmd 输入conda -V 查看conda命令是否运行成功,如果都没啥问题输入conda create --name py36 python=3x--name py36 是名字 后面激活用的 ...

2019-09-20 15:05:43 777

原创 从移动端爬取-贝壳数据

1.下载模拟器我用的是pc的手机模拟器爬取-夜神模拟器,当然也可以使用自己 手机进行爬取 夜神下载 :https://www.yeshen.com/pg/yeshen?renqun_youhua=1797214下载完成 打开后,点击设->WLAN->修改网络,给连接的wifi设置代理。2.下载Fiddler https://www.telerik.com/...

2019-09-19 13:46:23 3858 1

原创 机器学习特征选择-使用假设检验法

#使用假设检验法import statsmodels.api as smY = df1["总价"].valuesX = df1[["建筑面积","室","厅","卫","中装修","毛坯","精装修","豪华装修","东","东北","东南","南","西","西北","西南","低层","高层"]]X_ = sm.add_constant(X)#使用最小平方法result = sm...

2019-09-12 15:11:56 1299

转载 Python实现CART算法生成决策树

https://blog.csdn.net/u012421852/article/details/79840409选择决策树 最优分割点或者是起始点gini越小则该向量越好

2019-08-28 17:50:36 973

原创 python 数据处理之分箱操作

什么是分箱?简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如水果 把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据 颜色就是条件什么样式的数据要进行分箱数据主要分为连续变量和分类变量,分箱的操作主要针对于连续变量。为什么要对数据进行分箱操作稳定性,时间复杂度,看的舒服,提高准确度 等等分箱分为 有监督和无监督先说有监督,意思就是 个...

2019-08-28 17:48:42 14426 1

原创 python 数据处理之使用get_dummies进行one-hot编码

使用方法df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b']})print(df)dummies = pd.get_dummies(df['key'], prefix='key')print(dummies)主要用于将分类变量进行one-hot的编码参数prefix 就是前缀的的意思 就是根据编码的向量名的前...

2019-08-28 09:11:33 2320

原创 赶集爬虫字体解码

from fontTools.ttLib import TTFontbase64_str = re.findall("charset=utf-8;base64,(.*?)'\)", page_source)[0]font = TTFont(BytesIO(base64.decodebytes(base64_str.encode())))cmap_ = font['cmap'].tabl...

2019-07-03 15:31:23 228

原创 python3 操作mysql数据库,通用性方法

   简介: 改方法是公司的一个老大哥写的,觉得非常有用,拿来学习和记录下。简单说明:该方法为python3操作数据库,分别是增删改查四种方法。直接调用即可!               1)查:query(self, sql, ret_type='all')  参数解释: sql为查询的sql。ret_type 有三种类型 分别是all,count,one   all为查询返回全部数...

2019-01-04 17:11:31 574

原创 数据的归一化处理和标准化处理

#值的归一化处理 1) 数据为什么做归一化处理    解析: 假设一个神经元有两个输入分别是x1和x2,权重分别是w1和w2,那么该神经元的信号加权求和为x1w1+x2w2。再假设x1属于[0~1],x2属于[100~1000],那么x2远远大于x1,那么x1w1就可以忽略不计,整个加权求和就只由x2w2来决定,小的信号就被淹没了!  所以需要将x1和x2都要做数据归一化处理避免造...

2018-10-30 15:25:16 2682

转载 python3对k-mean算法的理解(转)

转载:https://blog.csdn.net/zuoyonggang123/article/details/79879557   多谢    1.随机选取k个质心(k值取决于你想聚成几类)   random.sample(dataSet, k)  k你是想聚类的个数 dataset是数据集合 是数组   2.dataSet 取出一条数据 然后分别与centroidList中的k的...

2018-10-30 15:16:53 763

原创 python 中国裁决文书网 爬虫,完整版!!!

代码:import execjsimport requestsheaders={ "Accept":"*/*","Accept-Encoding":"gzip, deflate","Accept-Language":"zh-CN,zh;q=0.8","Cache-Control":"max-age=0"

2018-10-09 15:45:07 6080 5

原创 python3 selenium 模拟登陆 获取cookies 保存到redis(安居客)

# -*- coding: utf-8 -*-# @Time : 2018/9/18 9:23# @Author : yuxjimport timeimport jsonfrom selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWait # 等待元素加载的from s...

2018-10-08 13:31:23 1250

原创 linux 操作redis

wget http://download.redis.io/releases/redis-3.0.1.tar.gz$ tar xzf redis-3.0.1.tar.gz$ cd redis-3.0.1$ make#直接make 编译make#可使用root用户执行`make install`,将可执行文件拷贝到/usr/local/bin目录下。这样就可以直接敲名字运行程序了。...

2018-05-14 08:58:06 140

原创 python 操作gremlin

安装 我这用的是python3 ,但是python2跟这个差不多 我都试了pip3 install gremlinpython下面两种连接方式,看想用那种了,性能什么的都没测试1.python代码请求graph = Graph()g = graph.traversal().withRemote(DriverRemoteConnection('ws://hosts:port/gremlin','g...

2018-04-28 10:55:32 6799 2

原创 java 连接gremlin 简单的操作

org.apache.tinkerpop.gremlin maven 安装包 主要是driver 和 croe 反正都安装了把http://tinkerpop.apache.org/docs/current/reference/ 主要的语句都在这里import org.apache.tinkerpop.gremlin.driver.Client;import org.apache.tinker...

2018-04-28 09:22:58 9686 5

原创 pandas 读写mysql和读写csv

1.读取数据库res=pd.read_sql(sql,con=db)参数说明:    sql:就sql语句;   con:数据库连接(例如:db = MySQLdb.connect(host=db_host, user=db_user, passwd=db_pass, db=db_base, use_unicode=True, charset='utf8'));2.读取csvdf=pd.read_...

2018-03-27 11:13:33 2204

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除