大小宝-CSDN博客

原创第P2周：CIFAR10彩色图片识别

Pytorch入门实战《第P2周：CIFAR10彩色图片识别》

2024-04-12 17:55:49 1030

原创第P1周：实现mnist手写数字识别

Pytorch入门实战《第P1周：实现mnist手写数字识别》

2024-04-05 14:26:10 624

1 什么是 grpcgrpc 是一个高性能、通用的开源RPC框架，Google主要面向移动应用开发基于HTTP/2协议标准而设计的，基于ProtoBuf(Protocl Buffers)序列化协议开发。grpc 提供一种简单的方法来精确地定义服务和ios、Android 和后台支持服务自动生成可靠性很强的客户端功能库。2 什么是 protobufprotobuf 是一个具有高效的协议数据交换格式工具库（类似json），但是和Json相比，Protobuf有更高的转化效率，时间效率和空间效率都

2021-07-02 15:51:46 886 2

原创 Python 多线程定时任务（threading+apscheduler）

1、代码实现# -*- coding:utf-8 -*-import osimport sysimport threadingfrom apscheduler.schedulers.blocking import BlockingSchedulerfrom datetime import datetimeimport timedef timer(n): while True: print(datetime.now().strftime("%Y-%m-%d %H:%

2020-09-02 14:59:00 5977

原创 vim 自动格式化代码快捷键

vim 自动格式化代码1、原始vim编辑代码经常在复制配置文件或者代码时格式没有了，还得手动按空格、Tab，很不方便，下下面这样：2、自动格式化方法希望在 vim 中，像IDEA等软件中可以通过按如快捷键Ctrl + Shift + F 自动格式化代码。需要如下两步就可以实现：1 添加 vim 配置编辑 vim ~/.vimrc 配置文件（没有就创建），加入如下代码：file...

2019-11-28 14:20:12 13130 2

原创 Navicat 连接 MySQL 失败 : 1130 - Host xxx is not allowed to connect to this MySQL server

解决Navicat 报错： 11301、报错信息1130 - Host xxx is not allowed to connect to this MySQL server截图：2、报错原因报错原因：　　是mysql未开启mysql远程访问权限导致。3、解决办法授予远程登录权限：（1）、改表法：mysql -uroot -ppasswordmysql>use ...

2019-11-28 10:31:08 1522

原创 Python 获取当前路径几种方法

Python 获取当前路径的几种方法绝对路径1、os.path 方法# -*- coding: utf-8 -*-# !/usr/bin/pythonimport osimport syscurrent_directory = os.path.dirname(os.path.abspath(__file__))print(current_directory)输出：...

2019-11-27 14:24:45 52165

原创 Python 动态定义变量名

目的：实现根据传入的参数，如 n=6，动态的生成6个变量名，可以在后续程序中调用使用Python 动态定义变量名1、利用命名空间利用命名空间动态赋值在Python的命名空间中，将变量名与值存储在字典中，可以通过locals()，globals()函数分别获取局部命名空间和全局命名空间。示例：names = locals()listTemp = for i in rang...

2019-11-22 13:55:16 15920 1

原创 CentOS7 安装 MariaDB 10.2.4

MariaDB[root@master ~]# yum -y install MariaDB-server MariaDB-clientLoaded plugins: fastestmirror, langpacks(1/7): epel/7/x86_64/updateinfo ...(7/7): pgdg95/7/x86_64/primary_dbLoading mirror spe...

2019-11-19 13:40:35 1172 1

原创 HDFS 客户端的安装与使用

HDFS 客户端的安装与使用1、HDFS 客户端下载2、HDFS 客户端安装3、连接集群4、使用

2019-11-06 14:30:41 2407

原创 IDEA中自动补全变量名及类型

IDEA中自动补全变量名及类型IDEA中自动补全变量名如写入了如下代码： mapDataStream.keyBy { freshness => (freshness.channelId + freshness.date) }下面要为该代码段自动生成变量名：选中代码段，再按 Ctrl + Alt + v完成之后点击回车键...

2019-10-31 22:09:20 18095 2

原创【Python机器学习】之 SVM 支持向量机算法（二）

SVM 支持向量机（二）1、支持向量机这样，由于w,x\mathbf{w,x}w,x初始值的不同，最后得到的分割超平面也有可能不同，那么一定存在一个最优的超平面，这种方法就是支持向量机。由上述可知感知机模型，即在数据集线性可分的条件下，利用分割超平面wT⋅x+b=0\mathbf {w^T \cdot x} + \mathbf b = 0wT⋅x+b=0 把样本点划分为两类，通过计算...

2019-08-31 15:07:35 1023

原创【Python机器学习】之 PCA 算法（一）

PCA 原理1、PCA 原理推导假设有 M 个样本 x1,x2,...,xmx_1, x_2, ..., x_mx1,x2,...,xm ，每个样本点 xix_ixi 含有 N 个特征，则每个样本数据可以表示为： xi=(xi(1),(xi(2),...,(xi(n))x_i =( x^{(1)}_i, (x^{(2)}_i,..., (x^{(n)}_i)xi=(xi(1),...

2019-08-13 20:59:12 446

原创【Python机器学习】之 PCA 算法（二）

PCA 算法1、主成分分析1.1、主成分分析介绍主成分分析（PCA）是一种非常重要的无监督降维学习方法。其基本思想：找出原始数据最主要的方面来替代原始数据，使得在损失少部分原始信息的基础上极大地降低原始数据的维度。这一方法利用正交变换把由线性相关变量表示的观测数据转换为由少数几个由线性无关变量表示的数据，线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数，所以主成分分...

2019-08-12 21:46:40 943 1

原创【Python机器学习】之 Boosting算法

Boosting1、Boosting1.1、Boosting算法 Boosting算法核心思想：1.2、Boosting实例使用Boosting进行年龄预测：2、XGBoosting XGBoost 是 GBDT 的一种改进形式，具有很好的性能。2.1、XGBoosting 推导经过 k 轮迭代后，GBDT/GBRT 的损失函数可以写成 L(y,fk...

2019-08-03 12:40:11 5191

原创【Python机器学习】之梯度下降法

梯度下降法1、梯度下降法1.1、梯度下降梯度下降是一种非常通用的优化算法，能够为大范围的问题寻找最优解。梯度下降的中心思想就是：迭代地调整参数从而使成本函数最小化。特点：梯度下降法不是一个机器学习算法梯度下降法是一种基于搜索的最优化方法作用：最小化一个损失函数梯度上升法：最大化一个效用函数使用梯度下降方法的原因：很多机器学习的模型是无法直接求到最优解。...

2019-07-30 22:45:18 1216

原创【Python机器学习】之 K-Means聚类算法

K-Means聚类常见的聚类方法有：K-Means聚类、层次聚类、密度聚类、谱聚类和高斯混合聚类等。1、K-Means聚类1.1、K-Means聚类过程 K-Means 算法是一种无监督的聚类算法。K-Means核心思想是：给定的样本数据集，根据样本点之间的距离大小，把数据集划分成 K 个簇，并让簇内的样本点尽量距离近，而不同簇之间的距离极可能的远。1.2、K-Means聚类过程...

2019-07-20 07:46:13 760 2

原创【Python机器学习】之 SVM 支持向量机算法（一）

SVM 支持向量机支持向量机（SVM）是一个功能强大并且全面的机器学习模型，它能够执行线性或非线性分类问题、回归问题，甚至是异常值检测任务。1、感知机1.1、感知机模型假设现在要判断是否给某个客户办理信用卡，已有的是用户的性别、年龄、学历、工作年限、负债情况等信息，用户个人金融信息统计如下表所示：用户 \ 特征性别年龄学历工作年限负债情况（元）用户1...

2019-07-13 12:48:15 402 3

原创【Python机器学习】之 Linear 线性回归法

Linear 线性回归算法回归分析是一种预测性建模技术，主要用来研究因变量（yiy_iyi）和自变量（xix_ixi）之间关系，通常被用于预测分析、时间序列等。线性回归（Linear Regression）是利用线性回归方程的最小二乘法对一个或多个自变量和因变量之间关系进行建模的方法。假设一个房价-房屋面积数据信息情况如下图蓝点，通过线性回归方法拟合得到房价-房屋面积之间的线...

2019-07-06 17:58:28 5555 1

原创【Python机器学习】之 KNN算法

K 近邻算法1、KNN 算法1.1、KNN 算法特点思想极度简单应用数学知识非常少效果好可以解释机器学习算法过程中的很多细节问题更完整的刻画机器学习应用的流程既可以解决分类问题、也可以解决回归问题1.2、距离1.2.1 欧拉距离（常用）对于两个点a、b的距离计算：二维距离：(x1a−x1b)2+(x2a−x2b)2\sqrt{(x^a_1 - x^b_1)^...

2019-06-29 09:32:05 1833 5

原创 ES 6.x 和 kibana 6.x 安装配置

避免其他用户无法访问，添加权限：chmod -R 777 elasticsearch-6.4.0之后直接启动会报错，如下：(py27) [root@master elasticsearch-6.4.0]# ./bin/elasticsearch[2019-06-19T11:10:12,312][WARN ][o.e.b.ElasticsearchUncaughtExceptionHand...

2019-06-21 11:36:25 904

原创【20】Flink 实战案例开发（二）：数据报表

需求分析主要针对直播/短视频平台审核指标的统计统计不同大区每1 min内过审(上架)的数据量统计不同大区每1 min内未过审(下架)的数据量统计不同大区每1 min内加黑名单的数据量...

2019-06-19 20:27:42 5217 3

原创【19】Flink 实战案例开发（一）：数据清洗

1、应用场景分析数据清洗【实时ETL】数据报表1.1、数据清洗【实时ETL】1.1.1、需求分析针对算法产生的日志数据进行清洗拆分算法产生的日志数据是嵌套大JSON格式（json嵌套json），需要拆分打平针对算法中的国家字段进行大区转换最后把不同类型的日志数据分别进行存储1.1.2、架构图创建一个大的项目，用Maven来维护每个flink需求，即job创建一个...

2019-06-18 10:14:19 14298 4

原创 Linux查看进程、端口占用相关命令

1、netstat 命令1.1、查看端口进程1.1.1 -nlpnetstat -nlp | grep 端口号eg:netstat -nlp | grep 3001查询结果：1.1.1 -anpnetstat -anp | grep 端口号eg:netstat -anp | grep 3001查询结果：1.2、netstat 参数解析：usage: net...

2019-06-12 10:35:55 4996 1

原创【18】Flink 之支持的DataType和序列化

1、Flink支持的DataTypeJava Tuple 和 Scala case classJava POJOs：java实体类 - Primitive Types 默认支持java和scala基本数据类型 - General Class Types 默认支持大多数java和scala class - Hadoop Writables 支持hadoop...

2019-06-05 09:53:28 1578

原创【17】Flink 之并行度（Parallel）及设置

1、TaskManager 和 SlotFlink的每个TaskManager为集群提供solt。 solt的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。 Slot 是进程，如果使用Flink on Yarn 模式不需要考虑资源的配置。2、并行度(Parallel)一个Flink程序由多个任务组成(sou...

2019-06-04 20:53:20 15374

原创【14】Flink 之 Window（窗口）

1、Flink Window1.1、Window（窗口）聚合事件（比如计数、求和）在流上的工作方式与批处理不同。比如，对流中的所有元素进行计数是不可能的，因为通常流是无限的（无界的）。所以，流上的聚合需要由 window 来划定范围，比如 “计算过去的5分钟” ，或者 “最后100个元素的和” 。window是一种可以把无限数据切割为有限数据块的手段窗口可以是时间驱动的【Ti...

2019-06-04 16:24:52 2735 1

原创【13】Flink 之 Restart Strategies(重启策略)

１、Restart StrategiesFlink支持不同的重启策略，以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略，在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略，该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。配置参数 restart-strategy 定义了哪个策略被...

2019-06-04 11:51:03 1366

原创【12】Flink 之状态(State)管理与CheckPoint容错恢复

1、状态(State)管理与恢复1.1、状态(State)我们前面写的word count的例子，没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和 checkpoint。首先区分一下两个概念state一般指一个具体的...

2019-06-03 22:29:06 2588 1

原创【11】Flink 之 DataSet API（五）：Distributed Cache(分布式缓存)

1、Distributed Cache(分布式缓存)Flink提供了一个分布式缓存，类似于hadoop，可以使用户在并行函数中很方便的读取本地文件此缓存的工作机制如下：程序注册一个文件或者目录(本地或者远程文件系统，例如hdfs或者s3)，通过ExecutionEnvironment注册缓存文件并为它起一个名称。当程序执行，Flink自动将文件或者目录复制到所有taskmanager节点的本...

2019-06-03 14:35:16 770

原创【10】Flink 之 DataSet API（四）：Broadcast & Accumulators & Counters

1、Flink Broadcast(广播变量)1.1、介绍广播变量允许编程人员在每台机器上保持1个只读的缓存变量，而不是传送变量的副本给tasks广播变量创建后，它可以运行在集群中的任何function上，而不需要多次传递给集群节点。另外需要记住，不应该修改广播变量，这样才能确保每个节点获取到的值都是一致的一句话解释，可以理解为是一个公共的共享变量，我们可以把一个dataset...

2019-06-03 14:18:41 1541

原创【09】Flink 之 DataSet API（三）：DataSet Sink 操作

1、DataSet Sink 数据输出在Data Source部分和其他部分使用过写文件和打印操作，代码相同，只对理论进行介绍1.1、分类writeAsText()：将元素以字符串形式逐行写入，这些字符串通过调用每个元素的toString()方法来获取writeAsCsv()：将元组以逗号分隔写入文件中，行及字段之间的分隔是可配置的。每个字段的值来自对象的toString()方法p...

2019-06-01 22:26:25 1964

原创【08】Flink 之 DataSet API（二）：Transformation 操作

1、DataSet Transformations 部分详解Map：输入一个元素，然后返回一个元素，中间可以做一些清洗转换等操作FlatMap：输入一个元素，可以返回零个，一个或者多个元素MapPartition\color{red}{MapPartition}MapPartition：类似map，一次处理一个分区的数据【如果在进行map处理的时候需要获取第三方资源链接，建议使用MapPa...

2019-06-01 22:03:46 1324

原创【07】Flink 之 DataSet API（一）：Data Source

1、DataSet API之Data Sources基于文件readTextFile(path)基于集合fromCollection(Collection)实际中第一种较长使用，两种的操作方法同DataStream里Data Source的操作2、基于文件Data Source实践2.1、代码实现完整代码如下：package com.Batch;impor...

2019-06-01 15:54:16 3877

原创【05】Flink 之 DataStream API（三）：Partition 操作

DataStream API Partion 部分操作Random partitioning：随机分区dataStream.shuffle()源码Rebalancing：对数据集进行再平衡，重分区，消除数据倾斜dataStream.rebalance()源码##　Rescaling：Rescaling解释：举个例子：如果上游操作有2个并发，而下游操作有4个并发，那么上游的一...

2019-05-31 23:28:17 1117

原创【04】Flink 之 DataStream API（二）：Transformations 操作

DataStream API Transformations 部分操作keyBy()keyBy()中的数据类型要不是tuple，要不是自定义类型，如Long就不可以进行keyBy操作两种典型用法：dataStream.keyBy(“someKey”) // 指定对象中的 "someKey"字段作为分组keydataStream.keyBy(0) // 指定Tuple中的第一...

2019-05-31 23:17:23 599 3

原创 Java面试问题笔记——JVM

1、知识点汇总JVM是Java运行基础,面试时一定会遇到JVM的有关问题,内容相对集中,但对只是深度要求较高.其中内存模型,类加载机制,GC是重点方面.性能调优部分更偏向应用,重点突出实践能力.编译器优化和执行模式部分偏向于理论基础,重点掌握知识点.需了解内存模型各部分作用,保存哪些数据.类加载双亲委派加载机制,常用加载器分别加载哪种类型的类.GC分代回收的思想和依据以及不同垃圾回收...

2019-05-29 10:16:38 8042

原创 Scala拼接Json字符串添加函数为值

1、需求在程序功能实现中，通常需要通过解析数据拼接Json格式字符串，Json中出现的是 “key” : “value” 格式，有时value的值希望从程序中的变量获得，有时需要从程序中的函数返回值获得，而这两种获取方式的语法均相同2、代码实践2.1、语法Json字段格式如下："Key":"Value"此时 “Key”对应的值为字符串 “Value” ，如果想调用变量或者函数返回值，...

2019-05-28 16:14:28 1489

原创 Scala自定义封装类生成Json字符串

1、需求自定义实现Scala封装类，能够设定key-value值，并生成Json格式字符串，value值类型为任意，生成方法满足多级Json格式的需要2、实践开发2.1、引入pom依赖通过Scala实现使用json4s依赖实现，也可以使用阿里的fastjson依赖pom依赖如下： <dependency> <groupId>org.json4s...

2019-05-27 17:51:45 2917 3

原创【03】Flink 之 DataStream API（一）：Data Source 和自定义Source

实现无并行度的自定义Source1、run方法重写（主要的方法）：启动一个source注意：继承接口 SourceFunction的时候需要指定泛型，否则会报错如：SourceFunction，即run中产生的数据类型SourceFunction 和 SourceContext 都需要指定在大部分情况下，都需要在这个run方法中实现一个循环，就可以循环产生数据传入参数 (S...

2019-05-13 23:17:42 3679 3