自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 Flink——支持的数据类型及UDF函数

数据类型基础数据类型Flink 支持所有的 Java 和 Scala 基础数据类型,Int, Double, Long, String…Java 和 Scala 元组(Tuples)Scala样例类(case classes)Java简单对象(POJOs)其它(Arrays, Lists, Maps, Enums, 等等)UDF函数函数类Flink 暴露了所有 udf 函数的接口(实现方式为接口或者抽象类)。例如MapFunction, FilterFunction, Process

2021-11-16 20:09:46 1174

原创 Flink——transform转换算子

1. 简单转换算子mapFlatmapFilter2. 键控流转换算子KeyedStreamKeyByDataStream → KeyedStream:逻辑地将一个流拆分成不相交的分区,每个分区包含具有相同 key 的元素,在内部以 hash 的形式实现的。滚动聚合算子(Rolling Aggregation)这些算子可以针对 KeyedStream 的每一个支流做聚合。sum()min()max()minBy()maxBy()reduce()pac

2021-11-15 14:57:57 893

原创 Flink——四种读取数据方式(集合、文件、kafka、自定义数据源)

Flink分别从集合、文件、kafka和自定义数据源四种方式中读取数据。代码如下:package apiTestimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.api.scala.createTypeInformationimport org.apache.flink.streaming.api.functions.source.SourceFunctionimp

2021-11-10 14:27:15 1444

原创 spring学习——概念与控制反转

理念:使现有的技术更加容易使用,整合了现有的技术框架。官网:https://spring.io/projects/spring-framework#overview官方下载地址: http://repo.spring.io/release/org/springframework/springGitHub:https://github.com/spring-projects/spring-framework导入依赖在maven repository 网站 https://mvnrepository.

2021-10-21 19:16:23 83

原创 Java序列化

转载自:https://www.cnblogs.com/9dragon/p/10901448.html概念序列化:将对象写入到IO流中反序列化:从IO流中恢复对象意义:序列化机制允许将实现序列化的Java对象转换位字节序列,这些字节序列可以保存在磁盘上,或通过网络传输,以达到以后恢复成原来的对象。序列化机制使得对象可以脱离程序的运行而独立存在。使用场景:所有可在网络上传输的对象都必须是可序列化的,比如RMI(remote method invoke,即远程方法调用),传入的参数或返回的对象都是可序

2021-10-11 14:29:47 52

原创 MyBatis 0基础入门

MyBatis是一个实现数据持久化的开源框架。ORMapping:Object Relation Mapping 对象关系映射Java到Oracle 的映射,以面向对象的思想管理关系型数据库开发方式:使用原生接口Mapper代理实现自定义接口原生接口方法MyBatis 框架需要开发者自定义SQL语句,写在Mapper.xml文件中,实际开发中,会为每个实体类创建对应的Mapper.xml,定义管理该对象数据的SQL。namespace 通常设置为文件所在包+文件名的形式

2021-09-30 15:58:46 96

原创 Jmeter中JDBC连接数据库及相关配置

使用环境:Jmeter 5.4.1 , JDK1.8 , mysql1. 配置工作下载数据库对应jar包下载地址:https://mvnrepository.com/artifact/mysql/mysql-connector-java本文使用的是mysql的 8.0.26版本将下载好的jar包放到 .\apache-jmeter-5.4.1\lib 目录下添加JDBC相关组件JDBC 连接配置组件【必选】:单击Test Plan>右键>Add>config elemen

2021-08-04 14:32:31 1755

原创 递归时间复杂度分析——master公式

若递归可以写成如下形式:T(n)=aT(nb)+O(nd)T(n) = aT(\frac{n}{b})+O(n^d)T(n)=aT(bn​)+O(nd)则时间复杂度计算如下:if log⁡ba>d\log_ba > dlogb​a>d ,复杂度为O(Nlog⁡ba)O(N^{\log_ba})O(Nlogb​a)if log⁡ba=d\log_ba = dlogb​a=d ,复杂度为O(Nd∗logN)O(N^{d*logN})O(Nd∗logN)if log⁡ba<

2021-01-03 18:50:46 376

原创 【新手向】爬取链家二手房信息并可视化

爬取链家二手房信息步骤定义一个url,程序向指定网站发送网络请求接收网站响应并解析响应结果response html根据需求筛选网站响应结果将筛选之后得到的数据保存本地存储代码import requestsimport pandas as pdfrom lxml import etree from pyecharts.charts import Barurl = 'https://cs.lianjia.com/ershoufang/'response = requests.ge

2020-10-26 21:41:06 2288

原创 SQL面试必考——null的统计

题目如下:再用count进行统计时,若使用count(*)或者count(1),不会忽略任何值,则相当于统计行数。count(列名)则统计具体的列,会忽略null值。如count(score)只会统计不为null的个数,而count(id)因为默认无null值,所以相当于统计所有行。avg(score) = sum(score)/count(score) 会忽略null值。因此,ADCE相同,DF相同。...

2020-10-15 21:18:51 2517 1

原创 七周学习数据分析——业务知识

模型未动,指标先行。如果你不能衡量它,你就无法增长它。指标核心指标好的指标应该是比率好的指标应该能带来显著效果好的指标不应该虚荣新增用户量很高,但成本也很高,则为虚荣指标。好的指标不应该复杂市场营销指标客户/用户生命周期:企业/产品和消费者在整个关系阶段的周期(潜在用户,兴趣用户,亲客户,老客户,流失用户,回流客户等)。用户价值: 用户贡献=产出量/投入量*100%, 用户价值=贡献1+贡献2+贡献3+…… 如金融行业以存款+贷款+信用卡+年费+……-风险-流失RFM模型:衡量用

2020-10-04 20:30:53 130

原创 SQL面试必考——过去一年,一个月

leetcode 1098. 小众书籍筛选出过去一年中订单总量 少于10本 的 书籍 。注意:不考虑 上架(available from)距今 不满一个月 的书籍。并且 假设今天是 2019-06-23 。筛选过去一年,用左连接,on进行筛选,因为有一些书一本没卖,没有订单,左连接能够显示出来。筛选过去一个月,用where,不能用on。因为用左连接时,on在进行筛选时,只能筛选右边的表,无法筛选左边的表。where可以把整行消除。在进行求和时,用sum()<10,无法包含null值,因为

2020-10-04 11:00:22 452

原创 SQL面试必考——计算留存率

leetcode 1097. 游戏玩法分析 V计算第一天的留存率法一:窗口函数找到安装游戏的时间,及每个玩家第一次登陆的时间,通过min()+窗口函数,可以既找到最小值,又保留原来的值。(若使用聚合函数group by则只能保留一组数)select player_id, event_date, min(event_date) over(partition by player_id) install_dtfrom Activity;计算第一天的登陆玩家人数,和第二天仍然登

2020-10-02 21:17:53 4226 2

原创 七周学习数据分析——数据思维

三种核心思维1.结构化将分析思维结构化,金字塔思维。(1)核心论点:塔顶,可能为假设,问题,预测,原因等。(2)结构拆解:自上而下,将核心论点拆解为分论点(3)MECE:相互独立,完全穷尽。论点直接避免交叉和重复,分论点尽量完善。(4)验证:用数据说话,将论点进行量化,能够去验证。2. 公式化上下互为计算,左右相互关联。一切皆可公式,最小不可分割。...

2020-09-29 19:18:32 243

原创 七周完成数据分析——序言

本专栏记录b站学习 7周成为数据分析师 视频的学习笔记,以及自己的一些理解。7周的总体框架为:数据思维业务知识excel数据可视化sql统计学python数据分析的结构层次:(1)底层数据的收集埋点,用户行为→原始数据(2)数据业务化将收集到的数据转换成可理解,可量化,可观察的业务指标。 原始数据→加工数据(3)数据可视化管理指标指标的监控和衡量。 加工数据→可视化数据/信息(4)数据决策和执行对数据进行洞察和分析。数据可视化→数据决策(5)数据模型决策指导需求,做成产

2020-09-27 15:03:03 117

原创 SQL面试必考——update的用法

627. 交换工资ps: 这题不应该叫交换性别吗。。。update用法: update 表名称 set 列名称=新值 where 更新条件;update salaryset sex = if(sex = 'm','f','m');或者update salaryset sex = case when sex = 'm' then 'f' else 'm' end;...

2020-09-22 20:33:37 359

原创 SQL面试必考——行转列

力扣618 学生地理信息报告https://leetcode-cn.com/problems/students-report-by-geography/题目:写一个查询语句实现对大洲(continent)列的 透视表 操作,使得每个学生按照姓名的字母顺序依次排列在对应的大洲下面。输出的标题应依次为美洲(America)、亚洲(Asia)和欧洲(Europe)。student表namecontinentJackAmericaPascalEuropeXiAsia

2020-09-22 14:00:35 230

原创 PyQt5(designer)可视化运行流程

将designer设计好的文件保存到指定文件夹,后缀为.ui。Win+R 输入cmd,cd到1中的文件夹路径中,输入pyuic5 -o name.py name.ui此时文件夹中的.ui文件转换为.py文件。在1的文件夹中创建main.py,内容如下import sysfrom PyQt5.QtWidgets import QApplication, QMainWindowimport mywindowif __name__ == '__main__': app = QApp.

2020-07-21 11:39:53 716

原创 python在元组和列表前加*的用法

今天又学习了一个python小知识点!记笔记!元组或者列表前面加*,就可以将列表或元组中的元素拆分成独立元素,如alist=[1,3,5,7]print('alist: ',alist)print('*alist: ',*alist)--------------alist: [1,3,5,7]*alist: 1 3 5 7之前都是通过循环索引来打印的…orz...

2020-07-16 15:31:54 1252

原创 华为机器学习岗一面二面凉经

4.22笔试,ac一道,5.30约面试时间,6.2面试,视频面,40分钟左右。自我介绍介绍一下你认为完成的最好的项目,项目背景,用到的技术,你在项目中担任的角色。项目的数据集如何获取的项目中遇到的困难的地方,如何处理的模型是如何进行调参的模型的损失函数是什么梯度消失是什么,如何解决介绍第二个项目完成精度与业内最好的精度相比差在哪为什么想到这样构建模型介绍第三个项目手撕代码输入[‘2’, ‘1’, ‘+’, ‘3’, ‘*’], 输出9,计算过程为(2+1)*3你还有什么要问的吗

2020-06-04 16:11:03 1201

原创 用二叉堆实现优先队列 Priority Queue

优先队列出队跟队列一样,从队首出队;但队内的次序由优先级决定,即优先级高的数据项可以插队,排到前面。二叉堆能够将优先队列的入队和出队复杂度都保持在O(logn)完全二叉树,如果用顺序表来表示的话,设根节点下标为1,若某节点下标为p,则其左子节点下标为2p,右子节点下标为2p+1,父节点下标为p//2.最小二叉堆代码:class BinaryHeap: def __init__(se...

2020-04-30 19:50:56 228

原创 抽象数据类型 “映射” :ADT Map

字典,通过保存key-data键值对的数据类型。ADT Map的结构是键值关联的无序集合。其中关键码key具有唯一性,通过关键码可以唯一确定一个数据值。通过散列表构造Map。class HashTable: def __init__(self): self.size=11 #可以任意设置,但为了便于求解,应该设为素数 self.slots=[None...

2020-04-29 22:11:35 720

原创 散列(Hashing) 的基本概念

查找的次数降低到常数级别。即事先知道要查找的数据项应该出现在什么位置。散列表(hash table, 哈希表),表中的每一个存储位置,成为槽(slot),可以用来保存数据项,每个槽有一个唯一的名称。有利于快速的查找定位。散列函数:实现从数据项到存储槽名称的转换的函数。常用的散列方法是求余数,将数据项除以散列表的大小,得到的余数作为槽号。完美散列函数:如果一个散列函数能把每个数据项映射到不同...

2020-04-29 19:09:54 835

原创 查找算法——顺序查找、二分查找

顺序查找无序查找def sequentialSearch(alist,item): pos=0 found=False while pos<len(alist) and found==False: if alist[pos]==item: found=True else: pos+=1...

2020-04-28 19:13:46 195

原创 递归、分形树、动态规划、背包问题

递归三定律1. 必须有一个基本结束条件(对最小规模问题的直接解决)2. 必须能改变状态向基本结束条件严禁(减小问题规模)3. 必须调用自身(把问题分解成规模更小的相同问题)递归为自顶向下求解,把最大规模逐步分解为小规模。

2020-04-28 03:46:59 229

原创 总结faster r-cnn可能会问到的面试问题

最近准备春招实习,由于之前做过faster r-cnn的项目,所以总结一下提前准备一下可能会被问到的问题。faster rcnn家族史r-cnn:用selective search选择候选框(约为2k个),然后缩放到统一大小,之后分别输入CNN得到特征,将输出特征再经过bbox和SVM进行分类和回归。多阶段检测。缺点:模型复杂,多阶段检测,卷积未共享,速度慢。svm和回归在神经网络外,c...

2020-04-24 16:50:38 1936 1

原创 用链表实现有序表

有序表就是表中的元素是按一定的逻辑顺序排列的,如按照数字大小排列,或字符的大小排列等等。使用链表进行一个构造由小到大排列的有序表。当加入新的数据时,需要对当前表中的数据进行比较,找到第一个比自己大的值,然后再插入。当进行搜索时,只要当前值比要搜索值大,则无需进行后面部分的遍历,直接返回False。class Node: def __init__(self,item): ...

2020-04-23 04:04:20 638 1

原创 k-means和DBSCAN原理代码及优化

损失函数 SSEmin∑i=1k∑x∈Ci∣∣x−μi∣∣2min\sum_{i=1}^k\sum_{x\in C_i} ||x-\mu_i||^2mini=1∑k​x∈Ci​∑​∣∣x−μi​∣∣2步骤(1)随机初始化k个中心点(2)计算每个点到k个中心点的距离,标记到最近的中心点对应的簇中(3)重新计算k个簇的中心点,即每个簇的质心(4)重复(2)和(3),直到中心点不再变...

2020-04-10 03:44:45 708

原创 找到数组中最大(最小)的k个数 python解法

方法一:内置函数sorted()def getLeastNumbers(self, arr: List[int], k: int) -> List[int]: return sorted(arr)[:k]sorted()内部的排序方法为归并排序时间复杂度O(nlogn) 空间复杂度O(logn)...

2020-04-09 02:08:24 4032

原创 树,表达式解析树

树的特点(1)每个节点有0个或多个子节点(2)没有父节点的节点称为根节点(3)每一个非根节点有且只有一个父节点(4)除根节点外,每个子节点可以分为多个不相交的子树二叉树每个节点最多有两个子节点。性质1: 在二叉树的第i层上至多有2(i-1)个结点(i>0)性质2: 深度为k的二叉树至多有2(k-1)个结点(k>0)性质3: 对于任意一棵二叉树,如果其叶结点数为...

2020-03-18 03:43:29 549

原创 排序算法

目录冒泡排序 **O(n^2^)**选择排序冒泡排序 O(n2)第一次循环 j=0,下标从0比到n-1第二次循环 j=1,下标从1比到n-2第二次循环 j=2,下标从2比到n-3……第 j+1次循环 j=j , 下标从1比到n-1-jdef bubble_sort(alist): n = len(alist) for j in range(n-...

2020-03-17 21:20:00 93

原创 栈和队列

栈线性表描述数据如何存放,栈描述数据如何进行操作。栈(stack)只允许元素在一端(栈顶,top)进行加入数据(push)和推出数据(pop)的运算,后进先出(LIFO,Last In First Out)。栈结构的实现栈可以用顺序表,也可以用链表。栈的操作:Stack()创建一个空栈push(item)压栈,添加新元素到栈顶pop()出栈,弹出栈顶元素peek()返回栈...

2020-03-15 18:06:12 122

原创 链表

线性表有两种:顺序表和链表单链表链表的一个结点包含 数据区和连接区。箭头方向为单方向的为单向链表,也叫单链表。需要有一个头节点p指向单链表的头第一个节点的位置,表示单链表的地址,最后一个位置为尾结点,指向空。图python中如何赋值变量的本质a=10先找到一块内存,存放整数10,然后再找到一块内存a,存放整数10所在的地址,从而建立连接。a=10 表示a所存储的内容指向10所在的地...

2020-03-15 03:49:31 262

原创 顺序表

顺序表的基本布局,表头位置,即容量扩展。

2020-03-12 17:42:12 82

原创 时间复杂度

数据结构与算法 时间复杂度

2020-03-12 02:21:42 107

原创 structuring ML projection——第二周

朝什么方向来优化模型在测试集中找100张识别错误的样本,然后统计出错原因,集中精力改善出错多的原因。DL算法对于训练集中的随机标记错误比较鲁棒。当训练集和测试集不同分布时,比如现有训练集200k, 实际应用数据集有10k, 则应把10k分成两部分,一部分给训练集,剩余给验证集和测试集。训练集205k, 验证集2.5k,测试集2.5k。如何解决数据不匹配问题人工进行误差分析,理解训练集...

2020-02-19 17:20:45 90

原创 structuring ML projection —— 第一周

正交化正交化表示系统各个部分成90度,即改变一个部分时不会连带改变另一部分。单实数评估指标用F1score 代替 precision 和 recall. 更方便评估分类器好坏。3. 开发集和测试集要在同一分布,并且要先制定好目标,再收集数据集,防止中途改变目标后数据集变化。当数据集足够大时(100,000),验证集和验证集无需30%,验证集足够大到可以检测不同模型的表现,测试...

2020-02-15 20:27:38 76

原创 Improving Deep Neural Network —— 第三周

超参数调试优先级

2020-01-26 19:31:19 118

原创 Improving Deep Neural Networks —— 第二周笔记

batch vs. mini-batchbatch指遍历完全部的数据集之后再进行梯度下降的方法,mini-batch是将数据集分成若干小的子集,分别进行梯度下降,这样可以提升速度。epoch表示遍历完一整个训练集,当使用batch梯度下降时,1个epoch只进行了1次梯度下降,当使用mini-batch时,1个epoch可以进行t次梯度下降。mini-batch size 的选择m...

2020-01-08 14:01:17 122

原创 Improving Deep Neural Networks——第一周笔记

开始学第二部分啦~训练集、验证集和测试集训练集用来训练神经网络;(学习)验证集用来调节超参数,并监控模型是否过拟合,可多次使用;(写作业)测试集用来评估模型的泛化能力,仅使用一次。(期末考试)参考大佬的博客,讲解的很明白 https://blog.csdn.net/kieven2008/article/details/81582591在传统学习中,数据集很少,通常可以划分为7/3...

2020-01-05 17:35:51 156

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除