自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 资源 (1)
  • 收藏
  • 关注

原创 SQL求用户的最大连续登陆天数

建表插入数据 create table tmp_continous( id STRING , time DATETIME );INSERT OVERWRITE TABLE tmp_continousSelect '201', '2017-01-01 00:00:00' union allSelect '201','2017-01-02 00:00:00' ...

2020-04-06 11:10:05 9789

原创 常识性概念知识图谱

搬运一篇美团知识图谱的文章,有兴趣的可以看看:https://my.oschina.net/meituantech/blog/5114377引用:常识性概念图谱建设以及在美团场景中的应用 - 美团技术团队的个人空间 - OSCHINA - 中文开源技术交流社区

2023-09-22 09:53:53 115

原创 FLINK CDC近期使用小结

CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术.

2023-06-09 09:48:54 1178

原创 基于bertService的二次精排

一、bertService安装可以自行百度,网络安装方案很多二、bertService启动# -*- coding: utf-8 -*-from bert_serving.server import BertServerfrom bert_serving.server.helper import get_args_parserdef main(): args = get_args_parser().parse_args(['-model_dir', '/Users/alibaba

2021-12-20 15:47:25 388

原创 Superset win10环境下安装部署

一、环境依赖Win10操作系统 anaconda python3.6二、开始安装创建虚拟环境,为了不让superset包与原先的包产生依赖关系(为避免出现不必要的错误,建议使用python3.6及以上版本)conda create -n superset python=3.6激活虚拟环境activate superset更新pippython -m pip install --upgrade pip安装superset 分别输入以下:pip install a.

2021-04-22 16:04:16 817 1

原创 高可用Hadoop大数据部署流程

背景随着公司业务飞速发展,数据体量急剧上升、运营指标需求多样化、精细化;为解决上述问题和实现合理化、规范化数据管理,提供稳定、可靠和适配的数据服务能力,大数据平台的建设迫在眉睫。另一方面,在对市场调研之后,由于我司业务处于政务环境网(与公有网进行了全方位隔离),只能通过成熟的云产品进行私有化部署,但价格不菲。例如阿里云大数据敏捷版本(功能相对不够完善:200万以上/年,持续付费/年)阿里云大数据企业版本(功能完善:1000万以上/年,持续付费/年)蚂蚁Oceanbase基础版(仅提供分布

2021-03-29 14:59:23 717

原创 Flink 六脉神剑秘诀

Flink是什么?Flink是一款实时计算框架,能够实现ms级别甚至更低的延时计算(流式处理),不少同学肯定会提及spark streaming(可认为是批处理,类似Hive;这几个框架只能做到准实时,ms级别的延时是达不到要求)。当然,如果你对延时容忍度高,那么可以选择这两个框架最具代表性的使用场景:阿里双11大屏交易总金额的实时刷新Flink如何实现流式处理?对于批处理而言,当前提条件限制之后,数据的输入是固定的;并且,在执行一次计算计划的时候,要么全部成功或者失败。对于流处理而言,

2020-05-28 16:43:38 314

转载 python 递归遍历 Json(容易理解且最好用)

import json#file = open("/Users/hzp/Desktop/multiwoz/data/multi-woz/delex.json")##a = json.load(file)##b = a['SNG01856.json']###c = open("/Users/hzp/Desktop/test.json",'w')#c.write(json.dump...

2020-04-16 17:36:17 6129

原创 C++解析决策树PMML文档

PMML三问PMML是什么?预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言。PMML价值是什么实现模型的跨语言部署。举个例子,模型是用python训练但是希望部署到JAVA或者C++环境中,解决方案是将模型以PMML格式文件导出,然后利用其他语言进行解析、部署PMML如何解析JAVA语言...

2020-04-01 09:58:33 1620 2

原创 Java解析pmml格式机器学习模型

背景 在实际工程项目中,我们训练和迭代模型一般使用Python,因此它提供了强大的算法包和非常方便的数据处理工具,所以能够快速试验。但是,算法模型部署成服务,Java语言和其相应的框架就显得优势明显了。为了更好地结合Python 与 Java各自的优势,PMML能够作为中间媒介,将模型以.pmml格式导出,然后利用java语言进行解析和部署PMML是什么? ...

2020-03-24 16:18:30 4552

原创 Lucene bm25 结合 jieba中文分词搜索

考虑到jieba分词能够补充词表,性能相对较好,因此用bm25搭配jieba分词做一个搜索的demo 思路:利用jieba分词对语句进行分词,再用空格键对分词结果进行拼接;然后利用luncene自带的 空格分词对拼接的字符串进行分词,实现依靠jieba分词中文的效果 JAVA代码如下package com.bm25;import org.apache.lucene.analysis...

2020-03-11 11:18:17 1364

原创 阿里数据研发/数据挖掘提前批录用

纪念一下今天,第一个OFFER,感谢阿里!秋招开始!大家加油!面经和学习总结在其他博客里面有,欢迎相互讨论和学习!2019-12-11更:又是一年的毕业季,希望师弟师妹们有个好offer,无论去哪里,适合自己才是最好的,最好能去不同的offer公司,实习一段时间,感触一下,毕竟亲身的体验才是最真实的。稳定取决于你自己,环境影响的量很小。...

2020-03-01 19:36:56 984 3

原创 Python细节探讨

以下是使用Python以来的细节问题,会陆续记录和更新,欢迎交流????????数据结构List:python中常用的数据结构,支持追加(append)、移除(remove)、指定位置添加(extend)、与Set(集合)的区别在于:List支出元素重复,Set不允许元素重复 Remove语法慎用 因为对于一个list进行index的Remove,移除一个元素之后,整个list的index...

2020-01-17 13:58:22 173

原创 MySQL事务、索引和SQL优化

为完善MySQL基础博文,另外开一片博文,讲一讲事务机制、索引和一些优化技巧。谈到事务,不免需要揪出MySQL中的引擎,常用的引擎有Myisam和Innodb,后者才具有事务机制(Innodb引擎)。并且,在Mysql5.7版本之后,默认引擎是Innodb,通常情况下选Innodb是正确的(这些概念性的东西,应聘的时候都会有所涉及,深浅略有不同)。关于事务 概念:数据库系统的一个逻辑单元...

2020-01-15 19:49:15 337

原创 Python多协程讲解及初学者调试工具better_exceptions

开发背景:一直以来,Python受到全局解析器的影响,多线程的性能较低;在Python3.5之后,Python asyncio正式发布,利用多协程对Pythony语法在并行条件下进行补充。线程定义:比如你需要完成一个任务,即从1加到100的和,这个任务可以看成是一个进程;然后你请了10个小学生,进行分批计算,每个小学生算10组数字。现在,每个小学生的任务,可以看成是一个线程,并且他们之间算数是...

2019-09-27 11:54:40 1033

原创 关于AJAX异步渲染的爬虫

禁忌:不要在违法的边缘疯狂试探,关于爬虫。。。特别是国家的网站和征信类似数据,这两天抓了一批人。。。这里给一个链接,有兴趣的可以看下http://www.sohu.com/na/340622822_161795?scm=1002.45005a.15d015e01a3.PC_NEW_ARTICLE_REC&spm=smpc.content%2Fnew.fd-d.6.1568246400...

2019-09-17 10:00:31 522

原创 文本分类心得(Bert模型使用)

正式入职了一段时间,接手了NLP相关任务,作为一个初学者,分享一点最近的所学心得和体会。稍后有时间更新,现在项目催的很紧,能力比较强的可以找我内推阿里秋招。可以私信我联系方法,个人会进行第一遍简历筛选。1.冷启动问题: 当文本数据量很少时(可称为冷启动阶段),一般采用概率统计方法,抽取文本的大体规则,实现需求,因为在少量的样本数据情况下,很难实现算法的较高精度。...

2019-08-02 10:25:03 2729 7

原创 机器学习查准率和查全率理解

半年之后突然需要算这个东西,概念忘的差不多了。今天google搜索一查,发现搜索排名前几的讲解,都是在将概念,贴公式(没什么不好,但没有短时间解决我的问题) 今天我们就从语文的角度来理解这两个东西。 举例:在标签过程中,我原始数据中标记19个正例(关注在正例)。然后用模型跑,结果发现了29个正例标签,并且,29个正例标签中,19个是对...

2019-07-04 19:09:37 1626 1

原创 纪余下的三个月学生时代

很久没写博客了,这几个月发生了很多事情,包括家里的,个人的,公司的等等,最近也一会忙着写毕业论文,博客没时间更新了,等到5-6月份入职之后,会重启博客,记录学习心得。以下就推荐近期有感的书籍吧,包括小说和专业知识书,有兴趣的同学可以看一下。 1、《人生》 2、《在痛苦的日子里》 3、《活着》 4、《JAVA核心...

2019-01-30 17:27:01 287 1

原创 大数据之路--Flink学习

Flink这块学习资料比较少,近期都在学习中,之后完善做一个总结,希望对自己和大家的学习有帮助,错误或者不足支持,恳请批评指正,谢谢!目前在学习大数据这块,随着计算成本的降低,和实际业务开发需求的提升,对流式数据的开发也更加频繁,各大公司比较常用的流式框架有:Spark、Storm、Flink;对于Spark而言:支持Spark Streaming,基于spark core,流式处理过程是...

2018-10-12 10:32:16 1531

原创 Scala几类基本常用类型(Array,List,Tuple,Set,Map)和常用的操作(map,foreach,reduce)

创建 Array,可变的同类对象序列,长度不可变,值可变:  val example = new Array[String](3)  创建长度为3的空数组,数组里的元素类型为字符串,数组赋值可以通过example(0) = "a"    注意:字符串是双引号,字符是单引号,在Scala里面也可以用  val example:Array[String] = new Array[String](3...

2018-08-28 11:29:54 1657

原创 阿里2019校招数据研发/数据挖掘终面交叉面

今天下午,所有的面试都面完了,9月初出结果,耐心等待ing,面试是北京打来的电话,不是杭州,不知道为什么,base选择的杭州;估计要到9月中旬才能发了,也不知道自己的具体情况,好运!问题描述:1、自我介绍2、学校的一些情况,选择了杭州?3、挑一篇你觉的最好的论文讲一下4、挑一个项目讲一下5、还有什么问题如何在这个方向快速成长应该多关注一下深度学习、强化学习等等(...

2018-08-23 16:38:08 1732 5

原创 2019阿里校招数据研发/算法工程师 hr面

2018-08-22更:下午6点接到hr电话,进行了25min左右的面试主要问题如下:1、你是控制专业,我不是很了解控制专业,你能大概给我讲解一下吗?并且告诉我这两天还要加面一轮交叉面,不知道是为什么,有知道的大佬可否私信告诉一下,谢谢!2、你印象中最深刻的项目是哪个?做了多长时间?平安科技的族谱项目,因为是这是第一份实习工作的第一个项目3、这个项目是如何实现的?作用是什么?你...

2018-08-22 20:51:48 3858

原创 2019校招阿里数据研发/数据挖掘三面总结

2018/8/20:阿里三面总结写在前面:面试是在13号进行的,面试时长15min左右,之前约的是视频面试1h左右的,面试官太忙了,因此转为了电话面试,主要围绕项目和个人未来规划,出去转了两天,因此晚更了,开始正题。1、自我介绍:围绕简历,讲述了一下个人研究方向,论文情况和简历的三份实习经历2、面试官对平安科技的族谱和爬虫比较感兴趣,就开始围绕了这两个东西。主要是:族谱和大宗商品是什么...

2018-08-20 09:52:21 3960

原创 2019阿里校招数据挖掘/数据开发一面总结

前两天刚面完一面,明天面二面,趁着印象还算深刻,记录下来,不管个人成功与否,希望对你们有参考意义;面试7点40开始,是一位小姐姐来电面的(二面得知,这个小姐姐是二面小哥的Boss......),感觉应该是统计学/数学专业的,至于为什么会有这样的猜想,后续会提到;1、上来就是对第二篇论文进行提问了,围绕这篇论文进行展开;1.1、层次采样时什么意思,代价敏感是什么意思?回答:之所以提出...

2018-08-11 14:18:55 2330 2

原创 2019年阿里数据挖掘/数据研发二面总结

2018-08-06 晚上7:00 进行了一个小时的二面,由于时间耗光了,后面又邮件补发了三道编程了,要求实现;博客按回忆顺序来写,不足之处,请多多谅解!问题一:你简历中上过的数据挖掘、机器学习等课程,是学校的研究生课程还是自己单独学习的;回答道:研究生课程有学习,自己单独私下也有学习1、监督学习和无监督学习的区别?分类回归一般属于哪种?聚类属于哪种?请举例你知道的相关有监督学习和无监...

2018-08-11 14:18:48 4257

原创 五大排序算法Python版本代码及其总结

后续会尽量完善:2018-08-01稳定排序:是指当有一个相等的数字进来时,它会确定性的放在其相等数字的后面1冒泡排序:时间复杂度:最好状态O(n),最差O(n2),空间复杂度O(1),属于稳定排序# -*- coding: utf-8 -*-"""Created on Wed Aug 1 08:36:54 2018@author: zhipengfunction:...

2018-08-01 09:36:55 323 2

原创 牛客网编程之二分查找

思路和代码如下:仅供学习,牛客网回复也属于本人,不是抄袭!1  首先题目限定了使用二分查找法2  可能出现重复,但是想一下,如果出现了重复,如果是出现再后面,肯定不用考虑,因为执行过程中会忽略,但是出现再前面,返回的索引就不对了,因此再找的得到元素的基础上,要再一个查询条件,查找前面是否存在重复,有则返回3  查不到元素,树立一个标志位 count ,查到致1,未查到就是0,返回时候判...

2018-07-20 09:42:58 606

原创 牛客网编程之句子反转

题目描述给定一个句子(只包含字母和空格), 将句子中的单词位置反转,单词用空格分割, 单词之间只有一个空格,前后没有空格。 比如: (1) “hello xiao mi”-> “mi xiao hello”输入描述:输入数据有多组,每组占一行,包含一个句子(句子长度小于1000个字符)输出描述:对于每个测试示例,要求输出句子中单词反转后形成的句子示例:输入:hello xiao mi输出:m...

2018-07-06 16:19:40 488

原创 牛客网算法错题笔记总结

1、给定节点数n后,求二叉树最多的结构结构数量num = C(2n,n)/n+1;其中n是给定的节点数2、平衡二叉树,在给定树的高度之后,求最少节点个数,递推求解,公式如下F(n) = F(n-1) + F(n-2) + 1       F(0) = 0;  F(1) = 1;F(2) = 23、具备时间序列标注能力的算法1、convoluntion neural network; 2、隐马科夫 ...

2018-07-06 16:06:17 323

转载 机器学习要点总结

对机器学习初学者的12条宝贵建议,转自:https://blog.csdn.net/Mbx8X9u/article/details/808514151. “表征+评估+优化”构成机器的主要内容!构成机器学习算法的 3 部分:表征(Representation):分类器必须用计算机可以处理的形式化语言来表示。相反地,为训练模型选择一个表征就等同于选择可训练分类器的集合。这个集合称为训练模型的「假设空...

2018-07-04 09:44:26 928

原创 机器学习训练集/开发集/测试集挑选

在实际应用领域,一般将数据集分成三块,训练集:用来训练算法;开发集:用来进行特征选择或者调参;测试集:用来检测算法的表现,因此测试集应该能够反映和包含现实的真正数据分布,而不是假设分布。在实际算法迭代过程中,我们最后希望得到的结果是算法在测试集上表现的非常优秀;但是,最近读吴恩达老师的笔记:有时可能我们需要决定投资多少去获取好的开发集和测试集。切记不要假定你的训练集分布和测试集分布必须是一样的。尝...

2018-06-11 09:54:12 996

原创 Linux shell学习总结

1、#!/bin/sh    定义脚本解释器,将shell语句翻译成机器语言                                       2、${var}   变量定义:通过$符号定义,变量又可以分为环境变量,脚本变量等;统计变量的信息有如下指令:(1) $$  shell本身pid进程号; (2)$?  shell上一条命令执行情况,真返回0;假返回1;也可以返回函数定义...

2018-06-08 11:43:17 487

原创 用python 第一次在牛客网在线编程

题目描述请设计一个算法能够完成两个用字符串存储的整数进行相加操作,对非法的输入则返回error输入描述:输入为一行,包含两个字符串,字符串的长度在[1,100]。输出描述:输出为一行。合法情况输出相加结果,非法情况输出error示例1输入复制123 123abd 123输出复制246Error代码部分:已经通过的检验;思路是:首先判断输入字符的长度,根据它给的条件,再去判断字符串里面是否存在...

2018-06-07 10:17:05 8009

原创 Java初学继承问题解析

初学Java,在继承的参数方法上,遇到一些问题,但是通过以下这个例子,很好的明白了这个过程,感兴趣的朋友可以跑一下,试试,很快就能理解了;class Father{ public Father(){System.out.println("father methods");}; public Father(int n){ System.out.println("father methods" ...

2018-06-03 11:38:41 217

原创 Python中不常使用却有效率的模块

1、itertools 模块:内部有combinations方法重点在组合,permutations方法重在排列2、slate、pdfminer PDF解析模块:解析PDF格式数据,前者返回一个字符串,之后就可以用Re正则找你需要的数据了;后者返回的是一个文本格式,可以逐行解析;3、XML文件解析模块:解析XML格式,解构之后是一个Tree形,可以用正则做;也可以用循环找数据;4、mu...

2018-05-30 17:25:31 335

原创 Hyperopt调参神器学习

现在又出了一个调参神器了:Hyperopt,还有Sklearn-Hyperoprt,现在做了一个Demo,仅供大家参考,但是有两点需要注意,我看网上没人说明,个人测试下来说明一下:请大家小心:1、以下测试代码,需要Python2.7跑,Python3.5会报错,已经找到报错的原因了:TypeError: 'generator' object is not subscriptable;报这个错之...

2018-05-22 11:33:10 5432 2

原创 使用JAVA按需求抽取HBase数据

最近做了点Hbase抽取权重的业务,也是第一次做吧,所以记录下来,仅供参考。代码已经注释,如果有问题,可以留言提问。package com.#data.uaa;import java.io.IOException;import java.util.ArrayList;import java.util.List;import com.#data.face.ScanEngine;import...

2018-05-22 09:46:40 994

原创 Scala 关于Json 解析问题技巧

Json 格式是一种常见的格式,在NoSQL关系型数据库中比较常见,但是NoSQL与关系型数据库相比,SQL一般无法被使用,所以通常采用解析的方法。Scala中正好有这个包,如果有大规模数据,可以再Spark上部署。但是大数据情况下,Map、Reduce可能会因为数据异常导致报错,因此我们需要用try-catch 模块会解决之一问题。Scala中有Either[L,R]数据类型,能够表示操作的返回...

2018-05-01 10:26:20 1730

原创 Python垃圾回收机制

在Python中,每个变量都是由三个部分组成,即:标识(id),类型和值。并且,在Python中,变量是标注,而不是盒子!Python常用的还有别名,举个别名的例子:a = [1,2,3]b = aa.remove(1)print(a)print(b)打印结果:a=[2,3],b=[2,3]从中可以看出,直接赋值过程,b仅仅是a的别名,a发生变化时,b随之发生变化。或者,认为它们...

2018-04-29 16:13:51 157

Analysis of noisy evolutionary optimization when sampling fails.pdf

描述当下最流行的不平衡数据处理方法,包括欠采样,过采样,加权处理等一系列技术手段和其中模型学习的过程,剖析原理和进行相关对比实验,表明上述处理方法的优劣,帮助MACHINE LEARNER 解决实际问题

2020-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除