自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 在REHL6.7上安装gcc 4.9.3过程

背景:由于公司服务器上使用的是REHL6.7,环境离线,且为生产环境,尝试在上面安装infomap这个包时报gcc的版本不对,又不能动生产环境上的gcc版本,只能想着离线拉一个和生产版本一致的系统把环境安装好后再迁移过去系统环境准备通过docker search查找REHE找到如下镜像刚好有个版本一致的6.7的,通过pull命令拉下来后大概600M多。Python环境准备里面默认的版...

2019-08-16 17:49:57 728

原创 spark使用独立的Python环境提交任务

背景由于需要在公司的大数据平台上使用自己的Python环境,折腾了很久,特此记录先说几个坑:需要注意版本,不同的spark版本会有些不同,当前我的spark版本是2.2.1,如果以下的方式不生效,记得先看看版本;由于公司平台的环境是离线的,pip down下载的包是需要和硬件架构匹配的,我在mac上pip down的包拿到Linux下是无法正常安装的,建议看一下这篇文章的介绍:htt...

2019-07-30 10:31:09 5595 12

原创 pyspark中timestamp字段类型过滤的细节

背景假设存在以下数据,且time_stamp列的schema为TimeStamptime_stampFeature2019-07-22 00:00:00.044A2019-07-22 00:00:00.056B2019-07-22 00:00:01.090B2019-07-22 00:00:01.099A2019-07-22 00:00:02...

2019-07-23 16:34:00 1972

原创 pyspark下kafka+streaming落地数据到HIVE中

网上查找的kafka通过spark streaming落地到HIVE的方案一般都是Scala写的,为此碰到了很多的坑,特此记录一下使用pyspark来实现实时落地到HIVE的方案说在前面spark Streaming 接受kafka的数据落地HIVIE有2个原生的问题偏移量管理问题:一般建议都是使用直连的方式连接kafka,而不是接收器的方式,所以需要直接来管理偏移量小文件问题:每个...

2019-07-03 17:24:19 2120 2

原创 pyspark中如何使用sql windows函数进行时间窗口的计算

在实际业务中,在某一行的计算需要利用到改行前后的一些信息,例如,当前时间前1天内的汇总,或当前时间前1h的最大值和当前值的差值等等在spark 1.4之后,提供了sql.windows函数,其形如:from pyspark.sql import Window>>> window = Window..partitionBy("country").orderBy("date...

2019-05-27 15:10:40 4080 2

原创 Mac下Gephi报内存溢出的错误修改方法

网上一般能搜到gephi报内存溢出的错误修改方法,就是改/etc/gephi.conf这个文件,但是mac下的这个文件是处在 /Applications/Gephi.app/Contents/Resources/gephi/etc下的,与其他系统的不同。至于修改方法都是一样的:# command line switchesdefault_options=“–branding gephi -J-...

2019-03-18 16:14:24 3504 2

原创 在pyspark上实践graphframes的邻居汇聚函数AggregateMessages

在调试graphframes中应用邻居汇聚函数AggregateMessages,该函数用于收集各个顶点的邻居信息,并使用一定的逻辑处理这些收集起来的信息,网上使用Python来应用该函数的资料非常少,唯一好一点的是github上的一个该函数的测试用例,如下:def test_aggregate_messages(self): g = self._graph("friends")...

2019-03-05 16:47:10 1368

原创 mac graphX通过python调用

spark中的GraphX模块是没法直接通过python的接口调用的,都是直接使用的Scala,这对只熟悉python的人来说太痛苦了,并且Scala中的基础数据结构也是RDD,通过RDD来描述点和边,但做数据分析的话,明显对Spark 的DataFrame更熟悉一些,所以就研究怎样用python来调用GraphX模块。查了很多资料,总的来说是通过应用graphFrames这个Apache的包,...

2019-03-01 18:09:32 1361 1

原创 使用部分异常观测数据进行异常检测(翻译自 Anomaly Detection with Partially Observed Anomalies)

导语:这篇文章是蚂蚁金服2018年在WWW大会上投中的一篇paper,介绍如果使用少量标注的异常样本进行模型训练,也就是常说的半监督模型,刚好最近在做这个方面的内容,将其翻译过来备查。摘要本文研究了异常检测问题。以往的研究大多依据是否有标签来使用有监督或无监督方法,可用。但是,总是存在一些不同于这两种标准模式的场景。本文中,我们处理了存在部分观测异常的场景,即我们拥有大量未标记的样本和一...

2019-01-17 18:08:40 4905

原创 Excel 中列出所有满足条件的项

Excel中从一个总表中,列出所有满足条件的项,用来做二级联动列表的数据源:数组公式为:=INDEX(D:D,SMALL(IF($F$2:$F$255=$G$1,ROW($F$2:$F$255),65536),ROW(1:1)))&""其中,D列为提取数据的列,F列为标记列,G1为指定的条件但是,数据源中存在空行,下拉列表不美观,所以使用=INDIRECT("对照表

2015-07-02 10:13:49 9553

原创 VBA 中COMBOBOX下拉列表的收起

在使用VBA的COMBOBOX组件的时候,想制作一个点击单元格即自己弹出下拉列表,点击其它单元格更改COMBOBOX的位置,同样的弹出下拉列表的功能,遇到了这样的一个问题:COMBOBOX提供了DROPDOWN的方法,但是却没有提供收起列表的方法,所以如果你点击了第一个单元格,自动弹出列表,并且你没有选择其中任何一项的时候,再点击第二个单元格,下拉列表是不会自己收起来的……在网上也搜了很多

2015-04-30 16:07:48 9411

原创 预装win8下安装win7系统

今天在win8下安装win7系统,遇到一系列的问题,现记录如下:1、进F1改bios时,win8下的bios需要做如下更改:1、Secure Boot 改为: [Disabled] 2、进入Startup—UEFI/Legacy Boot选项 /Legacy Boot选项选择成Both3、UEFI/Legacy Boot Priority选择成legacy First。

2014-12-17 22:18:17 471

原创 建站日记

建站日记为了记录建立网站的过程,防止日后的重复工作,特此记录2014/12/10         1、网站的初始设置          一个网站要是别人能够访问,首先要设置自己的电脑能够提供这项服务,在 控制面板 里,程序里 打开或者关闭windows功能里将Internet 信息服务这一栏全部勾选,(据说,只需要部分勾选,但免除麻烦,还是全部勾选),如图

2014-12-10 21:46:50 453

原创 project Euler52题的matlab解法

clcclearfor i = 1:1E6    flag = 1;    test_i = cell(5,1);    for j = 1:5        str = num2str(i*(j+1));        test_i{j} = str;    end    i_str = sort(num2str(i));        for k=1

2014-08-26 15:17:44 489 1

原创 matlab使用灰度关联来判断两个图形的相似度

特此记录

2014-08-24 15:57:34 9208

原创 matlab中uitable 的一些使用说明

最近在使用matlab的uitable控件,发现了一些问题,特此记录1、matlab的uitable控件是分版本的,我当前使用的7.11.0(matlab R2010b)和之前版本的uitable控件是不一样的,之前的版本中调用方法为(在当前使用的版版本使用如下命令也会得到以前版本的uitable) uitable(C,R) 其中C为行,R为列。使用get方法取出数据后类型为...

2014-08-12 10:06:54 21540

原创 matlab如何使用jdbc和mysql数据库连接

安装mysql的驱动包

2014-07-15 16:53:24 4861

原创 matlab 使用百度POI函数批量提取地址

有时候在百度地图上搜某个点附近的

2014-05-13 11:01:27 2595

原创 matlab 如何使用urlread函数抓取赶集网上的租房信息

最近在研究urlread函数,并

2014-05-13 10:46:05 2259 1

转载 matlab 如何使用代理服务器 使用urlread函数

官网给出的解决方法如下:Solution:To configure your proxy settings in MATLAB:1) Launch MATLAB2) Select the "File" menu3) Select "Preferences..."4) Select "Web"5) Check the box labelled "Use a proxy

2014-05-11 17:10:36 3793 1

转载 正则表达式的详细教程

1. 正则表达式到底是什么东西?在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。常用元字符代码说明.匹配除换行符以外的任意字符\w匹配字母或数字或下划线或汉字\s匹配任意的空

2014-05-09 14:39:51 578

转载 matlab urlread函数的更改

Matlab的urlread()函数可以读取网页,调用语法:S = urlread('URL','method',PARAMS)共有三个参数,第一个是网页地址,第二个是get或是post,意思很直白;第三个则是要向网页传递的参数,详细见help文档。本博文的这个问题不是重点。重点在于,用这个读取中文网页会乱码。例如:S=urlread('http://sina.com.cn

2014-05-08 15:06:02 4393

转载 百度地图的POI帮助文件

1.什么是Place API?Place API 是一类简单的HTTP接口,用于返回查询某个区域的某类POI数据,且提供单个POI的详情查询服务,用户可以使用C#、C++、Java等开发语言发送HTTP请求且接收json、xml的数据。2.功能介绍Place API 提供区域检索POI服务、POI详情服务与团购信息检索服务、商家团购详情查询。1. 区域检索POI服务

2014-05-08 15:04:19 4243 1

转载 Matlab中处理XML文件

三个函数搞定一切XML格式的问题现在很流行,它往往用作数据存储文件,或者是参数配置文件,我们需要做的有两件事情,从XML文件读取数据,以及把数据储存到XML文件中去。Matlab使用JAVA虚拟机来处理XML文件,默认给出了三个用于处理XML的函数:l         xmlread(), 用于读取XML文件内容,读入后的变量是一个Java XML object。l

2014-05-08 15:00:50 9814

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除