自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 资源 (21)
  • 收藏
  • 关注

原创 使用spark往hive插数报错Dynamic partition strict mode requires at least one static partition column. To tur

#报错User class threw exception: org.apache.spark.SparkException: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nons...

2019-09-20 10:11:28 4174

原创 Some of the operators in the model are not supported by the standard TensorFlow Lite runtime. If th

问题Some of the operators in the model are not supported by the standard TensorFlow Lite runtime. If those are native TensorFlow operators, you might be able to use the extended runtime by passing --en...

2019-08-27 10:31:53 1421 2

原创 Java随机数

广义上讲,Java中的随机数的有三种产生方式: 1. 通过System.currentTimeMillis()来获取一个当前时间毫秒数的long型数字。 2. 通过Math.random()返回一个0到1之间的double值。 3. 通过Random类来产生一个随机数,这个是专业的Random工具类,功能强大。第1种通过System.currentTimeMillis()来获取随机数。实际上是

2017-08-01 13:43:06 1009

原创 Linux下使用grep 进行全匹配匹配

grep 精确匹配如果是有进程名为abcd, abcde,abc等有包含”abc”字符的$ grep "abc" # 模糊匹配# 结果为abcd, abcde, abc等$ grep -w "abc" # 全匹配# 结果为abc

2017-07-25 11:10:03 98096 3

转载 java保留两位小数4种方法

import java.math.BigDecimal;import java.text.DecimalFormat;import java.text.NumberFormat;public class Hello { double f = 111231.5585; public void m1() { BigDecimal bg = new BigDecimal(

2017-07-20 14:54:36 688

原创 Eclipse下安装Scala插件

Scala版本为2.10.4http://scala-ide.org/download/prev-stable.html在Eclipse中选择Help->Install new Software添加插件下载链接安装后,会提示重新启动Eclipse

2017-07-19 18:45:38 1079

原创 常用统计函数Java版

import java.util.Arrays;public class Hello { public static void main(String[] args) { double [] testData=new double[]{1,2,3,4,5,6,7,8,9}; System.out.println("最大值:"+getMax(testData));

2017-07-18 15:00:45 2821

原创 Linux下使用sleep - 延迟指定时间

用途说明sleep命令常用于在shell脚本中延迟时间。常用方式注意:以下用法中可以为小数。格式:$ sleep <n>格式:$ sleep <n>s# 延迟<n>秒。格式:$ sleep <n>m# 延迟<n>分钟。格式:$ sleep <n>h# 延迟<n>小时。格式:$ sleep <n>d# 延迟<n>天。使用示例示例一$ date; sleep 5; dateThu Jul 13

2017-07-13 19:21:03 12019

原创 启动 Eclipse 弹出“Failed to load the JNI shared library jvm.dll”错误的解决方法!

原因1给定目录下jvm.dll不存在。 对策: (1)重新安装jre或者jdk并配置好环境变量。 (2)copy一个jvm.dll放在该目录下。原因2eclipse的版本与jre或者jdk版本不一致 对策: 要么两者都安装64位的,要么都安装32位的,不能一个是32位一个是64位。原因2的概率更大一些,原因1不太可能发生

2017-07-01 10:48:51 945

转载 【特征工程】3 特征工程技术与方法

引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果

2017-06-26 16:14:53 841

转载 【特征工程】2 机器学习中的数据清洗与特征处理综述

背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据

2017-06-26 16:03:16 1718

转载 实例详解机器学习如何解决问题

前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战(InAction)系列的介绍(带“机器学习InAction系列”标签的文章),介绍机器学习在解决工业

2017-06-26 15:59:39 1374 1

转载 【特征工程】1 关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型,想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子,简单说说特征工程在实际的问题里是怎么做。定义特征工程 Feature Engineering 在一篇K

2017-06-26 14:12:41 872

原创 Eclipse/Myeclipse 如何删除导入的配置文件(例如epf主题文件)

问题eclipse/Myeclipse 如何删除导入的配置文件(例如epf主题文件)解决删除eclipse/Myeclipse的workspace目录下的.metadata文件夹就行了,你所有导入的配置就都没有了。如果选择性删除,需要在.metadata挑选。

2017-06-20 14:51:38 5773

原创 error: package is not relocatable

rpm包安装异常,–prefix 参数不能重定位,安装到另一个目录的原因,error: package is not relocatable$ rpm --install --prefix linuxqq-v1.0.2-beta1.i386.rpmerror: linuxqq is not relocatable 经查找,可以使用下面的命令查看rpm包是否可以重定位,也就是安装到另一个目录。 $ r

2017-06-20 08:46:07 12962

转载 RPM安装命令总结

在 Linux 操作系统下,几乎所有的软件均通过RPM 进行安装、卸载及管理等操作。RPM 的全称为Redhat Package Manager ,是由Redhat 公司提出的,用于管理Linux 下软件包的软件。Linux 安装时,除了几个核心模块以外,其余几乎所有的模块均通过RPM 完成安装。RPM 有五种操作模式,分别为:安装、卸载、升级、查询和验证。1)用RPM安装软件包,最简单的

2017-06-20 00:24:07 26661

原创 Andrew Ng机器学习week9(Anomaly Detection and Recommender Systems)编程习题

Andrew Ng机器学习week9(Anomaly Detection and Recommender Systems)编程习题estimateGaussian.mfunction [mu sigma2] = estimateGaussian(X)%ESTIMATEGAUSSIAN This function estimates the parameters of a %Gaussian di

2017-06-17 20:26:59 1452

原创 Linux下文件分割与合并:split & cat

Linux下文件分割可以通过split命令来实现,文件合并可以通过cat命令。分割可以指定按行数分割和按大小分割两种模式。Linux下文件合并可以通过cat命令来实现,非常简单。在Linux下用split进行文件分割:模式一:指定分割后文件行数对于txt文本文件,可以通过指定分割后文件的行数来进行文件分割。 例如:对于文件large_file.txt,可以先通过命令wc -l large_file

2017-06-16 16:47:52 3061

原创 Linux:使用awk命令获取文本的某一行,某一列

1、打印文件的第一列(域) awk '{print $1}' filename2、打印文件的前两列(域) awk '{print $1,$2}' filename3、打印完第一列,然后打印第二列 awk '{print $1 $2}' filename4、打印文本文件的总行数 awk 'END{print

2017-06-15 10:59:18 47159 2

原创 数据科学速查表大全(机器学习和深度学习工程师用)

1、KerasSource — https://www.datacamp.com/community/blog/keras-cheat-sheet#gs.DRKeNMs2. NumpySource — https://www.datacamp.com/community/blog/python-numpy-cheat-shee

2017-06-14 18:02:46 2057

转载 Hadoop作业提交分析(五)

经过上一篇的分析,我们知道了Hadoop的作业提交目标是Cluster还是Local,与conf文件夹内的配置文件参数有着密切关系,不仅如此,其它的很多类都跟conf有关,所以提交作业时切记把conf放到你的classpath中。  因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的,所以这里我们采用动态载入的方式,先添加好对应的依赖库和资源,然后再构建一个

2017-06-14 14:05:43 430

转载 Hadoop作业提交分析(四)

前面我们所分析的部分其实只是Hadoop作业提交的前奏曲,真正的作业提交代码是在MR程序的main里,RunJar在最后会动态调用这个main,在(二)里有说明。我们下面要做的就是要比RunJar更进一步,让作业提交能在编码时就可实现,就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。  一般来说,每个M

2017-06-14 14:04:08 477

转载 Hadoop作业提交分析(三)

通过前面两篇文章的分析,对Hadoop的作业提交流程基本明了了,下面我们就可以开始编写代码模拟这个流程。  第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来,后面再作为类加载器的URL搜索路径。/** * Add a directory or file to cl

2017-06-14 14:01:38 455

转载 Hadoop作业提交分析(二)

上一篇我们分析了bin/hadoop脚本,知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar,看它内部具体又做了些什么。     RunJar是Hadoop中的一个工具类,结构很简单,只有两个方法:main和unJar。我们从main开始一步步分析。     main首

2017-06-14 13:59:00 476

转载 Hadoop作业提交分析(一)

Hadoop作业提交分析(一)bin/hadoop jar xxx.jar mainclass args……  这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行,在开发阶段那是极其繁琐的。程序员是“最懒”的,既然麻烦肯定是要想

2017-06-14 11:57:26 843

转载 浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的数据倾斜问题. Ha

2017-06-13 11:50:59 448

转载 漫谈千亿级数据优化实践:数据倾斜(纯干货)

0x00 前言 引用数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明: 话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别严谨,一些小细节对文章理解没有影响,不要太在意。(比如我在算机器内存的时候,就不把Hadoop自身的进程算到使用内存中)

2017-06-13 10:34:46 608

原创 Andrew Ng机器学习week8(Unsupervised Learning)编程习题

Andrew Ng机器学习week8(Unsupervised Learning)编程习题findClosestCentroids.mfunction idx = findClosestCentroids(X, centroids)%FINDCLOSESTCENTROIDS computes the centroid memberships for every example% idx =

2017-06-08 09:13:16 1607

原创 SPSS Modeler决策树算法比较

模型准则 C5.0 CHAID QUEST C&RT 决策列表 支持连续目标 否 是 否 是 否 字符预测期拆分类型 多重 多重 二元 二元 多重 预测期选择准则 信息度量 卡方检验 卡方检验和方差分析 离差度量 统计置信度 交互式建立数 否 是 是 是 是 支持bagging

2017-06-06 10:38:32 3996 1

原创 Andrew Ng机器学习week7(Support Vector Machines)编程习题

Andrew Ng机器学习week7(Support Vector Machines)编程习题gaussianKernel.mfunction sim = gaussianKernel(x1, x2, sigma)%RBFKERNEL returns a radial basis function kernel between x1 and x2% sim = gaussianKernel(

2017-06-02 00:34:30 2119

原创 Andrew Ng机器学习week6(Regularized Linear Regression and Bias/Variance)编程习题

Andrew Ng机器学习week6(Regularized Linear Regression and Bias/Variance)编程习题linearRegCostFunction.mfunction [J, grad] = linearRegCostFunction(X, y, theta, lambda)%LINEARREGCOSTFUNCTION Compute cost and gra

2017-06-02 00:30:17 2350

原创 判断某一天是当年的哪一天

需求输入年份,月份,日,判断这一天是这一年的第几天?(闰年的2月份为29天,平年为28天)代码import java.util.*;public class Test { /** * 能被4整除且不能被100整除或者能被400整除的年份为闰年 * @param args * @author 孙琨 */ public static void main

2017-05-28 18:39:22 1240

原创 java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org

问题写某Hadoop程序,运行时,遇到以下错误java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable具体问题截图 解决解决步骤1、 检查配置job的class格式是否正确 job.

2017-05-24 09:47:00 3432

原创 java.lang.ClassNotFoundException: com.alibaba.fastjson.JSON

问题今天直接用eclipse进行export出jar包,然后直接运行,出现以下错误。java.lang.ClassNotFoundException: com.alibaba.fastjson.JSON解决因为eclipse默认打的包并不能识别阿里巴巴等的包。所以下载了打包插件。——Fat JarFat Jar Eclipse Plug-In是一个可以将Eclipse Java Project的所有

2017-05-23 21:07:49 18635

原创 pandas 按照列A分组,将同一组的列B求和,生成新的Dataframe

对于pandas中的Dataframe,如果需要按照列A进行分组,将同一组的列B求和,可以通过下述操作完成:df = df.groupby(by=['column_A'])['column_B'].sum()  生成的数据类型是Series,如果进一步需要将其转换为dataframe,可以调用Series中的to_frame()方法.df = df.to_frame() # index column

2017-05-17 15:54:10 12489

原创 Java如何把字符串表示的日期按要求变为多少天前,多少天后

需求用Java把字符串表示的日期按要求自动变为多少天前,多少天后?代码import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import java.util.GregorianCalendar;public class

2017-05-10 15:05:07 1732

原创 转:推荐系统十条经验和教训

Mark下:2009年ACM推荐系统大会上Strand研究人员做的一个报告“推荐系统十堂课”,在这个报告中Strand的研究人员总结了他们设计推荐系统的经验,提出了10条在设计推荐系统中学习到的经验和教训。确定你真的需要推荐系统。推荐系统只有在用户遇到信息过载时才必要。如果你的网站物品不太多,或者用户兴趣都比较单一,那么也许并不需要推荐系统。所以不要纠结于推荐系统这个词,不要为了做推荐系统而做推荐

2017-05-05 18:41:55 781

原创 协同过滤算法:基于用户和基于物品的优缺点比较

定义UserCF:基于用户的协同过滤算法ItemCF:基于物品的协同过滤算法UserCF和ItemCF优缺点的对比 UserCF ItemCF 性能 适用于用户较少的场合,如果用户很多,计算用户相似度矩阵代价很大 适用于物品数明显小于用户数的场合,如果物品很多(网页),计算物品相似度矩阵代价很大 领域 时效性较强,用户个性化兴趣不太明显的领域 长尾物品丰富,

2017-05-05 14:16:59 20486

原创 推荐系统中显性反馈数据和显性反馈数据的比较

定义显性反馈行为:用户明确表示对物品喜好的行为。隐性反馈行为:不能明确反映用户喜好的行为。显性反馈数据和隐形反馈数据的比较 显性反馈数据 隐性反馈数据 用户兴趣 明确 不明确 数量 较少 庞大 存储 数据库 分布式文件系统 实时读取 实时 有延迟 正负反馈 都有 只有正反馈各代表网站中显性反馈数据和隐性反馈数据的例子

2017-05-05 13:52:39 5759

原创 Python读写文件,文本处理,并把日期自动更新为90天前

Mark下。今天任务中有一部分是对生成的文本进行处理,生成需要的格式,以方便下一步导入数据库。需求原始文本格式如下:生成的文档格式应为:取app或者input开头的行。把日期相同的app和input放在一行,并把日期提前90天。 生成格式如下图所示:代码直接上文本处理的小程序了,程序里有注释import sysimport datetimeimport timefile = open("sql

2017-05-04 18:22:32 2518

hadoop-0.20.2-cdh3u4.tar.gz

hadoop-0.20.2-cdh3u4.tar.gz。零积分。

2017-04-11

eclipse-inst-win64.exe eclipse安装引导软件

eclipse安装引导软件。Windows64位下installer。免积分。

2017-04-11

Hyperledger fabric towards scalable blockchain for business

介绍超级账本(HyperLedger)的资料,并对比了与其它几大技术体系的长短之处。零积分。

2016-11-01

面向中国资本市场应用的分布式总账白皮书

ChinaLedge联盟发布的《面向中国资本市场应用的分布式总账白皮书》。免积分

2016-11-01

SciTE安装包,用于ruby

2015年9月30更新的。用于快速写ruby。解压后,找到exe文件,双击即可运行。

2015-09-30

ruby安装包

2015年9月30日更新的ruby安装包,用于windows 64位下。

2015-09-30

Java解惑.chm

Java解惑.chm,免积分。亲,好用,记得给好评哦

2014-01-10

Java API官方文档中文版.CHM

Java API官方文档中文版.CHM,免积分。亲,好用,记得给好评哦

2014-01-10

Java编程思想第四版完整中文高清版PDF

Java编程思想第四版完整中文高清版PDF,免积分,亲,好用,记得给好评哦

2014-01-09

呕心沥血整理的蓝桥杯2014年以前java历年真题及答案

呕心沥血整理的蓝桥杯2014年以前java历年真题及答案,目前自己已知最详细的。零积分,亲,若好用,记得给好评哦

2014-01-09

Java课程设计案例精编[专著]/张广彬,孟红蕊,张永宝编著完整源代码

Java课程设计案例精编[专著]/张广彬,孟红蕊,张永宝编著 零积分 第3章 类和对象 第4章 网页浏览器开发 第5章 蜘蛛纸牌 第6章 吃豆子游戏 第7章 基于多线程的端口扫描器 第8章 Java聊天室 第9章 宝石连连看游戏 第10章 中国象棋对弈系统 第11章 学生管理信息系统

2014-01-08

C++ Primer第三版(中文版+完全详细目录)

最经典的C++入门与进阶书籍,是所有学习过C++的人,必定看过的一本书,其价值不言而喻。上传的这本中文版,加上了自己所加的目录,很详细。不是扫描版,是正规的PDF书籍

2013-08-12

C++Builder数据库开发经典案例解析+(完整配套详细源码)

不同于其它下载内容,此资源是其完整配套光盘资源。适用于数据库实例开发与课程设计。很好的学习资料

2013-06-29

双人版贪吃蛇

该双人版贪吃蛇是用C++语言所写,利用头文件绘制图形,代码量很小,言简意赅,基本实现了所有的贪吃蛇双人版功能。适合学习

2013-06-29

你必须知道的495个C语言问题

《你必须知道的495个C语言问题》是编码大牛,在几十年的编程过程中,总结出来的经典问题。适合想要真正入门C语言和应聘人员。495个问题,基本涵盖了C语言可能出现的各个细节。

2013-06-12

钟表模拟程序(表针形式)

运用#inlcude"graphics.h",基本实现了钟表模拟程序(表针形式),很具学习效果。在时间差方面有待改进

2013-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除