自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pardy原创

本博客是关于数据结构、大数据开发、数据挖掘的,属于技术博客,欢迎志同道合的朋友评论。

  • 博客(12)
  • 资源 (27)
  • 收藏
  • 关注

原创 猎豹移动面试总结

/* *猎豹移动面试总结 */ 1、第一面 做过最熟悉的项目,数据处理怎么做的? 算法题:有一堆乒乓球,分别放到4个桶里,他们最终的比例是1:2:3:4,如何实现? 这个题考官提示用随机产生器,分别产生概率为,0.1,0.2,0.3.0.4,根据概率放到不同的4个桶里,最终满足要求。 2、第二面 简单介绍一下,基于用户的协同过滤,怎么实现的,实现过程中遇到什么问题? scala有没

2017-08-08 10:35:01 340

原创 凤凰网实习生面试

凤凰网移动互联网推荐系统工程师面试总结。 总共是三面,第一面是一个实际技术面试,主要是问做过什么,我主要讲的是协同过滤推荐中的基于用户、基于项目、基于模型的算法,手推公式。机器学习主要是决策树推到,面试官看的很仔细。 第二面是leader面试,上来就开始问L1和L2正则得区别,自然语言处理了解多少,SVM推到,奇异值分解,矩阵分解基于随机梯度和最小二乘的区别,什么时候用user-cf,什么时候用

2017-03-20 23:48:41 1646

原创 天创信用面试,公司网址:http://www.ypcredit.com/

天创信用面试,公司网址:http://www.ypcredit.com/ 2017年2月22日受邀天创信用面试数据挖掘工程师,面试总共分为两个步骤,1、笔试,2、技术面。 1、笔试 笔试题主要考的是java中的线程、arrayList,数据结构中的单链表、二叉树遍历、排序算法(快速排序、堆),数据库中的having查询。 2、技术面 技术主要问数据挖掘基本算法和文本挖掘,比如决策树、如何判

2017-02-23 22:01:09 1374

原创 基于python3的k-means代码实现

k-means算法是非监督学习的一种,其中k值是随机选取的,在本代码中是人为指定为2,准备聚两个类。 算法描述:1. 加载数据2. 聚类2.1、 初始化聚类中心,随机选取两个点作为聚类中心点。2.2、while直到clusterChanged=false2.3、计算每个点离中心点的距离,记录最小距离,并标识是属于哪个类。2.4、更新聚类集合的点。2.5、 更新聚类中心代码实现前先浏览一下数据,数据

2016-11-18 18:22:51 7086 1

原创 基于Jupyter平台通过python实现Spark的应用程序之wordCount

1、启动spark平台,界面如下: 2、启动Jupyter,界面如下图所示: 如果你对以上启动存在疑问的话,请看我的上一篇博客,关于Jupyter配置Spark的。 3、功能分析 - 我们要实现的一个功能是统计词频 - 我们需要把统计的文件上传到hdfs里面 - 编写python脚本 4、代码实现 - 上传文件到hdfs 我有一个hello.txt文件,里面有两行

2016-11-12 20:47:37 1995

原创 spark2.0下实现IPYTHON3.5开发,兼配置jupyter,notebook降低python开发难度

spark2.0下实现IPYTHON3.5开发1、spark2.0安装就不说了,网上有很多,不会的话给我留言。 2、我们在spark2.0下用python开发的话,不需要安装python了,直接安装anaconda就可以啦! 3、anaconda下载地址:https://www.continuum.io/downloads,这里提供3.5和2.7的,考虑到以后学习,我下载最新的3.5,界面如下:

2016-11-11 21:12:25 2854

原创 通过mapReduce实现基于项目的协同过滤推荐

通过mapReduce实现基于项目的协同过滤推荐需求介绍 协同过滤推荐网上有很多种介绍,我这里主要介绍的是基于项目的协同过滤。基于项目的协同过滤推荐基于这样的假设:一个用户会喜欢他之前喜欢的项目相似的项目。因此,基于项目的协同过滤推荐关键在于计算物品之间的相似度。数据介绍 我选用的数据集合如下: 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,1

2016-11-05 16:53:23 3462

原创 3、二维数组查找一个数是不是存在

在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。假设数组为:1 2  8   92 4  9  124 7 10 136 8 11 15查找7分析:这个数行列都是有序的,我们可以考虑从右上角那个数开始比较,9>7,9这一列最小的都比7大,那么9下边的就没

2016-08-18 14:19:53 614

原创 2、斐波那契数列以及青蛙跳台阶

1、写一个函数,输入n,求斐波那契数列的第n项。斐波那契数列的定义如下:编程书上看到最多的就是递归实现,求100的伪代码描述如下:输入:n输出:f(n)初始化:n的值为100,result=01 if(n==0)2     return 0;3 if(n==1)4     return 1;5 if(n>1)6 递归result = f(n-1)

2016-08-17 14:08:56 1294

原创 1、求旋转数组的最小数

题目:把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个递增排序的数组的一个旋转,输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数组的最小值为1。分析:数组在旋转之前是有序的,旋转后的数组可以看成是两个有序序列,在这两个有序序列里面求最小值。我们可以通过二分查找的思想来实现本题。伪代码描述如下:输入:数组arrSearc

2016-08-17 09:42:53 288

原创 二分查找

二分查找,必须保证待查找的数组是有序的,这里实现了两种方法,第一种是非递归实现,第二种是递归实现,java代码如下所示:package algorithm;public class BinarySearch {/** @author pardy* 二分查找 非递归* 查找一个数在数组中的位置* 数组必须有序* @param srcArray* 有序数组

2016-08-15 16:27:26 313

原创 java实现快速排序

快速排序在排序算法中,平均情况下时间复杂度是O(nlog2n),基本思想是:首先选择一个轴值,将待排序记录划分成独立的两部分,左侧记录的关键码均小于或等于轴值,右侧记录的关键码总大于等于轴值,然后分别对这两部分重复上述过程,直到整个序列有序,java代码实现如下:package algorithm;/* * @author pardy * @describe 快速排序 * @p

2016-08-15 16:16:51 408

win7 64位 xgboost 安装包

在win7 64位 下安装xgboost,里面包括完整的安装软件,详细的安装步骤,其中numpy-1.9.3+mkl-cp34-none-win_amd64太大,需要按说明书下载。

2017-09-03

Probabilistic Matrix Factorization概率矩阵分解Python源代码

推荐系统中效率比较高的矩阵分解算法

2017-07-30

scikit_surprise推荐系统库

支持多种推荐算法,SVD, PMF, SVD++, NMF,neighborhood methods,baseline algorithms

2017-06-08

delicious-2k.zip

delicious-2k.zip

2017-03-05

产生式系统的推理

产生式

2016-12-01

k-means 基于anaconda的python3实现

通过k-means实现聚类,本例给出的数据集是testSet,用户下载代码以后,修改fileIn = open('F:/python/testSet.txt') 这句代码为自己文件的存放位置,即可运行。

2016-11-17

Machine Learning with Spark(PACKT,2015)

Apache Spark is a framework for distributed computing that is designed from the ground up to be optimized for low latency tasks and in-memory data storage. It is one of the few frameworks for parallel computing that combines speed, scalability, in-memory processing, and fault tolerance with ease of programming and a flexible, expressive, and powerful API design. This book guides you through the basics of Spark's API used to load and process data and prepare the data to use as input to the various machine learning models. There are detailed examples and real-world use cases for you to explore common machine learning models including recommender systems, classification, regression, clustering, and dimensionality reduction. You will cover advanced topics such as working with large-scale text data, and methods for online machine learning and model evaluation using Spark Streaming.

2016-11-10

协同过滤算法java实现

本资源是推荐系统中最基本的协同过滤推荐算法实现,包括数据集,以及算法的评价指标MAE的计算,数据集采用MovieLens中两个数据集进行测试,本程序配备一个readme文件,里面有程序的运行介绍,程序注释详细,希望对大家有帮助

2016-10-26

windows64位平台的hadoop2.6插件包(hadoop.dll,winutils.exe)

windows64位平台的hadoop2.6插件包(hadoop.dll,winutils.exe)

2016-10-05

arff格式数据集整理

数据集目录: 2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff autoPrice.arff autos.arff auto_price.arff balance-scale.arff bank.arff bank32nh.arff bank8FM.arff baskball.arff bodyfat.arff bolts.arff breast-cancer.arff breast-w.arff breastTumor.arff bridges_version1.arff bridges_version2.arff cal_housing.arff car.arff cholesterol.arff cleveland.arff cloud.arff cmc.arff colic.arff colic.ORIG.arff contact-lenses.arff cpu.arff cpu.with.vendor.arff cpu_act.arff cpu_small.arff credit-a.arff credit-g.arff cylinder-bands.arff delta_ailerons.arff delta_elevators.arff dermatology.arff detroit.arff diabetes.arff diabetes_numeric.arff echoMonths.arff ecoli.arff elevators.arff elusage.arff eucalyptus.arff eye_movements.arff fishcatch.arff flags.arff fried.arff fruitfly.arff gascons.arff glass.arff grub-damage.arff heart-c.arff heart-h.arff heart-statlog.arff hepatitis.arff house_16H.arff house_8L.arff housing.arff hungarian.arff hypothyroid.arff ionosphere.arff iris.2D.arff iris.arff kdd_coil_test-1.arff kdd_coil_test-2.arff kdd_coil_test-3.arff kdd_coil_test-4.arff kdd_coil_test-5.arff kdd_coil_test-6.arff kdd_coil_test-7.arff kdd_coil_train-1.arff kdd_coil_train-3.arff kdd_coil_train-4.arff kdd_coil_train-5.arff kdd_coil_train-6.arff kdd_coil_train-7.arff kdd_el_nino-small.arff kdd_internet_usage.arff kdd_ipums_la_97-small.arff kdd_ipums_la_98-small.arff kdd_ipums_la_99-small.arff kdd_JapaneseVowels_test.arff kdd_JapaneseVowels_train.arff kdd_synthetic_control.arff kdd_SyskillWebert-Bands.arff kdd_SyskillWebert-BioMedical.arff kdd_SyskillWebert-Goats.arff kdd_SyskillWebert-Sheep.arff kdd_UNIX_user_data.arff kin8nm.arff kr-vs-kp.arff labor.arff landsat_test.arff landsat_train.arff letter.arff liver-disorders.arff longley.arff lowbwt.arff lung-cancer.arff lymph.arff machine_cpu.arff mbagrade.arff meta.arff mfeat-factors.arff mfeat-fourier.arff mfeat-karhunen.arff mfeat-morphological.arff mfeat-pixel.arff mfeat-zernike.arff molecular-biology_promoters.arff monks-problems-1_test.arff monks-problems-1_train.arff monks-problems-2_test.arff monks-problems-2_train.arff monks-problems-3_test.arff monks-problems-3_train.arff mushroom.arff mv.arff nursery.arff optdigits.arff page-blocks.arff pasture.arff pbc.arff pendigits.arff pharynx.arff pol.arff pollution.arff postoperative-patient-data.arff primary-tumor.arff puma32H.arff puma8NH.arff pwLinear.arff pyrim.arff quake.arff ReutersCorn-test.arff ReutersCorn-train.arff ReutersGrain-test.arff ReutersGrain-train.arff schlvote.arff segment-challenge.arff segment-test.arff segment.arff sensory.arff servo.arff sick.arff sleep.arff solar-flare_1.arff solar-flare_2.arff sonar.arff soybean.arff spambase.arff spectf_test.arff spectf_train.arff spectrometer.arff spect_test.arff spect_train.arff splice.arff sponge.arff squash-stored.arff squash-unstored.arff stock.arff strike.arff supermarket.arff triazines.arff unbalanced.arff vehicle.arff veteran.arff vineyard.arff vote.arff vowel.arff water-treatment.arff waveform-5000.arff weather.nominal.arff weather.numeric.arff white-clover.arff wine.arff wisconsin.arff zoo.arff

2016-08-03

uci聚类测试数据集

uci聚类测试数据集

2016-08-03

鸢尾花150条数据集

weka上使用cluster测试UCI上的鸢尾花数据,适合初学者。

2016-08-01

鸢尾花聚类测试数据

UcI(国际上常用的标准测试数据集)中的Iris(鸢尾属植物)数据,用于聚类分析。

2016-08-01

《实战Matlab之并行程序设计》程序代码

《实战Matlab之并行程序设计》程序代码 书后源码

2016-07-19

WEKA入门用的银行数据集bank-data

用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff file after csv after processing the file via weka.

2016-07-06

中科院分词ICTCLAS5.0_JNI

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

2016-06-22

吴恩达老师 机器学习入门首选

这算是机器学习一套非常适合入门(不过到了后面也相当深)的敲门砖,能够把很抽象的机器学习过程讲得很清楚,小弟看了这套公开课资料表示那真叫一个受益匪浅啊。

2016-05-17

springmvc中实现quartz定时任务[每分钟的第3秒执行]

springmvc中实现quartz定时任务[每分钟的第3秒执行]

2016-05-10

ksoap2 android 3.6.0实现webService通信

实现android与服务器之间通信的包

2016-05-10

oracle在win7下卸载、安装步骤

该文档旨在描述在win7下如何卸载oracel数据库,同时提供重新安装的步骤图解。

2013-08-12

一个页面多个页签显示

一个页面多个页签显示,这里只是提供一个样式,具体功能根据需求写。

2013-04-28

自动生成随机密码

随机生成 数字六位密码,自己也可以修改密码长度,记得引commons-lang.jar包

2013-04-19

随机密码数

随机生成六位字母数字组合的密码,自己也可以扩展成其他位数。

2013-04-09

Map里面containsKey的用法

本代码只在简单的实现Map里面的一个containKey的方法,返回true或者false

2013-01-09

点击提示框提示信息消失

当鼠标点击文本框,提示信息消失 提示信息框,最多允许输入150个汉字<br/> <div> &lt;textarea id="info" rows="5" cols="50" &lt;/div>

2013-01-08

图表生成chart

本系统主要是通过ajax请求json格式的数据,然后将json格式的数据转换成饼图或者柱状图。

2012-11-21

软件测试考试试题适合参加考试的学员学习

适合参加计算机四级-软件测试工程师考试的人复习。

2011-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除