追梦程序员-CSDN博客

原创 HashMap源码解析

简介HashMap就是哈希表的典型实现。在java中，哈希表的内部使用动态数组进行存储，利用“拉链法”解决哈希冲突问题。所谓“拉链法”就是：将链表和数组相结合。也就是说创建一个链表数组，数组中每一格就是一个链表。若遇到哈希冲突，则将冲突的值加到链表中即可。装填因子：a=n/m 其中n 为关键字个数，m为表长。加载因子是表示Hash表中元素的填满的程度.若加载因子越大,填满的元素越多,好处...

2019-06-13 10:46:22 152

原创 LinkedList源码解析

简介LinkedList是一个实现了List接口和Deque接口的双端链表。 //列表长度 transient int size = 0; /** * 指向第一个节点的指针 * Invariant: (first == null && last == null) || * (first.prev == ...

2019-06-11 22:28:00 103

原创 ArrayList源码解析

简介ArrayList是顺序表的典型实现，内部维护了一个动态数组。 /** * The array buffer into which the elements of the ArrayList are stored. * The capacity of the ArrayList is the length of this array buffer. Any ...

2019-06-10 22:45:31 129

原创 ==、equals()、hashcode()

== : 它的作用是判断两个对象的地址是不是相等。即判断两个对象是不是同一个对象(基本数据类型比较的是值，引用数据类型比较的是内存地址)。equals() : 它的作用也是判断两个对象是否相等。但它一般有两种使用情况：情况1：类没有覆盖 equals() 方法。则通过 equals() 比较该类的两个对象时，等价于通过“==”比较这两个对象。//Object的equals方法实现pub...

2019-06-10 21:21:23 94

原创 Reverse Integer

Given a 32-bit signed integer, reverse digits of an integer.Example 1:Input: 123Output: 321Example 2:Input: -123Output: -321Example 3:Input: 120Output: 21Note:Assume we are dea...

2019-04-17 19:34:50 142

Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution, and you may not use the same ...

2019-04-17 17:27:22 132

原创 BPRPlus:基于多种隐式反馈的BPR变形算法开源库

很快，寒假就要过去了，在这15天的时间里，小编一直在做一件事：开发一个支持多种隐式反馈的BPR变形算法框架。终于，功夫不负有心人。在经过了每天晚上的编写，近3400行代码的BPRPlus框架初步形成。github地址：https://github.com/liuchenailq/BPRPlus. BPR算法简介推荐系统有两大问题：评分预测和排序优化。评分预测一般使用显示数据集，...

2019-02-09 20:25:45 390

原创离线安装Python第三方库

环境：centos7，普通用户权限，不能联网。方法：下好软件包，上传到服务器，用python执行 setup.py 执行安装第一步：安装python3第二步：按如下顺序安装库注意：最好按顺序安装，因为库之间有依赖关系，如果在安装过程中发现有依赖库没有安装，就先安装。安装某一个库的流程：先解压相应的库包，在进入库包，执行python3 setup.py build ...

2018-12-07 14:22:54 4375

原创基于邻域的协同过滤

协同过滤（collaborative filtering）是推荐系统最为常用的算法之一，已被很多知名网站如Amazon.com、TiVo、Netflix等成功应用在自己的推荐系统中。协同过滤推荐系统的算法可以分为两类：基于记忆（memory-based）的和基于模型（model-based）的算法。其中基于记忆的算法最主要有基于用户邻域的协同过滤和基于物品邻域的协同过滤。一、基于用户邻...

2018-09-11 10:32:24 1252

原创机器学习第七篇——朴素贝叶斯

今天要和大家谈的朴素贝叶斯也是一种机器学习分类算法，但它和其他机器学习分类算法不太一样。对于大多数的机器学习分类算法，诸如逻辑回归、决策树、SVM等，他们都是判别方法，也就是直接学习出特征X和类别Y之间的关系，但朴素贝叶斯是基于贝叶斯决策理论和特征属性独立假设的生成方法。下面我们先来了解贝叶斯决策理论。一、贝叶斯决策理论贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，...

2018-09-10 19:27:49 1896

原创机器学习第六篇——SVM

SVM全称支持向量机，为什么起这么个名字，这是因为数据集中有些样本被称为支持向量，在后面你就会知道。SVM是目前为止小编觉得较难的一个模型，因为这里面涉及带约束条件的最优化问题，小编也是看了一定的资料、视频才能理解一二。为了帮助更多的人更好的理解SVM，小编尽量使用通俗的文字、较少的数学公式来写这篇文章。一、SVM的目标讲解一个模型，最首要的是阐明模型的目标。SVM也是在二分类问题中找到一...

2018-08-30 10:59:03 665 1

原创机器学习第五篇——神经网络

通过前面几篇的学习，我们了解了线性模型、逻辑回归、决策树的知识。下面就它们的应用领域和使用技巧进行说明。线性模型：一般应用于回归问题上，适用于因变量和自变量之间有线性关系。在小数据集上用正规方程求解简单、快速，在大数据集上可用梯度下降法求解。逻辑回归：一般应用于二分类问题。分类器模型较简单，不能形成边界复杂的模型。决策树：决策树的最大缺点是原理中的贪心算法，因此它所做...

2018-08-25 19:47:26 475

原创机器学习第三篇——分类决策树

决策树是一类常见的机器学习方法，利用决策树来进行决策的过程很像人类在面临决策问题时的一种思考模式。举个生活中的例子，假如我们要判断一个没剖开的西瓜是不是好瓜，有经验的瓜农可能会首先看看西瓜的颜色，再看看西瓜的根蒂形状，如果还没得出结论，可能还会敲打西瓜，听听是什么声音。上述过程用决策树表示如下。那么我们的问题来了，给你一份带分类标签的数据，你怎么训练出一棵决策树。再次回顾我们是怎样利用决策...

2018-08-18 16:08:34 517

原创机器学习之离散值处理

前面我们学习了分类决策树，下面我们以周志华的机器学习书上的西瓜数据作为训练集练习以下，数据集如下。X = [ ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑'], ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑'], ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑'], ['青绿', '蜷缩',...

2018-08-18 11:51:31 8386 1

原创机器学习第二篇——逻辑回归

前面介绍了机器学习中最简单的线性回归模型，机器学习第一篇——线性模型。今天，我们就来看看传说中的逻辑回归（logistic regression）。大家首先想一想，如果我们想要用已求得的线性模型来完成对样本的二分类，一个最简单的做法如下。这样虽然可以完成对数据样本的分类，但这样的分类有许多的弊端:没有体现输出值越大的样本属于正样本的可能性越大；分类函数其实是单位阶跃函数，不具有...

2018-08-16 11:31:57 6585 1

原创机器学习第一篇——线性模型

在写线性模型之前，我先概述下普通的最小二乘法。一、最小二乘法最小二乘法就是普通的无约束优化问题，具体请看吴立德教授的 https://www.bilibili.com/video/av10289610/?p=17.有了最小二乘法的概念，我们再来看看机器学习中的线性模型。二、线性模型由于线性模型的函数是凸函数，所以它的最优化解的一阶充分必要条件为一阶导数为0。三、L...

2018-08-13 15:07:33 994

原创 LeetCode初体验

为了提高自己的编程能力，为了熟练掌握Python的应用，为了以后找个好工作，为了赢取白富美，为了......，小编开始在LeetCode上刷题了。昨天刷了两道，小编被LeetCode网站的设计征服了，刷题体验非常好。小编以前在HDUOJ、蓝桥杯官网、南洋理工ACM网站上都刷过一些题，这些网站的刷题体验和在LeetCode上的体验根本不是同一级别的。下面小编就列举几点感觉很不错的网站设计。...

2018-07-31 16:27:22 722

原创有必要自己实现每个机器学习算法吗？

今天上午，小编刷知乎的时候看到一个话题”有没有必要把机器学习算法自己实现一遍？“。出于好奇，看了好多答主的回答，发现赞成有必要的和没必要的都大有人在。赞成有必要实现的主要有以下几点理由：加深对算法的理解。锻炼自己的编程能力。公司面试的时候是一个加分项。赞成没必要实现的主要有以下几点理由：自己实现的计算效率根本没现成软件包好。 ...

2018-07-28 16:26:07 2845

原创机器学习应用领域的“分岔口”

最近一段时间，小编有点迷茫，不知道各位小伙伴们有没有同样的感受，就是当你学了一门技术之后，发现自己还是用不到，或者不知道用在哪些地方。如果这样的迷茫期过长会慢慢让你失去了对这项技术的热爱，所以我求助了好多学长，自己也在网上搜索了很多，现在好多了。通过自己的整理，我大致了解了机器学习的应用领域和各领域的研究目的。为了帮助可能对此也有迷茫的小伙伴，下面我简单介绍几个应用领域。一、推荐系统...

2018-07-25 08:50:18 1048

原创机器学习中的数学基础怎么学？

又到了周末了，但小编的周六并不算周末。回到本次的话题上，这次小编给大家分享机器学习中的数学基础该怎么学。首先给出小编的态度：机器学习中涉及的数学课程比较多，要想一下子去穷尽所有课程显然也不现实，大可不必打好所有的数学基础再去学机器学习，最好的做法是当你对机器学习本身的理解达到一定瓶颈的时候，你可以补一补一些相关的数学基础之后再回去看机器学习的问题也许会更快的有所突破。就拿小编来说吧，小编是...

2018-07-21 10:35:51 12535 6

原创利用高斯分布进行异常检测

今天周末，小伙伴们是不是出去浪了，苦逼的小编还在实验室学习，不是我不想出去，实在是实验室实行的996工作制。吐槽归吐槽，下面就进入本次文章的主题——利用高斯分布进行异常检测。首先什么是异常，又是通过什么进行异常检测？下面小编以对服务器的异常检测为例，对相关概念和原理进行解释。我们对服务器的检测一般是居于服务器的运行情况进行判定的，如可以选取吞吐量、响应延时等指标作为依据。当服务器运作正常时，它的吞...

2018-07-14 16:14:45 5947

原创利用K-means进行图像压缩

前面几篇文章浅谈支持向量机神经网络——手写数字识别中涉及的算法都属于监督学习的范畴，今天小编给大家介绍一种属于无监督学习范畴的算法——K-means。K-means是一种应用很广泛的聚类算法。聚类，通俗的讲就是“人以群分物以类聚”。K-means是怎么实现聚类的呢？下面我们以一个简单的样例来阐述它的工作原理。观察上面的图，我们一般会认为这些数据点集中分布在三个区域，即这些数据点可以聚成三个族...

2018-07-11 21:02:14 8287 4

原创浅谈支持向量机（Support Vector Machine）

自从在学校安定下来后，小编的学习效率和时长提高了不少。在最近五天的时间里，看了大约20节视频并做了对应章节的编程练习。上一篇文章介绍了欠拟合和过拟合的知识，这次给小伙伴们介绍下支持向量机的知识。支持向量机和逻辑回归（Logistic Regression）很相像，从一方面看，支持向量机是逻辑回归的变化版。其重要的区别在于损失函数的不同。（细线是逻辑回归的损失函数图像，粗线是支持向量机的损失函数图像...

2018-07-09 17:31:17 571

原创学习曲线——判断欠拟合还是过拟合

在机器学习领域，模型的欠拟合问题和过拟合问题一直都是我们关注的重点，正确的诊断出你的模型属于哪一类问题对改善模型至关重要。所谓欠拟合一般是指模型没有很好的抓住数据的特征，没有对数据进行很好的拟合，使得偏差较大。这时一般要通过增加特征项或者减少正则化参数来改进模型。而过拟合一般是由于模型使用了太多的特征引起的，使得模型将部分数据的“特性”也学习到了，导致模型的泛化能力较弱。这时一般要通过删减特征项或...

2018-07-06 15:45:11 37438 5

原创神经网络——手写数字识别

这段时间，事很多，心很烦。小编已到杭州三天，学习状态不是很好，学习断断续续，但还是要总结下。这一个星期都有在断断续续学习神经网络，觉得神经网络还蛮高大上的，有点高深莫测。神经网络之所以叫神经网络是因为这个思想来源于人脑处理信息的过程。人脑中有很多很多的神经元，每一个神经元相当于一个计算单位，所有的神经元构成一个网络，可以处理复杂的信息。一个简单的、典型的神经网络架构如下。神经网络不仅可以作用在分类...

2018-07-02 22:30:36 2124

原创 Fiddler工具抓包小教程

小编在百度文章中无意看见了一篇名为“继天佑、杨清柠之后，又一名知名主播被央视点名！网友：支持封杀”的文章，文章主要讲一男子挪用大量公款为冯提莫打赏事件。小编看了一些网友的评论之后发现，文章标题取得不太合理，其中有不少的网友表示：打赏是男子的事，关冯提莫有什么关系，她不应该背这个锅。这就引起了小编的好奇，小编想通过对网友的评论内容进行分析，利用数据来说明网友对这件事情的具体态度如何。巧妇难为无米之炊...

2018-06-21 20:54:51 12832 2

原创抖音流行的字符视频如何实现

前几天，有个朋友给我分享了一个抖音短视频链接，是以代古拉k跳舞视频为原型的字符视频，朋友问我：“这个你知道怎么做吗？”。我们都知道视频是由一帧一帧的静态图片组合而成的，所以当我们把原视频的每一帧变成对应的字符画时，字符视频就出来了。所以将一个视频变成字符视频只需以下两步： 1.提取视频中的每一帧。 2.将每一帧的静态图片变成字符画。关于第一步的具体实现，小编就不多加赘述了，我觉得应该不...

2018-06-09 15:38:19 15554 5

原创如何寻找想要的数据集

在很多时候，为了解决问题，需要大量的数据，但有时我们并不知道到哪里寻找数据集，本文以小编自己的一些经验来列举一些寻找数据的方法。1.专门的比赛网站一般大型数据集都伴随着比赛，比如用于数据分析的各种数据集可在Kaggle上找到，图像分类数据集可在ImageNet比赛上寻找，文本识别数据集可在ICDAR比赛上寻找。2.爬虫数据有时我们需要某些网站上的数据，此时爬虫就派上了用场。比如需要影评、书评的数据...

2018-06-05 20:40:02 11874 1

原创乔丹 VS 詹姆斯

小编从高一开始接触篮球，到今已有7年，是一个十足的篮球爱好者。我们大部分96后只听过乔丹的伟大，却没经历乔丹的时代，幸运的是我们遇见了詹姆斯的时代。篮球界一直有一个热门话题——“詹姆斯是否会超越乔丹？”。今天小编就用数据来谈谈个人对这个话题的观点。数据信息主要包括NBA常用的数据统计，具体含义如下。game:数据ID，自增date:比赛日期 2003/10/29age:比赛当天球员的年龄 18-3...

2018-05-25 15:36:37 1101

原创 Google的网页排名算法

Google并不是第一家搜索引擎公司，但后来却成为龙头行业，这其中PageRank算法发挥着重要的作用。PageRank是Google创始人之一Larry Page发明的，今天我们就来一起瞻仰下大神的创作。互联网上的每一个网页都可以看作一个顶点，每一个顶点都有出度和入度。出度是指从这个网页能链接到的其他网页的数目，入度是指能链接到这个网页的其他网页的数目。这样整个互联网中的所有网页的链接关系可以看...

2018-05-17 22:57:37 9101 2

原创数据揭秘“吃鸡”游戏

绝地求生应该是时下最火的一款游戏，然而小编被“我是谁？我在哪？我要干什么？”弄晕了，充分说明我不适合玩游戏。但今天小编用数据来带大家更进一步的了解“吃鸡”游戏。所有数据来源Kaggle，链接地址：https://www.kaggle.com/skihikingkevin/pubg-match-deaths/data。一、大多数人喜欢选择哪些地点跳伞。数据记录了720000场比赛的全部信息，其中有玩...

2018-05-17 22:56:18 1354

原创大学四年后你会庆幸选择了计算机专业吗？

今天吃完晚饭后和同学散步，我突然问了他一个问题，“读完了四年大学，你现在庆幸你当初选择了计算机专业吗？”。我的同学居然毫不犹豫的回答“当然”。我问他为什么，他就笑着说计算机专业好啊。回到寝室，我自问了自己，我的回答是“非常庆幸”。我也不知道计算机专业哪里吸引我，但我现在的方向很清晰，学习动力十足，越往后学就越觉得计算机专业好高深，很有趣，我想了解它的一切。记得高考填报志愿的时候，我根本不知道自己的...

2018-05-13 19:59:26 6664 2

原创基于机器学习中KNN算法的车牌字符识别

小编的毕业设计做的就是车牌识别系统，主要包含车牌定位、字符分割、车牌识别模块。先附上做的系统界面图。关于实现车牌定位和字符分割的算法，大家可以去网上找相关的论文，本文的重点是介绍利用机器学习的KNN算法实现简单的字符识别。 KNN算法全称k-NearestNeighbor，是机器学习分类领域最简单的算法之一。它的主要思想是将待预测的样本和已知分类的样本集中每一个样本进行“距离计算”，选择...

2018-05-09 21:28:36 7235 14

原创 MapReduce中自定义数据类型作为key

在MapReduce编程模型中key通常是用来排序和划分的。排序是指按照key的大小顺序将 <k,v> 键值对排序，划分是指按照key的hashcode值将 <k,v>划分到指定的Reducer节点上。 MapReduce中的key类型必须实现WritableComparable接口，为了方便用户使用，Hadoop提供有一些内置的key类型。常见的key类型有...

2018-05-07 15:24:43 3905 2

原创程序员必备的网站

互联网是一个好东西，只要你尽情的去发现，你总能找到让你眼前一亮的事物。程序员更是在探索互联网上具有得天独厚的优势，今天就给小伙伴们推荐几个程序员必备的网站。1.Github (https://github.com) Github是一个面向开源及私有软件项目的代码托管平台。在Github上你可以放置自己的项目，也可以在上面寻找你所需的项目。入门Github的教材链接：http://www.runoo...

2018-05-07 11:29:14 743

原创从影评的角度看《后来的我们》

要说五一期间最火的电影应该是刘若英执导的《后来的我们》，但就目前豆瓣的评分来看，火的不是剧情，而是它的“炒作”翻船了。但作为技术控的我们总希望用技术去探索真相，下面就跟随小编一起来用技术来客观评价《后来的我们》吧。评价一部电影除了评分、票房之外，小编觉得影评也是一项重要的指标，所以我们就用豆瓣电影上对《后来的我们》影评进行分析。看了这篇文章，你能get到的技能如下： 1.使...

2018-05-04 20:47:34 1049

原创基于MapReduce的并行化大矩阵乘法

并行化大矩阵乘法是较早的基于MapReduce编程模型实现的基础算法之一，最早是由Google公司为了解决PageRank中包含的大量矩阵乘法而提出的。今天我们就来一起学习一下基于MapReduce的并行化大矩阵乘法。我们假设有两个矩阵M和N，其中M的列数等于N的行数，则记M和N的乘积P = M . N。其中Mij表示矩阵M中第i行第j列的元素，Njk表示矩阵N中第j行第K列的元素，则矩阵P中的元...

2018-05-02 15:34:39 867

原创帮别人做毕业设计程序是一种怎样的体验

阅读过上一篇文章的朋友都知道，小编在上一周接了三个做毕业设计程序的活，应其中一个朋友的请求，今天和大家分享下帮别人做毕业设计程序是一种怎样的体验。首先说一下目前完成的情况，第一个和第二个已基本完成，第三个已开发一半。大家是否觉得小编开发的速度很快，其实不然，是这三个系统雷同并且难度不大，都是关于XXX的计算系统，主要功能就是输入一些参数，根据公式计算，再加一个保存工作状态的功能就差不多了。即使这样...

2018-04-29 20:28:08 8029 8

原创 MapReduce执行框架的组件和执行流程

MapReduce是Hadoop核心框架之一，是一种并行计算的编程模型。当我们利用Hadoop进行大数据处理时，很大一部分工作就是基于MapReduce编写数据处理程序，所以对于掌握MapReduce执行框架的组件和执行流程非常重要。本文借助WordCount程序来讲述MapReduce执行框架的组件和执行流程。 WordCount程序的作用是统计文本中出现的每个单词的次数。下面先给出W...

2018-04-22 22:43:09 3701

原创学习资料大放送

最近有许多小伙伴问我怎么入门机器学习和大数据，为了解答大家的疑惑，为此专门写下这篇文章，希望对大家有所帮助。文章最后还有大量的学习资料哦。入门机器学习机器学习是一门多学科融合的科学，对初学者的要求也比较高，基本要求有如下几点。（一）数学方面：高等数学+线性代数+概率论。这些课程可以先了解，等到学习机器学习遇到特定的知识时再逐渐加深。（二）编程方面：机器学习对编程有一定的...

2018-04-19 22:10:43 307

车牌识别字符识别图片集

空空如也