maomaogo-CSDN博客

原创作为程序员的学习资料

文章说明:本篇文章汇总了一些软件以及代码学习资料链接，作为一个算法工程师，需要掌握很多方面的知识，算法、数据库、编程、大数据等，不断学习是必须的。常用的学习平台有：简书（用户(SeanCheney)文章不错）、CSDN、博客园（用户(刘建平Pinard)对算法解释非常厉害）、GitHub(要有fork好项目的习惯)，菜鸟编程(基本涵盖了大部分语言学习文档)等。推荐的编写工具notepad+...

2019-05-30 11:32:50 513

离线训练和在线训练模式本文主要是说明一些在线预测和离线训练的设计问题，一般地离线训练性能要求低，耗时严重。在线预测就根据不同的场景要求相差比较大，比如是常见的电商推荐等要求实时推荐，这个在线预测就需要好好设计，总不能你在线预测去加载离线模型都要很久，这样很影响用户体验。离线模型的加载用于在线预测，更加模型类别、系统、语言等方面会有不同，比如说一般的有明确的数学表达式模型，比如LR、FM等，其实...

2020-04-18 18:08:14 6162

转载 chp1:推荐系统框架

一、背景介绍当下，个性化推荐成了互联网产品的标配。但是，人们对推荐该如何来做，也就是推荐技术本身，还不甚了解。为此，好学的你肯定在收藏着朋友圈里流传的相关文章，转发着微博上的相关讨论话题，甚至还会不断奔走在各种大小行业会议之间，听着大厂职工们讲那些干货。我知道，这样碎片化的吸收，增加了知识的同时，也增加了焦虑。因为技术的不平等广泛存在于业界内，推荐系统也不例外。推荐系统从搜索引擎借鉴了不少技术和...

2019-10-15 00:01:02 419

原创项目开发python----数据预处理模块

预处理必要性在将数据放入到模型中训练之前，数据通常是很脏的，可能存在缺失、数据类型不统一、存在异常值、需要标准化处理等。一般来说，预处理包括数据填充、数据标准化、特征编码、数据离散化等步骤。特别注意，在这些工作之前，你需要了解你的数据集哪些特征是数值或者分类变量，了解哪个特征存在缺失。数据：https://github.com/yushiyin/handson-ml/tree/master/...

2019-06-02 00:05:55 670

原创项目开发python-----测试集与训练集划分模块

划分训练集与测试集在进行划分训练集与测试集时，需要注意两点：1、新的数据过来，你的划分方法是否仍然有效—唯一标识解决方法：可以使用哈希规则给每个样本富赋予唯一的标识，也可以对每个样本按照行索引作为标识，但是需要确保新数据放在后面。2、有时候某个特征对研究对象目标非常的重要，为了使得模型有广泛性，此时划分测试集与训练集的时候需要着重考虑该特征的分布均衡性—分层抽样随机抽样1、利用skl...

2019-06-01 11:05:57 536

原创 KNN算法----识别、推荐

数据背景:如何约会网站寻找适合自己的的约会对象？网站会推荐不同的人，但是推荐的人不总是恰当的。所以将推荐的人标签为：不喜欢、魅力一般、极具魅力三个特征：每年获得的飞行常客里程数、玩视频游戏所消耗时间百分比、每周消费的冰淇淋公升数（这三个特征收据可能跟网站数据有关）从而构成整个数据为四维数据。数据链接：链接: https://pan.baidu.com/s/1drSoyB4wnhDzmJ...

2019-05-24 21:15:32 404

翻译 SparkSession使用

介绍：SparkSession 是 Spark SQL 的入口。使用 Dataset 或者 Datafram 编写 Spark SQL 应用的时候，第一个要创建的对象就是 SparkSession。你可以通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。例子：import org.apache....

2019-05-12 18:39:39 5885

转载 SparkR的安装配置以及数据分析

1.1. R与Rstudio的安装1.1.1. R的安装我们的工作环境都是在Ubuntu下操作的，所以只介绍Ubuntu下安装R的方法：1）在/etc/apt/sources.list添加源deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu precise/，然后更新源apt-get update；...

2019-03-02 21:23:05 801

转载数据结构------堆与栈

一、预备知识—程序的内存分配一个由C/C++编译的程序占用的内存分为以下几个部分：1、栈区（stack）— 由编译器自动分配释放，存放函数的参数值，局部变量的值等。其 2、堆区（heap） — 一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式倒是类似于链表。 3、全局区（静态区）（st...

2018-09-12 12:39:38 219

原创模型优化、正则化、损失函数

一、前言对于理解机器学习或者深度学习的人来说，需要了解基本的学习框架是什么？无论是聚类、回归，对于参数的求解以及参数的正则化（防止过拟合的措施）来源于什么原理或者基于什么？，这是需要我们理解的。一般而言从误差出发，有式子： Loss_function=Est_error+Regularization of parameters下面我们来说说估计误差中的损...

2018-09-11 17:41:45 2175

原创神经网络原理

一、应用情况神经网络在机器学习中应用比较广泛，比如函数逼近，模式识别，分类，特征提取、图像处理等方面。二、原理（1）神经元模型神经元模型基本上包括多个输入（类似突触），这些输入分别被不同的权值相乘（收到的信号强度不同），然后被一个数学函数用来计算决定是否激发神经元。还有一个函数（也许是不变，就是复制）计算人工神经元的输出（有时依赖于某个门限）。 ...

2018-09-10 23:55:01 1081

原创数据结构-------排序算法详解（面试必备）

数据结构——排序对于各个排序的C++或者C的编程实现网上很容易找到，也有不少的帖子对这这些排序有总结，看了很多好多没有将例子的过程写清楚，仅仅是写了排序思想或者排序过程很简陋，不详细。1、插入排序–O(n^2) 插入排序是一种最简单直观的排序算法，它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。算法步骤：将第一待排序序列第一个元素看...

2018-09-04 10:54:47 1600

老汤spark开发.zip

老汤spark开发原始代码--[老汤]Spark2.x实战应用系列之Spark开发环境搭建(windows) [老汤]Spark2.x实战应用系列之Spark开发环境搭建(windows)

2019-07-18

apache-hadoop-3.1.1-winutils-master.rar

Hadoop安装需要补充包，替换bin文件，而且版本不同对应的补充包会不同，在进行文件配置或者运行的时候均会报错。这里是对应hadoop-3.1.1的补充包。

2019-05-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yushiyin1314的博客