君子慎独_诚意-CSDN博客

原创推荐系统评价指标

离线评估 offline evaluation一般包括两个评估任务：评分预测和top n推荐‘对于评分预测模型：训练数据集训练好数据，测试数据集预测用户对物品的评分。评价指标：MAE和RMSE其中T表示测试集。对于Top N模型：对排名进行评估。评价指标：准确率，召回率，F1假设推荐列表长度为n,用户集合,给用户u推荐的商品集合,用户u在测试集里实际动过过的物品集...

2019-06-10 20:00:16 1322

原创翻译（笔记）：可解释性推荐系统综述Explainable Recommendation: A Survey and New Perspectives

本文是对“Explainable Recommendation: A Survey and New Perspectives ”的一篇学习记录和关键内容翻译，如有不对的地方，请批评指正，谢谢！这篇文章主要包括以下几个部分：目录1 introduction1.1 explainable recommendation1.2 a historical overview1.3 c...

2019-06-01 17:19:30 5885

原创 2020实习菜鸟数据挖掘面试

虽然知道自己过不了，不过还是投了简历。谢谢菜鸟给我一次面试的机会，感觉这种大公司不但要掌握基础的，还有什么开源项目啊，都有要求。3月14号简历评估面试1.自我介绍2.讲解了交通数据挖掘的那个项目，有几个人，怎么分工，自己负责什么？3.LR,SVM,Bayes4.了解tensorflow吗？5.关注过其他开源项目吗？6.并行算法---xgboost评价：算法...

2019-03-15 16:08:02 726 1

原创 2020海康实习面试----大数据算法

内推码进的，只有一个在线测试，没有笔试，到3月14号变成了专业面试状态，今天收到的面试电话，中午一面，下午二面。海康一面：一面是个小哥哥，问的主要是项目上的问题。1.自我介绍2.什么时候能来实习3.关于数据挖掘的一个项目（详细阐述，中间遇到的问题，怎么解决的，脏数据怎么处理的）4.熟悉那些大数据栈（spark,hbase）5.现在是在实验室还是？6.有什么问题？...

2019-03-15 16:00:52 1818 1

原创 leetcode:有效括号判断

给定一个只包括'('，')'，'{'，'}'，'['，']'的字符串，判断字符串是否有效。有效字符串需满足：左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。注意空字符串可被认为是有效字符串。思路：栈的操作准备进栈的元素和栈顶元素比较 public boolean isValid(String s) { Stack<Chara...

2019-03-07 21:19:27 716

原创 leetcode:最长公共前缀

查找字符串数组中的最长公共子串，如果不存在就返回空字符串解题思路：一、分治： public String longestCommonPrefix(String[] strs) { if (strs == null || strs.length == 0) return ""; return longestCommonPrefix(strs, 0 ,...

2019-03-07 20:42:34 154

原创 java剑指offer:二叉树重构，根据中序和前序遍历的数据重构二叉树

package offer_algorithms;public class ConstructBT { //根据前序和中序构建二叉树 public static void main(String[] args) { int[] pre = new int[]{1, 2, 4, 7, 3, 5, 6, 8}; int[] in = new int...

2019-03-07 17:24:19 213

原创 java剑指offer:两个栈实现队列的功能

package offer_algorithms;import java.util.Stack;public class TwoStackForQueue { /** * 栈：先进后出 * 队列：先进先出 * <p> * 用两个栈来实现队列的功能 */ Stack<Integer> stackIn ...

2019-03-07 17:23:22 130

原创 java剑指offer：二叉树遍历，返回结点的下一个结点

题目，给一个二叉树的中序遍历序列，和某个结点，返回该结点的下一个结点值输入：二叉树，某节点输出：该节点的下一个结点package offer_algorithms;public class NextNodeForBT { /** * 给定一个二叉树和其中的一个结点，找出中序遍历序列的下一个结点 * 分情况： * 若该节点时根结点，则下一个结...

2019-03-07 17:21:14 206

原创机器学习：模型评估与优化

Real-World Machine Learning: Model Evaluation and Optimization地址：https://livebook.manning.com/#!/book/real-world-machine-learning/chapter-4/9本文主要是对书上的重要内容进行了提炼翻译笔记，供日后的学习。主要内容包括：利用交叉验证来评估模型的...

2019-03-07 13:10:30 1787 1

原创剑指offer:斐波那契数列

斐波那契公式如下：输入：n输出：斐波那契数列的第n项 public static long fibonacci(int n) { long[] result = {0, 1}; if (n < 2) { return result[n]; } long fibOne = 1; ...

2019-03-06 19:59:52 169

原创 scikit-learn 集成学习ensemble methods参数使用总结

sklearn.ensemble模块里面包含的集成学习方法可以用于分类、回归以及异常检测ensemble.AdaBoostClassfierensemble.AdaBoostRegressorAdaBoost重要参数包括两部分：一个是对AdaBoost框架进行调参，一个是对弱分类器进行调参AdaBoost框架参数base_estimator:基学习器，默认是决策树algor...

2019-03-06 17:21:02 1066

原创机器学习：GBDT,RF,XGBoost学习总结

除了svm，其他几个都属于集成学习的，所以在这之前，先了解下集成学习。https://blog.csdn.net/qq_28031525/article/details/70207918集成学习：ensemble learning:构建并结合多个学习器来完成学习任务。对于个体学习器的要求：”好而不同“，即个体学习器要有一定的准确性，并且还要有多样性，即学习器之间要有差异性----“...

2019-03-06 12:58:21 468

原创数据结构--树结构：二叉排序树，二叉搜索树、AVL

关于树的几个概念树：非线性结构，数据元素之间的逻辑关系时前驱唯一而后续不唯一，即数据元素之间是一对多关系。二叉树：每个结点最多有两个子树；左右子树是有序的，次序不能颠倒；即使树中只有一个结点，也要区分左右子树。满二叉树：所有分支结点都存在左右子树，并且所有叶子都在同一层上。完全二叉树：对一棵具有n个结点的二叉树按层序编号，如果编号为i的结点与同样深度的满二叉树中编号为i的结点...

2019-03-03 20:48:17 208

原创数据结构：排序之堆排序Heap Sort

Heap Sort,堆排序，对简单选择排序的一种改进二叉堆：顺序存储堆具有完全二叉树的性质：每个结点值都大于或等于其左右孩子结点的值，成为大顶堆；或者每个结点值都小于等于其左右孩子结点值，称为小顶堆。大顶堆，图片来自程序员小辉灰 ...

2019-02-26 11:41:23 184

原创聚类算法总结

k-means算法步骤输入：聚类簇数k,样本集合D输出：簇划分C={C1,C2,...,Ck} 1.选取k个样本作为初始的均值向量； 2.计算每个数据点到均值向量的距离，数据点距离那个均值向量近，就划分到哪一个类别中； 3.计算每个类别的均值向量（中心点），判断与上一次的是否有变化，有则更新； 4.重复上述步骤，直到每一个类...

2019-02-25 17:02:43 827

原创数据结构：排序之快速排序

基本思想快速排序：在每轮排序中，选取一个基准元素，通过一趟排序将待排记录分割成独立的两个部分，其中一部分记录的关键字均比另一部分记录的关键字小，则可分别对这两部分记录继续进行排序，已达到整个序列有序的目的。核心代码对于数组a中从下标为low至下标为high的元素，选取一个基准元素（pivotKey）,根据与基准比较的大小，将这些元素排到基准元素的两端。如何选择基准元素最简单的是选择...

2019-02-24 11:00:01 261

原创数据结构：排序之简单选择排序

简单选择排序：通过n-i次关键字之间的比较，从n-i+1个记录中选出关键字最小的记录，并和第i个记录交换。package sort_algorithms;/** * 简单选择排序： */public class Simple_Selection_Sort { public void simple_selection(int[] arr) { for (in...

2019-02-23 17:22:38 168

原创 java源码----ArrayList

ArrayList类，实现了List接口ArrayList存在线程安全问题， SUID private static final long serialVersionUID = 8683452581122892189L;参考博客：https://blog.csdn.net/iaiti/article/details/41278699三个构造函数设定Ar...

2019-02-23 17:04:48 90

原创数据结构：排序之冒泡算法

冒泡算法属于交换类排序，通过两两比较待排元素的关键字，若与排序要求相逆，则交换。初级版本：交换排序，不满足两两相邻比较，让每一个关键字和它后面的每一个比较----效率低 public void bubble_1(int[] arr) { for (int i = 0; i < arr.length; i++) { for (...

2019-02-23 16:58:17 97

原创 leetcode---判断回文数

题目：可以转化为String然后反转的问题嘛。如果x>0的化，就那样操作小于0就不相等的 false等于0的 trueclass Solution { public boolean isPalindrome(int x) { //整数反转后再判断是否相等就可以了吗 if(x<0) { ...

2019-01-02 20:57:44 108

原创 leetcode---整数反转

用stringbuffer写了一个，提交上去----溢出问题，不通过public intreverse(int x){if(x>0) { String tmp=String.valueOf(x); StringBuffer sb=new StringBuffer(tmp); String r...

2019-01-02 20:43:53 78

原创 idea创建scala项目

首先要确认idea的scala插件是否安装了创建scala项目 new-->project选择scala和左边IDEA接下来，选择JDK和scala的SDK将spark的jar包导入将spark的jar导入即可...

2019-01-02 10:02:42 129

原创 scala---SparkContet的方法集合源码理解

accumulable:创建一个[org.apache.spark.Accumulable]共享变量。/** * Create an [[org.apache.spark.Accumulable]] shared variable, to which tasks can add values * with `+=`. Only the driver can access the ...

2018-12-31 17:35:02 166

原创 scala api--org.apache.spark下的包了解

org.apache.spark.Accumulable一种可以累加的数据类型---累加器典型成员方法：add(term:T):Unit向累加器里面添加数据merge(ter,:T):Unit将两个累加器聚合org.apache.spark.Accumulator累加器，初始化由SparkContext#accumulator创建scala> val a...

2018-12-31 17:34:31 2276

原创 scala学习--基础教程

scala是什么？scala是一门多范式语言，集成了面向对象和函数式语言的特性。scala是面向对象的：对象的类型和行为是由类和特质描述的scala是函数式的：为定义匿名函数提供了轻量级的语法，支持高阶函数，允许函数嵌套。常量：使用关键字val定义。val x=1+11,不能被重新赋值变量：使用关键字var定义。var x:Int=1+1，可重新赋值函数：带有参数的表...

2018-12-30 16:17:10 99

原创 spark源码解读--FP-Tree和FP-Growth

paper的实验一个想法是对fp-tree进行改进，所以对spark里面的 fp-tree源码进行理解。记录一下。资料：https://blog.csdn.net/LULIN60/article/details/52255242?utm_source=blogxgwz0关于fp-tree的结点/** Representing a node in an FP-Tree. */ cl...

2018-12-28 16:28:53 1093

原创 leetcode 算法notes--two sum

数组两个元素相加等于目标值，返回这两个元素的下标第一种方法，就直接循环判断的，时间复杂度为(n^2) public static int[] twoSum(int[] nums, int target) { int[] result=new int[2]; for(int i=0;i<nums.length;i...

2018-12-27 21:48:20 112

原创 sql语句中的几个连接：inner join,left join,right join,outer join的区别

最近经常用到join相关的操作，但是对几个jion的区别并不是很理解，特地总结学习一下。学参考资料：https://www.cnblogs.com/logon/p/3748020.html，https://www.cnblogs.com/assasion/p/7768931.html 图片来源：https://www.cnblogs.com/logon/p/3748020.ht...

2018-12-24 09:43:52 294

原创基本数据结构-堆，栈，队列

栈stack:先进后出（last in ,first oute）队列（queue）:先进先出（first in,first out）链表（link list）线性表特点：在元素的有限集中，除第一个元素无直接前驱，最后一个元素无直接后驱外，每个数据元素有且仅有一个直接前驱元素和一个直接后续元素。线性表用一组地址连续的存储单元一次存储线性表的数据元素。假设每个数据元素占k个存储单元...

2018-12-16 14:22:16 138

原创 spark streaming 官网文档---notes(1)

StreamingContex的初始化两种方式：第一种：从SparkConf对象中创建import org.apache.spark._import org.apache.spark.streaming._val conf = new SparkConf().setAppName(appName).setMaster(master)val ssc = new Streamin...

2018-12-03 17:48:10 150

原创 scala 官网文档---notes（1）

scala类型的层次结构如下图：最顶层Any有两个子类：AnyVal和AnyRefAnyVal：表示值类型的 Unit:不包含任何有意义的信息的值类型AnyRef：表示引用类型的所有非值类型都定义为引用类型值之间的转换关系如下图，单向的class 声明 Scala中class的定义scala是一类面向对象的程序语言，强类型。...

2018-12-01 16:37:55 401

原创 learning pyspark:chapter1.understanding spark

what is Apache Spark?Apache Spark是一个开源的、功能强大的分布式查询和处理引擎。 Spark Jobs and APIs执行过程：Execution process对于spark应用，它的驱动进程在master结点上，执行进程分布在worker结点上。 spark job 可以看作式一有向无环图过程 ...

2018-11-10 19:18:31 146

原创 Pysaprk Notes:pyspark sql model

sparksession:使用数据集或DataFrameAPI进行spark编程的入口点。sparksession可以用来创建DateFrame,将DataFrame当作数据表数据，可以在这个数据表上执行sql语句，也可以缓存数据表，从本地读取文件等。用下面的方法来创建一个sparksession>>> spark = SparkSession.builder \\...

2018-11-05 16:32:47 499

原创数据挖掘---数据预处理

数据会收到噪声、缺失值和不一致数据的侵扰。数据预处理技术：数据清理可以清除数据中的噪声；数据集成可以将数据由多个数据源合并成一个一致的数据存储；数据变换可以将数据压缩到较小的区间如0-1;数据归纳可以通过如聚集、删除荣誉特征或聚类来降低数据的规模。数据清理---缺失值忽略元组：不能使用该元组的剩余属性值。除非元组有多个属性缺少值，不然该方法不是很有效人工填写缺失值：当数据集很大，缺...

2018-10-06 22:53:55 355

原创数据挖掘---度量数据的相似性和相异性

相似性和相异性都称为邻近性 proximity. 数据矩阵：对象-属性结构相异性 dissnilarity matrix :对象-对象结构标称属性的邻近性度量二元属性的邻近性度量数值属性的相异性：闵可夫斯基距离在计算距离之前应该规范化数据，涉及变换数据，使之落入较小的公共值域[-1,1]或【0，1】 ...

2018-10-06 21:35:42 1470

原创 DeepWalk原理理解：DeepWalk: online learning of social representations

文献：DeepWalk: online learning of social representations对比阅读了几篇关于网络表示学习的文献，其中一篇包括DeepWalk的提出，下面将自己对于论文的理解和论文的笔记组织好记录下来。deep walk 的提出是针对网络表示学习的稀疏性提出来的，网络表示学习的稀疏性问题对于统计学习任务有一定难度。deep walk 学习的是图中顶点的社...

2018-10-04 22:20:17 14444 4

原创 hyper graph 超图

hyper graph 的基础概念超图数据模型hypergraph data model (HDM）是知识图的基础（GRAKN.AI）概念（notations）:超图由非空的顶点集和超边集组成(a hypergraph consists of a non-empty set of vertices and a set of hyperedges) 超边是一组有限的顶点集合(通过...

2018-09-28 20:59:46 7562

原创数据结构系列----循环链表和双向链表

对于单链表，每个结点只存储了后向指针循环链表：首尾相接的单链表循环链表的头指针（空链表）：非空循环链表：循环链表和单链表的主要差异：在循环的判断条件上，单链表判断：p->next是否为空；循环链表：p->next不等于头结点，则循环没有结束双向链表：在单链表的每个结点中，在设置一个指向前驱结点的指针双向链表的头指针：（空链表）...

2018-09-16 17:09:15 275

原创数据结构---线性表：链式存储结构

前面说到线性表的顺序存储结构，它的插入和删除动作需要移动大量元素，费时。原因：顺序存储结构的线性表，相邻元素的存储结构也是邻居关系，中间没有空隙，无法快速介入，而删除的时候回留出空隙，需要弥补。线性表链式存储结构定义数据域(data)：存储数据元素信息的域指针域(next)：存储直接后继位置的域，指针域中存储的信息称为指针或链由上面两部分信息组成的数据元素ai的存储映像称为...

2018-09-16 16:42:12 794

数据结构与算法分析--线性表实现

空空如也