小丁丁_ddxdd-CSDN博客

转载机器学习时代的三大神器:GBDT,XGBOOST和LightGBM

来源：https://blog.csdn.net/bbbeoy/article/details/79590981本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍，一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候，为每一个样本赋上...

2018-05-13 14:21:29 3718

转载机器学习中的范数规则化之（一）L0、L1与L2范数

来源：http://blog.csdn.net/zouxy09/article/details/24971995机器学习中的范数规则化之（一）L0、L1与L2范数[email protected]://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数...

2018-03-04 12:18:00 686

转载星型模型和雪花型模型比较

来源：http://blog.csdn.net/nisjlvhudy/article/details/7889422一、概述在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该

2018-01-21 19:40:50 799

转载主成分分析（PCA）原理详解

来源：http://blog.csdn.net/zhongkelee/article/details/44064401转载请声明出处：http://blog.csdn.net/zhongkelee/article/details/44064401一、PCA简介1. 相关背景上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后，颇

2018-01-20 20:23:19 12826 1

转载【Python实战】Pandas：让你像写SQL一样做数据分析（一）

来源：http://www.cnblogs.com/en-heng/p/5630849.html# -*- coding: utf-8 -*-"""Created on Sun Dec 31 18:12:11 2017@author: ASUS"""#【Python实战】Pandas：让你像写SQL一样做数据分析（一）#https://www.c

2018-01-01 20:46:15 1709

转载 10 种机器学习算法的要点（附 Python 和 R 代码）

来源：http://blog.jobbole.com/92021/前言谷歌董事长施密特曾说过：虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注，但是这家公司真正的未来在于机器学习，一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期：从使用大型计算机，到个人电脑，再到现在的云计算。关键的不是过去发生了什么，而是将来会有什么发生。

2017-11-13 21:50:17 501

转载三张图读懂机器学习：基本概念、五大流派与九种常见算法

来源：http://lib.csdn.net/article/machinelearning/68362机器学习正在进步，我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用，但机器学习的发展仍还在继续，甚至被认为有可能彻底改变人类文明的发展方向乃至人类自身。但你了解现在正在发生的这场变革吗？四大会计师事务

2017-11-13 21:21:52 3347

转载文本深度表示模型—word2vec&doc2vec词向量模型

来源：http://www.dataguru.cn/article-9478-1.html深度学习掀开了机器学习的新篇章，目前深度学习应用于图像和语音已经产生了突破性的研究进展。深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法，那为什么深度学习在语义分析领域仍然没有实质性的进展呢？引用三年前一位网友的话来讲：“Steve Renals算了一下icas

2017-11-03 11:51:19 2109

转载 Python enumerate() 函数

来源：http://www.runoob.com/python/python-func-enumerate.html描述enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。Python 2.3. 以上版本可用，2.6 添加 start 参数。语法

2017-11-03 10:02:38 331

转载 Python中使用item()方法遍历字典的例子

来源：http://www.jb51.net/article/54319.htmPython字典的遍历方法有好几种，其中一种是for...in，这个我就不说明，在Python了几乎随处都可见for...in。下面说的这种遍历方式是item()方法。item()item()方法把字典中每对key和value组成一个元组，并把这些元组放在列表中返回。DEMO

2017-11-03 09:05:43 70212 4

转载卷积神经网络工作原理直观的解释

来源：http://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650340303&idx=1&sn=233f12c3a33f298edfa915bccb22609a&chksm=8780ed3cb0f7642ab0d8d77521fac69cd71b030182eefc6ad64dbcb90f3bc66911f5e8f1c170&mpshare=

2017-10-24 11:42:41 4163

转载计算机基础---电脑的原理

来源：http://mp.weixin.qq.com/s?__biz=MzA4NTE1MDk5MA==&mid=2672797533&idx=1&sn=dc5633be58af65c5f14083fb8b9bae1b#rd总览电脑看似复杂，其实硬件无非四种：CPU，内存，磁盘，输入输出设备，重要性依次递减。硬件之上，操作系统是一层，应用程序又一层。一通电，CPU就会

2017-10-16 15:41:35 342

转载自然语言--Trie树详解及其应用

链接：http://blog.csdn.net/hackbuteer1/article/details/7964147参考链接：https://segmentfault.com/a/1190000005810561一、知识简介最近在看字符串算法了，其中字典树、AC自动机和后缀树的应用是最广泛的了，下面将会重点介绍下这几个算法的应用。字典树（Tri

2017-10-13 11:33:54 346

转载文本数据的机器学习自动分类方法

来源：http://blog.csdn.net/jdbc/article/details/50586042本文为第一部分,着重介绍文本预处理以及特征抽取的方法。随着互联网技术的迅速发展与普及，如何对浩如烟海的数据进行分类、组织和管理，已经成为一个具有重要用途的研究课题。而在这些数据中，文本数据又是数量最大的一类。“文本分类是指在给定分类体系下，根据文本内容自动确

2017-10-08 21:45:00 25518

转载自然语言---哈夫曼树

来源：http://blog.csdn.net/shuangde800/article/details/7341289 一、哈夫曼树的概念和定义什么是哈夫曼树？让我们先举一个例子。判定树：在很多问题的处理过程中，需要进行大量的条件判断，这些判断结构的设计直接影响着程序的执行效率。例如，编制一个程序，将百分制转换成五个等级输出

2017-09-26 18:11:13 443

转载 Linux--日志分析查看——grep,sed,sort,awk运用

来源：http://blog.csdn.net/teamlet/article/details/38046409概述我们日常应用中都离不开日志。可以说日志是我们在排查问题的一个重要依据。但是日志并不是写了就好了，当你想查看日志的时候，你会发现线上日志堆积的长度已经超越了你一行行浏览的耐性的极限了。于是，很有必要通过一些手段来高效地辅助你来快速的从日志中找

2017-09-26 13:48:50 6083

转载 Python---异常处理try...except、raise

来源：http://www.cnblogs.com/Lival/p/6203111.html一、try...except有时候我们写程序的时候，会出现一些错误或异常，导致程序终止。例如，做除法时，除数为0，会引起一个ZeroDivisionError例子：1234a=10b=

2017-09-26 13:47:15 1085

转载 spark----基于Python的Spark Streaming+Kafka编程实践

来源：http://blog.csdn.net/eric_sunah/article/details/54096057?utm_source=tuicool&utm_medium=referral说明Spark Streaming的原理说明的文章很多，这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:ht

2017-09-25 11:30:44 2359

转载 sparksteaming---实时流计算Spark Streaming原理介绍

来源：http://www.cnblogs.com/shishanyuan/p/4747735.html1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以

2017-09-13 18:31:03 7153

转载 Python---结巴分词介绍

来源：https://www.2cto.com/net/201607/530926.html结巴分词介绍现在开源的中文分词工具，有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等，其中最近还在更新并维护的，也是目前分词效果比较优秀的要属于Ansj、Jieba、HanLP了。之前我写过Ansj分词器的介绍说明博客，现在细谈一下Jieba分词的详细

2017-09-05 17:51:11 2062

转载文本情感分类---搭建LSTM（深度学习模型）做文本情感分类的代码

来源：http://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=2652391534&idx=1&sn=901d5e55971349697e023f196037675d&chksm=84da48beb3adc1a886e2a0d9d45ced1e8d89d4add88a9b6595f21784fcc461938b19a7385684&mpshare=

2017-09-04 17:32:31 11954 1

转载推荐系统---深度学习在电商商品推荐当中的应用

来源：1.常见算法套路电商行业中，对于用户的商品推荐一直是一个非常热门而且重要的话题，有很多比较成熟的方法，但是也各有利弊，大致如下：基于商品相似度：比如食物A和食物B，对于它们价格、味道、保质期、品牌等维度，可以计算它们的相似程度，可以想象，我买了包子，很有可能顺路带一盒水饺回家。优点：冷启动，其实只要你有商品的数据，在业务初期用户数据不多的情况下，也

2017-09-04 17:16:37 10513 5

转载 mysql---备份数据

#!/bin/bash#owner:bi#cronTime: #inputData:WORDBANK #describe:export data from WORDBANK to host 240 #note:source /etc/profileik_dir='/opt/cms_syc_seg/useDic/ik/stopword'stoppool='/auto_cron/

2017-09-01 08:55:16 225

转载 Python----python实现机器学习中的各种距离计算及文本相似度算法

来源：http://blog.csdn.net/AlanConstantineLau/article/details/69053585import numpy as npimport math# 依赖包numpy、python-Levenshtein、scipydef Euclidean(vec1, vec2): npvec1, npvec2 = np.arra

2017-08-31 22:07:40 1630

转载机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

来源：http://www.cnblogs.com/LeftNotEasy/archive/2011/01/02/machine-learning-boosting-and-gradient-boosting.html前言：本来上一章的结尾提到，准备写写线性分类的问题，文章都已经写得差不多了，但是突然听说最近Team准备做一套分布式的分类器，可能会使用Rando

2017-08-24 21:59:59 312

转载自然语言处理---深度学习在情感分析中的应用

来源：https://mp.weixin.qq.com/s?__biz=MzAwNDI4ODcxNA==&mid=2652245443&idx=1&sn=b2de6db6962466d0f2bc8b2bd8283f3a&chksm=80cc9466b7bb1d709a0901c1661342277335dabee9cb269d3774083533279a49309890900a90&scene=0

2017-08-22 21:52:02 7162

转载 Linux--sed

来源：http://www.cnblogs.com/dong008259/archive/2011/12/07/2279897.htmlsed是一个很好的文件处理工具，本身是一个管道命令，主要是以行为单位进行处理，可以将数据行进行替换、删除、新增、选取等特定工作，下面先了解一下sed的用法sed命令行格式为： sed [-nefri] ‘command’

2017-08-22 21:30:39 214

转载机器学习中的数学(2)-线性回归，偏差、方差权衡

来源：http://www.cnblogs.com/LeftNotEasy/archive/2010/12/19/mathmatic_in_machine_learning_2_regression_and_bias_variance_trade_off.html本文由LeftNotEasy所有，发布于http://leftnoteasy.cnblogs.com。如果转载，请注

2017-08-17 23:14:42 264

转载向量空间模型(VSM)在文档相似度计算上的简单介绍

来源：http://blog.csdn.net/felomeng/article/details/4024078向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词：w1，w2，......，w10，而共有三篇文章，d1，d2和d3。统计所得的词频表

2017-08-03 21:49:22 615

转载 Bag of Words(BOW)模型

来源:https://www.douban.com/note/310140053/BOW (bag of words) 模型简介Bag of words模型最初被用在文本分类中，将文档表示成特征矢量。它的基本思想是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子（因为里面装的都是词汇，所以称为词

2017-08-03 21:39:15 391

转载 Deep Learning（深度学习）学习笔记整理系列之（四）

来源：http://blog.csdn.net/zouxy09/article/details/8775524九、Deep Learning的常用模型或者方法9.1、AutoEncoder自动编码器 Deep Learning最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是

2017-07-19 22:07:33 213

转载 Deep Learning（深度学习）学习笔记整理系列之（三）

来源：http://blog.csdn.net/zouxy09/article/details/8775518好了，到了这一步，终于可以聊到Deep learning了。上面我们聊到为什么会有Deep learning（让机器自动学习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就是Deep learning需要多层来获得更抽象的特征表达。那么多少

2017-07-19 21:49:25 235

原创更新动态分区表

建表drop table dml.sina_blog_sentiment_result;create external table dml.sina_blog_sentiment_result( news_time string comment '文章发布时间',url string comment '文章url',author string comment '文章作

2017-07-19 13:32:28 570

转载 Scala元组

来源：http://www.yiibai.com/scala/scala_tuples.htmlScala的元组结合件多个固定数量在一起，使它们可以被传来传去作为一个整体。不像一个数组或列表，元组可以容纳不同类型的对象，但它们也是不可改变的。这里是一个元组持有整数，字符串和Console，如下的一个例子：val t = (1, "hello", Console)这是语法修饰(快

2017-07-14 08:45:24 392

转载 Scala Map[K, V]

来源：http://www.yiibai.com/scala/scala_maps.htmlScala中的映射是键/值对的集合。任何值可以根据它的键进行检索。键是在映射唯一的，但值不一定是唯一的。映射也被称为哈希表。有两种类型的映射，不可变以及可变的。可变和不可变的对象之间的区别在于，当一个对象是不可变的，对象本身不能被改变。默认情况下，Scala中使用不可变的映射。如果想

2017-07-14 08:38:00 1352

转载 Scala Sets

来源：http://www.yiibai.com/scala/scala_sets.htmlScala集合为相同类型的配对的不同元素的集合。换句话说，集合是不包含重复元素的集合。有两种集合，不可改变的和可变的。可变和不可变的对象之间的区别在于，当一个对象是不可变的，对象本身不能被改变。默认情况下，Scala中使用不可变的集。如果想使用可变集，必须明确地导入scala.col

2017-07-14 08:30:17 303

转载 Redis操作命令总结

来源：http://www.jb51.net/article/61793.htm一、key pattern 查询相应的key　　（1）redis允许模糊查询key　　有3个通配符 *、?、[]　　（2）randomkey：返回随机key　　　　（3）type key：返回key存储的类型　　（4）exists key：判断某个key是否存在

2017-07-12 22:18:16 382

转载 Scala List

来源：http://www.yiibai.com/scala/scala_lists.htmlScala中列表是非常类似于数组，这意味着，一个列表的所有元素都具有相同的类型，但有两个重要的区别。首先，列表是不可变的，这意味着一个列表的元素可以不被分配来改变。第二，列表表示一个链表，而数组平坦的。具有T类型的元素的列表的类型被写为List[T]。例如，这里有各种数据类型定义的

2017-07-07 08:32:12 235

转载 Scala--集合

来源：http://www.yiibai.com/scala/scala_collections.htmlScala有一组丰富的集合库。集合是对事物的容器。这些容器可被测序，线性集像List, Tuple, Option, Map等集合的项目可具有元素的任意数量或有界到零个或一个元素(例如，Option)。集合可能是严格或懒惰。懒集合有可能不消耗内存，直到他们被访问，就像范

2017-07-07 08:22:18 247

转载 Scala---数组

来源：http://www.yiibai.com/scala/scala_arrays.htmlScala中提供了一种数据结构-数组，其中存储相同类型的元素的固定大小的连续集合。数组用于存储数据的集合，但它往往是更加有用认为数组作为相同类型的变量的集合。取替声明单个变量，如number0, number1, ..., 和number99，声明一个数组变量，如号码和使用numbe

2017-07-05 22:47:40 926 1

空空如也

空空如也