continueOo-CSDN博客

原创讲人话系列——分段约束的整数规划问题

概述供应链是电商的一个重要部分，价格能否做出优势，很大一部分靠供应链。包括我司和PDD今年也都打出了深耕供应链的口号。那么算法在供应链中也有很多的应用。市面上常见的有如下几个类型的应用：预测：各种预测，销量预测，店铺销量预测，订单预测。规划：各种规划，物流规划、车辆规划、人员规划、路径规划、包材规划。上面的问题，大致从技术侧来看有几种解决方案：传统时序预测深度学习sequence...

2019-06-05 21:32:04 3586 12

概述从18年11月开始，接触推荐系统半年左右时间，对推荐系统有了基本的认识。相比于之前做的nlp任务，推荐系统复杂更多，数据来源更复杂、pipeline更复杂、场景更复杂、业务更复杂、指标更复杂。在NLP部分的时候，绝大多数时间花在了数据-模型以及其match上。而在推荐里由于系统复杂度提升，多了更多的功夫在系统架构、代码重构、快速部署上，工程侧的东西在复杂系统中显得更为重要。秉着精益算法的思想...

2019-06-05 19:49:48 1556

原创讲人话系列——企业中的文本分类

概述新型深度模型天天刷屏刷榜，模型日新月异，做算法的不免感到焦虑。发现自己看论文的速度已经赶不上他们发论文的速度了。在此启发下，想写一写自己工作的思考，面对一个领域，我们如何进行技术选型，这个系列我会结合着自己的工作，帮助大家选择一个好的Baseline模型。可能这也是我的困惑，大家模型介绍的欢天喜地，并没有指出哪些适合做baseline，到头还得自己一个一个试，希望我的经验能帮助大家节省一点点...

2019-04-15 20:29:17 400

原创 Tensorflow identity 笔记

概述：在tensorflow学习中，经常会用到identity这个操作，一直不知道原因，这里留下一点学习记录。直接上代码。代码功能：我们想完成tensorflow下的自增计算操作，也就是x += 1，这要在计算图上完成并没有想象的简单。import tensorflow as tfx = tf.Variable(0.0)#tensor加操作，自身x也增1x_plus_1 = tf.assig

2018-03-24 19:51:47 779

原创 Conda docs笔记

前言之前对conda，pip等包管理工具一直是胡乱的使用，没有详细的了解过其使用方法和技巧，导致常见的问题经常反复查询解决方法浪费时间。今天从头到尾看了一下conda的docs，再次大致记录一下，方便以后查询。 PS：其实经常遇到的问题，以及解决方法docs上面都有较详细的记录。系统性比博客要好很多。conda docs：https://conda.io/docs/user-guide/...

2018-02-26 13:10:33 399

原创 HMM超详细讲解+代码

写在前面本文目标Why - 什么场景下需要HMM模型What - HMM模型的相关概念定义HMM模型的5元组HMM中的3个经典问题How - HMM模型中的3个经典问题评估评估描述评估理论推导评估实际算法前向计算python前向算法代码预测预测描述维特比算法python 维特比算法代码学习EM算法实例理解baum-welch算法的思路python代码baum-w

2017-09-08 13:29:55 76803 14

原创天天学算法——搜索热词关联（TopK）

目录：《剑指offer》面试题－topk算法搜索热词关联算法代码实现以及java学习写在前面每次写博客都爱先扯点乱七八糟的东西，这是工作准备写的第２篇博客，之前写过一篇hadoop入门，那里还留下了一个搜索引擎的demo没有去完成，这次学习热词关联刚好也是和搜索引擎相关，所以借此机会把这篇记录下来，一方面花了３天来学习了这个内容，确实学到了不少东西，二来下次写搜索引擎的hadoop的demo

2017-08-20 14:24:17 4022

原创 hadoop 超详细入门wordcount

概述今天博客收到了第一条评论，感觉很赞哦，最近一直在学习hadoop，主要是结合《实战Hadop：开启通向云计算的捷径(刘鹏)》，然后apache官网的doc（还是要以官网为主，虽然是全英文的，但总比那些版本都不对的博客来开得多得多），自己尝试了一下hadoop的hello world之后，有继续尝试了使用docker来模拟多机的集群分布式环境，最后再返回来看hadoop的核心框架hdfs和mapr

2017-08-06 22:28:53 1469

原创数据挖掘岗位——工作准备

本人关山口男子职业技术学院技术渣渣一名，大三开始接触技术工作，大三之前学过一点java，然后做过一点点web项目，大三正式接触技术工作，临近秋招，各个大公司的内推都已经开始，发现自己啥都不会，于是决心从今天开始复习，比起那些高中就搞信息竞赛的人来说，确实基础晚了不知道几条街，但是梦想还是要有的，万一找到好工作啦呢，在这里记录自己2017年秋招学习过程与面试经历。岗位均是数据方向，欢迎指导交流。公司：

2017-08-01 23:06:15 1181 4

原创深刻改变未来-云计算关键技术（一）

说明：本博文内容大多来源于《云计算：深刻改变未来》一书。概述云计算是以数据为中心的一种数据密集型的超级计算，在数据存储、数据管理、编程模式、并发控制、系统管理等方面具有自身独特的技术。云计算技术框架云计算的出现，改变了信息服务的提供方式。深入剖析‘云’，会发现他不是一个单独的服务，而是一个服务集合，其技术框架包括：基础设施即服务（IaaS）,平台即服务（PaaS）,软件即服务（SaaS）三种形式，云

2017-07-27 11:36:45 2591

转载 Linked Data学习

Linked Data 原则源自：https://www.ibm.com/developerworks/cn/web/wa-data-integration-at-scale_linked-data/ 为了鼓励以一致的方式在网络上发布数据，Tim Berners-Lee 定义了 4 条 Linked Data 原则：使用统一资源标识符 (URI) 作为事物的名称。使用 HTTP URI，使

2017-07-27 11:03:15 923

原创统计自然语言处理（词汇获取）

概述词汇获取的一般目的，通过考察大型文本语料库中词汇出现的模式，设计一种算法和统计技术来填补现有电子词典的不足。在自然语言中我们感兴趣的大部分词的特性并没有被收录到电子词典中，自然语言的新词和旧词新用法总是层出不穷，即使我们编辑了现有所有存在的词汇，过几天也会有新的出现，所以词汇获取在自然语言中则显得十分重要。本章包含４个部分：动词子范畴，附着歧义，选择倾向，词汇之间的语义相似性。可以看到之前谈到的

2017-06-17 11:03:53 1426

原创离散动态贝叶斯网络

概述朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立（实际上在现实应用中几乎不可能做到完全独立），现实中各个特征属性间往往并不条件独立，而是具有较强的相关性，这样就限制了朴素贝叶斯分类的能力。这时就需要贝叶斯网络了，贝叶斯网络也称信念网络（Belief Networks）或者因果网络（Causal Networks），是描述变量之间以来关系的一种图形模型，也是一种用来推理的模型。

2017-06-15 11:42:16 8495 2

原创再识概率论

概述因为本人对于贝叶斯的神奇的渴望，以及对概率论体系的重视。发现自己对概率的定义仍然不清晰，这里提出一些小例子，进行分析，并回顾概率论最基础知识。大神请绕路！问题1： P（猪）大家是不是觉得猪的概率这个说法很奇怪。 P（红球）这个好像也是数学书里面经常出现的。 P（骰子为6）大家是不是觉得骰子为6的概率貌似又比较正常，这个里面的区别到底在哪里呢?问题2： P(今天下雨)、P（今天下雨

2017-06-12 20:40:40 1129

原创统计学自然语言处理（语义消歧）

概述本书本章描述自然语言处理中消除歧义的问题，并介绍几种重要的语义消歧算法，描述他们的资源需求和算法性能。消歧我们应该能直观的想象到就是一句话可能有几个意思。但是落实到具体细节中，我认为主要分以下几种：１．分词的消歧，这是很常见的一个例子(南京　市　长　江大桥)　２．多义词的具体词义３．词性的判断对于词性的判断可以看做一个词性标注的问题词性标注的话，我们通常考虑邻近上下文。相反，如果

2017-06-12 11:20:31 7826

原创统计自然语言处理（统计推理：稀疏数据集上的n元语法模型）

概述统计自然语言处理的目的就是针对自然语言领域进行统计推理。作为一个常用的统计估计的例子，我们将考察经典建模问题，即当前词预测下一个词。词汇预测任务是一项技术可以解决的简单明了的问题。Bins：构造等价类利用历史词汇预测词汇，我们构造这样一个模型。模型中所有历史都是前n-1个已经出现的词，那么我们就有一个（n-1）阶马尔可夫模型，或者称N元语法模型。随着n的增加和词表数量的增加，我们把数据划分到太多

2017-06-03 16:25:28 2142

原创统计自然语言处理（马尔可夫模型）

目的1.了解什么马尔科夫模型的三个问题 ·状态概率的计算（前向算法） ·马尔科夫译码过程（维特比算法） ·马尔科夫参数求解（EM算法前后向算法）隐马尔科夫模型（HMM）这里笔者假设大家大致了解马尔科夫模型，即马尔科夫链的节点状态只于前N个状态相关，现实生活中常常存在一些隐藏的内容，比如3种骰子的例子，图如下： https://www.cnblogs.com/skyme/p/4651331

2017-06-03 13:58:19 1566

原创统计自然语言处理（概率上下文无关文法）

什么是语法解析在自然语言中，句子可以分为主谓宾等表示。人们说话的方式（即使是在酒后的胡言乱语）也存在一些结构和规则。语言学中的语法分析的目标就是努力分离出这些语法结构。词语之间绝非是简单的顺序关系，它必须是描述词语如何相联系的。语法解析中有两个主要的问题： 1.句子语法在计算机中的表达与储存方式。 2.语法解析算法。对于第一个问题，最近50年间，最主要的方法就是为每个句子构造一个树结构。举例如下

2017-06-03 13:53:06 6558

转载点集最小外接矩算法

作者：冯浩时间： 2007.10.11 文档类型/出处：NOI专刊题目简述：給出一个平面点集S，求一个面积最小的矩形使其包含S所有的点。预备知识：在求解这道题之前我们先要了解一些关于凸包的知识。什么是凸包？简单地说，对于一个平面点集S，我们把完全包含该点集的最小的凸多边形叫做点集S的凸包H。凸包一个很重要的性质就是它“凸”的性质。这个性质对我们理解和计算凸包都有很大的帮助。I

2017-06-01 12:39:42 3632 2

原创统计自然语言处理（词法）

概念介绍语法可分为词法和句法词法词法，即运用词语必须遵循的一般语法规则。所谓“一般语法规则”，即人们约定俗成并为人们广泛认可和应用的语言文字的规范。在《词语的运用》一讲中我们已经进过，词语是具有实在意义并能独立运用的最小的语言单位。因此，我们学习任何一种语言，都必须从学习词语开始，首先应该学一点词法的基本知识。接下来，我想择其要讲两个问题：词语的构词方式，词类和词的兼类。——百度文库句

2017-05-31 21:07:52 825

原创统计自然语言处理（基于语料库的工作）

编程技巧文字编码采用将文字映射到数字的方法，我们把文字类型，每个类型都有一个特定的数字对应（这里类型指什么？），可以使用一个很大的哈希表来维护，如果把字数限制到65000或者更少，效率会特别高，因为用16比特的数字来保存这些数字。或者把他们当做哈希表李存储的规范形式字符串的地址。输出的时候相当方便，不需要从数字转化为文字，字符串就可以被打印出来。另外还有一些其他的结构解决方法。收集技术信息很多统计自

2017-05-31 20:48:09 1791 2

转载树库介绍

转载于码农场本文旨在介绍CoNLL格式的中文依存语料库（汉语依存树库）、CoNLL格式相关工具，以及提供两个公开的中文依存语料库下载。最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐，感觉HanLP初具雏形。现在希望拿下依存句法分析，这样我就做出了史上第一个个人开发的功能最全面的自然语言处理基础工具库了。树库的类型谈到依存语料库，还是少

2017-05-31 20:17:58 5288 1

转载知识图谱技术原理介绍

作者：王昊奋转载请注明来自36大数据（36dsj.com)近两年来，随着Linking Open Data[1] 等项目的全面展开，语义Web数据源的数量激增，大量RDF数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Data Web)。在这个背景下，Google、百度和搜狗等搜索引擎公司纷纷以此为

2017-05-26 18:47:56 1170

转载 C语言内存管理详解

C语言内存管理详解伟大的Bill Gates 曾经失言：　　640K ought to be enough for everybody — Bill Gates 1981　　程序员们经常编写内存管理程序，往往提心吊胆。如果不想触雷，唯一的解决办法就是发现所有潜伏的地雷并且排除它们，躲是躲不了的。本文的内容比一般教科书的要深入得多，读者需细心阅读，做到真正地通晓内

2017-05-17 21:43:53 524

原创 tensorflow数据集制作/文件队列读取方式

TensorFlow程序读取数据3种方法: tensorflow数据集制作

2017-05-16 10:45:40 3413

原创 ubuntu 下图标变问号问题

描述如题解决方法1.位于./usr/share/applications 目录下有一些文件，打开之后可以看到icon的路径可能存在问题。 2.可以尝试直接讲图标放到，./usr/share/icons 中，这个也许有用，系统默认利用了这个目录下的图标。

2017-05-13 23:33:43 6986

原创统计自然语言处理学习（概论）

定义书中定义的统计自然语言处理由所有的自动语言处理的定量方法组成，包括概率模型，信息论，线性代数。代表自然语言处理中非符号化和非逻辑的工作。语言的非绝对性，需要利用统计观察来考察问题。个人思考因为生活中充满了不确定和不完整的信息，为了能和世界有效的相互作用，我们需要处理这类信息，所以概率论和随机过程给我么一个可以处理不确定和不完整信息架构的量化框架这里只是因为想到认知是随机的，所以推广到语言

2017-05-13 23:30:47 516

原创 ubuntu16.04+cuda8.0+cudnn5.1 安装

环境Ubuntu16.04 cuda8.0 cudnn5.1利用以下命令安装支持GPU的tensorflowpip install https://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.1.0-cp27-none-linux_x86_64.whl（中文社区的版本都特别低，此处需要注意）如果遇到权限问题，请使用完整路径

2017-05-08 21:18:13 879

原创 ubuntu16.04 + GTX1050-Ti + cuda8.0(解决桌面重复登录)

序言tensorflow中,为了编译并运行能够使用 GPU 的 TensorFlow, 需要先安装 NVIDIA 提供的 Cuda Toolkit和 CUDNN失败的安装过程首先tensorflow中文社区的安装提示中提示Cuda Toolkit 7.0和 CUDNN 6.5 V2.这版本.在CUDA官网中查询release notes:http://docs.nvidia.com/cuda/#ax

2017-05-08 10:47:59 9464 1

原创虹膜图像预处理-运动模糊检测

虹膜图像预处理-运动模糊检测序言首先看到这个问题，最先想到的就是如何去定义一个运动模糊。想到的答案是这样的，虹膜图像的运动模糊来可以由光斑很好的确认，利用光斑的形状就可以描述是否产生了运动模糊。解决思路那么现在问题有了思路，我把它转化成更数学，更程序化的方式。第一步就是提取光斑，很多论文中介绍了边缘检测、区域生长等各种方法，这里我就不再赘述。输入是一个二维数组的区域，第一步一定就是特征提取。根据如下

2017-05-07 10:45:56 2113

转载 Gabor滤波器学习

虹膜运动模糊判断步骤：1.粗定洞孔位置二维圆形Gabor滤波器学习：一、什么是Gabor函数（以下内容含部分翻译自维基百科）在图像处理中，Gabor函数是一个用于边缘提取的线性滤波器。Gabor滤波器的频率和方向表达同人类视觉系统类似。研究发现，Gabor滤波器十分适合纹理表达和分离。在空间域中，一个二维Gabor滤波器是一个由正弦平面波调制的高斯核函数。2.提

2017-05-05 11:02:01 946

原创 win10与ubuntu16.04双系统时间混乱问题

前提描述:需要在ubuntu上玩tensorflow.所以需要安装双系统,在wind10主系统的前提下,利用u盘安装linux,后发现时间错乱,linux下时间正常,wind10下慢了8h.解释(查的别人博客):Ubuntu和window二者默认时间的管理方式不同linux中,硬件时钟是指主机板上的时钟设备，也就是通常可在BIOS画面设定的时钟。系统时钟则是指ker

2017-05-01 19:51:46 2102 4

原创 the python challenge 解答

4.用到urllib和beautifulsoupimport urllib.requestfrom bs4 import BeautifulSoupnothing='12345'for x in range(1,400): #读取页面 f = urllib.request.urlopen("http://www.pythonchallenge.com/pc/def

2016-10-14 17:03:04 657

原创 python @property的应用之一——set get

类似于JAVA中利用私有变量，用set get方法防止非法外部非法操作。注意变量名和方法名要区别开来，不然会进入循环嵌套中。class Cls(object): def __init__(self): self.__x = None @property def x(self): return self.__x

2016-10-07 15:23:08 549

转载 python _init.py_

python中的Module是比较重要的概念。常见的情况是，事先写好一个.py文件，在另一个文件中需要import时，将事先写好的.py文件拷贝到当前目录，或者是在sys.path中增加事先写好的.py文件所在的目录，然后import。这样的做法，对于少数文件是可行的，但如果程序数目很多，层级很复杂，就很吃力了。有没有办法，像Java的Package一样，将多个.py文件组织起来，以

2016-10-01 23:20:19 475

原创使用PUTTY连接虚拟机Ubuntu16.04

工具：PUTTY 0.63.0.0虚拟机Vmware 11.0.0操作系统主机：win8 虚拟机ubuntu16.04（网络选择NAT模式）步骤：下载putty安装虚拟机，操作系统查看主机和虚拟机IP，图片如下虚拟机安装过程中自动开启VMNET8,VMNET1两个虚拟网卡（winds8查看IP命令：在cmd中输出ipconfig）。在Ubuntu

2016-07-23 12:17:04 1514

continueOo的博客