东东oyey-CSDN博客

原创 NLP系列-关键词抽取技术（一）-技术原理篇

一、背景介绍关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类和文本分类等方面有着重要的应用。关键词提取算法一般分为有监督和无监督两类:有监督：有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到关键词提取的效果。优点是精度较高，缺点是需要大批量的标注数据，人工成本过高，并且词表需要及时维护。无监督：相比较而言，无监督的方法对数据的要求低，既不

2021-03-23 11:26:39 1462 1

原创 cplex入门系列（二）--- 线性规划求解

一般一个的cplex项目，一般分为五个模块，分别是创建模型、定义优化参数、设置目标函数、设置约束和模型求解及输出。下面针对这五个模块使用cplex的Java API来进行介绍。

2022-08-02 11:47:45 7712 2

原创运筹学概述

运筹学就是近代应用数学的一个分支，主要就是研究如何将生产、管理等事件中出现的运筹问题加以提炼，然后利用数学方法进行解决的学科。运筹学就是应用数学与形式科学的跨领域研究，利用像时统计学、数学模型与算法等方法去寻找复杂问题中的最佳或近似最佳的答案。运筹学不仅在科技、管理、农业、军事、国防、建筑方面有重要的运用，而且经常用于解决现实生活中的复杂问题，特别就是改善或优化现有系统的效率，在我们的实际生活应用也很广泛。......

2022-07-29 15:23:03 3321

原创基于python环境搭建Redis集群模式连接池

一、Redis集群集群，就是通过添加服务器的数量，提供相同的服务，从而让服务器达到一个稳定、高效的状态。单台服务器存在不稳定性。当节点服务宕机了，就没有可用的服务了。此外，单台服务器能够处理服务是有限的，要搭建一个可以服务大规模请求且稳定的系统必定需要使用到集群。当我们需要提供大规模数据的读写缓存时，就需要使用Redis集群。Redis集群的搭建可以参考这边文章：二、在python中使用Redis集群有许多python的web后台服务需要使用到redis来作为缓存数据交换的中间件，一般使用官方的r

2021-11-15 18:55:52 2193

原创 Python实现经典排序算法--希尔排序

一、希尔排序简介希尔排序(Shell’s Sort)是插入排序的一种又称“缩小增量排序”（Diminishing Increment Sort），是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因D.L.Shell于1959年提出而得名。希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序；随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整...

2020-04-24 00:52:26 938

原创通俗易懂ELMO原理+中文词嵌入实现（训练神雕侠侣小说）

1. 前言今天给大家介绍一篇2018年提出的论文《Deep contextualized word representations》，在这篇论文中提出了一个很重要的思想ELMo。本文作者推出了一种新的基于深度学习框架的词向量表征模型，这种模型不仅能够表征词汇的语法和语义层面的特征，也能够随着上下文语境的变换而改变。简单来说，本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特...

2019-07-27 12:40:10 4122 4

原创精心整理出来的几种缺失值处理方法

缺失值补充造成属性值缺失的原因有很多，比如信息暂时无法获取，信息被遗漏（有机械原因也有人为原因），有些对象的某个或者某些属性是不可用的，有些信息被认为是不重要的，获取这些信息的代价太大，系统实时性能要求较高；此外对缺失值的处理一定要具体问题具体分析，因为缺失值并不意味着数据缺失，缺失本身也是包含信息的，所以需要根据不同的场景下的缺失值进行合理填充。目前缺失值的类型，含有缺失值的变量被称为不完全...

2019-06-29 19:05:41 17686 1

原创机器学习中经常使用的特征选择方式+python实现代码

当数据与处理完成后，我们需要选择有意义的特征输入算法和模型进行训练，通常来说，从两个方面来选择特征：1、特征是否发散，如果某一个特征的方差为0，即这个属性不能被称之为特征，因为所有的样本在这个特征上并没有什么区别，这种特种需要被剔除；但是如果相反，所有样本在在这个特征上都不一样，比如公民的身份证号码，不能反映出样本的共性的特征的话，特征也必须被剔除。2、特征与目标之间的相关性，如果特征与...

2019-06-29 19:01:01 4416

原创机器学习-利用信息熵来学习如果分辨好西瓜

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。我们通常用Entropy（信息熵来度量划分的凌乱程度）。Ent（D）越小，则信息熵的复杂程度越低，D的纯度（一...

2018-08-03 00:24:22 4128 1

原创 Jupyter Notebook 常用魔法命令

Jupyter NoteBook 是功能强大的Python交互IDE，深受数据分析师和算法工程师的热爱。Jupyter NoteBook 在综合使用文字、代码、图片等多种元素展示设计者的想法方面有着美妙的用户体验。而其自带的一些常用Magic Command 可以让它变得更加得心应手。magic函数主要包含两大类，一类是行魔法（Line magic）前缀为%，一类是单元魔法(Cell magi...

2018-07-31 15:03:31 15765

原创机器学习的基础算法--牛顿法

牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。把非线性函数在处展开成泰勒级数，取其线性部分，作为非线性方程的近似方程，则有设，则其解为因为这是利用泰勒公式的一阶展开，，这里并不是完全相等，而是近似相等，即去掉泰勒级数2级以上的项，这里求得的并...

2018-07-18 00:35:53 1514

原创机器学习的基础算法-梯度下降算法

因为要开始学习机器学习的课程了，现在开始更新一下机器学习的一些内容！！！在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降和最小二乘法是两个经常常用的方法。在微分学中，对于多元函数的参数求偏导数，把求得的各个参数的偏导数以向量的形式写出来，这就是梯度。从几何意义上来讲，这就是函数变化增加最快的地方。在这里，有两种的形式即梯度下降和梯度上升，从一定意义上来讲，两者是可以相互转换的。可...

2018-07-16 20:52:51 711

原创 Python实现经典排序算法--快速排序

网络上用python实现快速排序有四种实现方式，有用匿名函数lambda表达式和双重循环实现的，也有用栈实现非递归的排序，这里我只讲一讲利用算法导论里面的分治思想，迭代来实现序列的快速排序。分治策略是对于一个规模为n的问题，若该问题可以容易地解决（比如说规模n较小）则直接解决，否则将其分解为k个规模较小的子问题，这些子问题互相独立且与原问题形式相同，递归地解这些子问题，然后将各子问题的解合并得到原...

2018-07-15 17:01:06 21238 5

原创 Python实现经典排序算法--堆排序

上次说到了经典算法选择排序，感觉是比较简单的算法，这一次说一说稍微有点难度的堆排序。堆排序的时间复杂度要明显优于前面的冒泡排序，插入排序和选择排序（局限于n较大时）。1、堆（二叉堆）先来讲讲堆（二叉堆），是一个数组，它可以近似被看作是一个完全二叉树。树上每一个节点对应一个元素，除了最底层外，该树是完全充满的，而且是从左至右填充的，所有最底层的元素会从左向右填充。表示堆的数组list包括两个属性，l...

2018-07-14 13:37:06 2458

原创 Python实现经典排序算法--选择排序

上一节降到插入排序算法，这次来讲一讲选择排序算法。选择排序（Selection sort）是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小（或最大）的一个元素，存放在序列的起始位置，直到全部待排序的数据元素排完。时间复杂度为O（n^2），当n较小时同插入算法一样，运算速度优于冒泡排序，但是对比于插入排序，其为一种不稳定的排序算法。以下是用Python实现经典插入排序的co...

2018-07-13 17:30:05 1083 1

原创 Python实现经典排序算法--插入排序

上一次讲到了冒泡排序算法在Python中的实现，现在来讲一下另一个经典算法，插入排序。有一个已经有序的数据序列，要求在这个已经排好的数据序列中插入一个数，但要求插入后此数据序列仍然有序，这个时候就要用到一种新的排序方法——插入排序法,插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中，从而得到一个新的、个数加一的有序数据，算法适用于少量数据的排序，时间复杂度为O(n^2)...

2018-07-12 17:46:51 763 1

原创 Python实现经典排序算法 --冒泡排序

看多许多人写的Python冒泡算法，实在不够简洁，复杂度为O（n^2）的算法已经对计算机不够友好，代码那么长，对程序员也不那么友好！这里我来总结一下经典排序算法冒泡排序的基本原理以及源代码。冒泡算法它重复地走访过要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。对于一个序...

2018-07-11 13:53:22 3307

u011213419的博客