嘉木空青-CSDN博客

算法简介先简单解释一下，TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可

2022-05-29 18:23:32 905

原创韭菜炒鸡蛋

材料：鲜韭菜，笨鸡蛋，盐，葱花，白醋1、鸡蛋打碎：里面放些许盐和一点点醋；韭菜切段：大约4-6厘米。2、热油，放葱花，倒鸡蛋液，炒碎，时间不宜过久，熟后盛出。3、少许油，中火，下韭菜炒，翻炒2-3次即可，时间不宜过久（比炒鸡蛋还要短一些），不然韭菜就老了，影响口感。4、导入炒好的鸡蛋，加入盐调节口味，翻炒2次出锅即可。...

2022-05-29 17:08:24 202

原创 Windows环境下使用conda安装pytorch

1、首先安装anaconda3（Python3.7以上），并查看Python版本。2、单击启动Anaconda Prompt，去创建pytorch的虚拟环境：conda create --name pytorch python=3.7.6会遇到选择 Proceed([y]/n)? ，输入y回车即可。3、进入创建的pytorch虚拟环境conda activate pytorch4、准备工作完成，Anaconda prompt窗口不要关闭，最小化即可，接下来先查看自...

2022-04-16 18:45:33 4765 1

原创使用清华镜像pip安装Python第三方包

正常使用pip安装语句为：pip install your_packages 或者 pip install your_packages==指定版本使用清华镜像：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple your_package可将清华镜像路径设置为默认：1）先将pip升级 >=10.0.0，后再设置为默认。python -m pip install --upgrade pippip config s..

2022-04-16 15:31:41 2607

原创资源链接-零基础入门深度学习

零基础入门深度学习(1) - 感知器 - 作业部落 Cmd Markdown 编辑阅读器零基础入门深度学习(2) - 线性单元和梯度下降 - 作业部落 Cmd Markdown 编辑阅读器零基础入门深度学习(3) - 神经网络和反向传播算法 - 作业部落 Cmd Markdown 编辑阅读器零基础入门深度学习(4) - 卷积神经网络 - 作业部落 Cmd Markdown 编辑阅读器零基础入门深度学习(5) - 循环神经网络 - 作业部落 Cmd Markdown 编辑阅读器零基础入门深

2022-03-21 13:46:38 1405

原创 TDigest算法原理

起因一般的聚合分析中较为常见的 percentiles 百分位数分析：n 个数据按数值大小排列，处于 p% 位置的值称第 p 百分位数。当数据量较小或者数据集中存储在同一位置时，用上述类似的百分位数分析方法就很容易。但当数据量不断增长时，对于数据进行聚合分析就需要在数据量，精确度和实时性三个方面进行取舍，只能满足其中两项。T-Digest算法TDigest就是一种简单，快速，精确度高，可并行化的近似百分位算法，被Spark,ES,Kylin等系统使用。TDigest主要有两种实现算法，一

2022-03-15 10:46:56 2493

原创 NLP学习笔记一（小白上手）

自然语言处理简介#研究人与计算机之间用自然语言进行有效通信的理论与方法。融语言学、计算机科学、数学等一体的科学。旨在从文本数据中提取信息，目的是让计算机理解或处理自然语言，以执行自动翻译、文本分类、情感分析等。入门基础#1）数学基础线性代数、概率论、统计学；2）语言学基础：语音、词汇、语法3）Python基础4）机器学习基础：统计学习方法、机器学习周志华5）深度学习基础：CNN、RNN、LSTM6）自然语言处理理论基础：统计自然语言处理、Python自然语言处理、数学之美

2022-03-06 00:25:28 339

原创 ADF单位根检验-时间序列平稳性检验

ADF检验全称是 Augmented Dickey-Fuller test，顾名思义，ADF是 Dickey-Fuller检验的增广形式。DF检验只能应用于一阶情况，当序列存在高阶的滞后相关时，可以使用ADF检验，所以说ADF是对DF检验的扩展。单位根（unit root）在做ADF检验，也就是单位根检验时，需要先明白一个概念，也就是要检验的对象——单位根。当一个自回归过程中：，如果滞后项系数b为1，就称为单位根。当单位根存在时，自变量和因变量之间的关系具有欺骗性，因为残差序列的任何误差都不会.

2022-03-05 23:45:29 7054

原创青椒鸡胸肉

1、青椒红椒鸡胸肉姜蒜切丝备用2、用盐，料酒，酱油，淀粉，腌制鸡胸肉10分钟左右3、热油放入鸡胸肉8分熟即可盛出4、热油放入姜丝蒜爆香，加入青椒丝和红椒丝放在锅中，进行翻炒5、放入生抽和鸡胸肉，加入适当的盐巴，进行翻炒之后，即可盛出...

2020-02-26 10:58:30 329

原创油焖大虾

油焖大虾使用的食材有：虾、盐、葱姜、番茄酱、油制作步骤：第一步：先把虾洗干净处理干净第二步：把虾放入盆子里放入盐还有料酒腌制15分钟左右第三步：锅里面放入油，烧热后放入葱姜爆香第四步：放入虾，持续翻炒第五步：加入适量的番茄酱还有盐和糖第六步：盖上锅盖焖煮6分钟收汁就可以吃了...

2020-02-25 13:04:06 359

原创红烧肉-鲁菜

1，五花肉切段，沸水灼烫5~10分钟，撇去浮沫，捞出洗净沥干备用。2，热油，放入八角桂皮香叶出香味后放入沥干的五花肉，煸炒直金黄盛出备用3，油中放入冰糖煎至变黄冒泡，放入五花肉，老抽，生抽上色，放入料酒，葱姜切好放入锅中5，放入温水直没过五花肉，少量盐，大火烧开，再转中火慢炖半小时6，大火轻微翻炒收汁...

2020-02-25 12:56:51 268

原创 Python函数的几种参数形式

在Python中定义函数，可以用必选参数（位置参数），默认参数，可变参数，关键字参数和命名关键字参数，这5种参数都可以组合使用。但参数定义的顺序必须是：必选参数（位置参数）默认参数可变参数命名关键字参数关键字参数例如：定义： def f1(x, y=0, *args, z, **kw): print(x, y, args, z, kw) 调用： f1(1, 2...

2019-06-16 18:06:53 750

原创程序、进程、线程的详解

本质区别:程序只是一组指令的有序集合，本身没有任何运行的含义，只是一个静态的实体。进程是操作系统资源分配的基本单位，有自己的生命周期，是一个动态的实体，是具有一定独立功能的程序关于某个数据集合上的一次运行活动。线程是CPU任务调度和执行的基本单位。简言之，一个程序至少有一个进程，一个进程至少有一个线程。线程的划分尺度小于进程，使得多线程程序的并发性高。开销方面:每个进...

2019-06-16 11:05:40 373

原创假设检验之T检验

假设检验也叫显著性检验，是以小概率反证法的逻辑进行推理，是判断假设是否成立的统计方法。一般，首先假设样本对应的总体参数或分布是与已知的总体参数或分布相同的，然后根据统计量的分布规律来分析样本数据，利用样本信息判断是否支持当前假设，并对检验假设作出取舍抉择。该方法作出的结论是概率性的，不是绝对的肯定或否定。[]T检验的概念：T检验是用于两个样本（或样本与总体）平均值差异程度的...

2019-06-15 19:57:58 7791

原创 Django Q和F查询

Q查询：对对象的复杂查询F查询：专门取对象中某一列值的操作Q查询：1、Q对象（django.db.models.Q）可以对关键字参数进行封装：from django.db.models import Qfrom login.models import Newnews = New.objects.filter(Q(question__startswith='What'))...

2019-04-21 16:11:39 1707

原创 mysql: load data与select into outfile

1、从数据库导出数据SELECT...INTO OUTFILE 'file_name'形式的SELECT可以把被选择的行写入一个文件中。该文件被创建到服务器主机上，因此您必须拥有FILE权限，才能使用此语法。输出不能是一个已存在的文件。防止文件数据被篡改。你需要有一个登陆服务器的账号来检索文件。否则 SELECT ... INTO OUTFILE 不会起任何作用。在UNIX中，该文...

2019-03-21 22:56:12 590

原创概率统计与随机过程（二）统计假设检验

统计假设检验的步骤先假设总体具有某种统计特性（如具有某种参数，或遵从某种分布）然后再检验这个假设是否可信以上两步称为统计假设检验，或假设检验。具体：假设选取统计量，明确其分布给出显著性水平查出置信限计算统计量统计推断例如：Pearson积矩相关系数的假设检验：Pearson相关性分析的前提假设是数据样本服从正态分布，但数据样本仅仅是总体中的一组样本...

2019-03-20 22:01:25 483

原创概率统计与随机过程（一）事件与概率

随机事件：在一定条件下，可能发生也可能不发生的试验结果成为随机事件，简称事件。与之对应的有必然事件（记为），不可能事件（记为）。互斥与对立：事件A与B互斥：A与B不可能同时发生，事件A与B对立：若A与B互斥，且每次试验中，不是A发生就是B发生，即且完备：每次试验中所有可能发生的事件组成的集合，即构成一个事件完备组。特别的，当是两两互斥的，，则称是两两互斥的事件完备组...

2019-03-20 21:04:05 1041

原创数据相关性分析

相关性分析主要用来描述变量之间的线性相关程度。在二元变量的相关性分析过程中，常用的有Pearson相关系数，Spearman秩相关系数以及判定系数。Pearson积矩相关系数Pearson 相关评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时，这两个变量具有线性关系。参考资料适用条件：两个变量均应由测量得到的连续变量两个变量所来自的总体...

2019-03-19 22:02:16 8476

原创决策树模型的用途

概念定义在特征空间与类空间上的条件概率分布，即给定特征条件下类的条件概率分布；也可以认为是if-then规则的集合优点模型具有可读性，分类速度快。模型首先，介绍一下决策树模型：由结点和有向边组成，结点又可分为内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。决策树与条件概率分布决策树所表示的条件概率分布由各个单元给定条件下的类的条件概率分布组成。若X表...

2019-03-18 23:29:03 5819

转载 mysql中的information_schema.tables和information_schema.columns

information_schema.tables运行desc information_schema.tables可查看表的属性字段含义Table_catalog 数据表登记目录Table_schema 数据表所属的数据库名Table_name ...

2019-03-14 21:31:34 1321

原创决策树--统计学习方法

基本模型：决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。决策树由结点和有向边组成。结点分为内部结点和叶结点：内部结点表示一个特征或属性，即图中的圆；叶结点表示一个类，即图中的方框。步骤：特征选择、决策树的生成和决策树的修剪。...

2019-03-10 17:49:07 509

原创 MySQL：登录本地mysql，并创建新的数据库及用户

第一步：以管理员的身份打开cmd窗口，然后进入到之前所下载的安装包解压后的文件夹中的bin文件夹下第二步：直接输入mysql -u root -p; ，然后提示你输入之前设置的密码。第三步：进入成功后界面显示mysql>第四步：可先查看mysql已有的数据库：mysql> show databases;第五步：创建你自己的数据库：mysql> c...

2019-03-06 23:00:23 11381 6

翻译 SQLite3-Python的使用

为了使用sqlite3模块，必须创建一个表示数据库的连接对象，然后有选择地创建光标对象，以便于执行所有的SQL语句。# 导入SQLite驱动:import sqlite3# 连接到SQLite数据库# 数据库文件是test.db# 如果文件不存在，会自动在当前目录创建:connection = sqlite3.connect('test.db')# 创建一个Cursor:cur...

2019-02-24 16:42:43 1232

原创 Python数据分析与挖掘：数据探索(一）

数据质量分析：脏数据检查脏数据：缺失值异常值不一致的值重复数据及含有特殊符号（#，&，￥）的数据缺失值分析：1、缺失值产生的原因1）有些信息暂时无法获取，或者获取信息的代价太大2）某些信息被遗漏：有些信息被人为因素或设备故障而被遗漏3）属性值不存在：对某些对象来说某些属性值是不存在的2、缺失值的影响1）数据挖掘建模将会丢失大量的有用信息...

2019-02-15 16:26:17 617

原创拉格朗日插值法

概念：在数值分析中，拉格朗日插值法是一种多项式插值方法。许多实际问题中都用函数来表示某种内在联系或规律，而不少函数都只能通过实验和观测来了解。如对实践中的某个物理量进行观测，在若干个不同的地方得到相应的观测值，拉格朗日插值法可以找到一个多项式，其恰好在各个观测的点取到观测到的值。这样的多项式称为拉格朗日（插值）多项式。定义：对于给定的个点，其中对应着自变量，对应着该函数的取值。定义拉格...

2018-11-05 19:46:25 1358

原创菜谱：可乐鸡翅

材料：鸡翅中，可乐，盐，酱油，糖，八角，桂皮，花椒，葱，姜（辣椒）1、鸡翅中洗净，表面切开，放入烧开的沸水中焯烫2分钟左右后捞出，再用清水洗净沥干备用。2、大葱切段，姜去皮切片3、热油，5成热时加入大葱，姜，八角，花椒，桂皮（辣椒），翻炒少许时间，加入沥干的鸡翅4、将鸡翅翻炒至表面轻微焦黄后，加入500ml的可乐，少许糖和盐（口味适合即可），倒入半勺酱油调色5、盖上锅盖小火焖1...

2018-10-06 11:31:36 331

原创卡方分布（Chi-squared Distribution）与卡方检验（Chi-square Test）

卡方分布概念：具有k个自由度的卡方分布是一个由k个独立标准正态随机变量的和所构成的分布。卡方分布经常用于我们常见的卡方检验中。卡方检验一方面可以用来衡量观测分布和理论分布之间的拟合程度，另一方面也可以测量定性数据两个分类标准间的独立性。定义：如果,,...,是标准正态随机变量，那么这些变量的平方和就表现出k个自由度的卡方分布：通常表示成如下形式：另，需要注意，卡方分...

2018-10-04 10:48:52 23261

原创 C++/C中堆和栈的区别

内存分配栈区：由编译器自动分配释放，存放函数的参数值，局部变量的值等；其操作方式类似于数据结构中的栈。堆区：一般由程序员分配和释放，若程序员不释放，程序结束时可能由OS回收，这与数据结构中的堆完全不是一个概念，分配方式类似于链表，一般堆的头部用一个字节存放堆的大小，堆中的具体内容由程序员安排。全局区（静态区）：全局变量和静态变量的存储是放在一起的，初始化的全局变量和静态变量在一块区域，...

2018-09-21 10:46:56 176

原创 malloc/free与new/delete的区别

malloc/free是C++/C的标准库函数，new/delete是C++的运算符对于非内部数据类型的对象而言，对象创建的同时会自动执行构造函数，在消亡之前要自动调用析构函数。但由于malloc/free是库函数，不在编译器的控制范围内，不能够执行构造函数和析构函数。此时，C++需要一个能完成动态内存分配和初始化工作的运算符new，以及一个能完成清理和释放内存工作的运算符delete。...

2018-09-21 10:36:05 162

原创 #define 与 typedef

#define 用于指定标识符来代替一个字符串、表达式或数值常量，也称为宏定义。标识符称为“宏名”。在编译预处理时，对程序中所有出现的“宏名”都用宏定义中的对象（字符串、表达式、数值常量）去替换，称为宏展开或宏替换。宏定义是由源程序中的宏定义命令完成的。宏代换是由预处理程序自动完成的。生命周期止于编译期。 typedeftypedef 的主要应用有如下的几种形式：1) 为基...

2018-09-17 17:32:33 178

原创基于数组的归并排序--递归法（C++/C）

void mergeTwoArray(int *a, int left, int mid, int right, int *temp){ int i = left; int j = mid + 1; int t = 0; while (i <= mid && j <= right) { if (a[i] <= a[j]) temp[t++]...

2018-09-16 09:08:45 698

原创 LeetCode：二叉树的中序遍历（递归与非递归法）

二叉树结点类：struct TreeNode{ int val; TreeNode *left; TreeNode *right; TreeNode(int x): val(x), left(NULL), right(NULL) {}};递归法： class Solution{public: void inOrder(TreeNod...

2018-09-14 21:29:46 900

原创 LeetCode：二叉树的前序遍历（递归与非递归法）

二叉树结点类：struct TreeNode{ int val; TreeNode *left; TreeNode *right; TreeNode(int x): val(x), left(NULL), right(NULL) {}};递归法： class Solution{public: void preOrder(TreeNo...

2018-09-14 17:43:21 603

原创 LeetCode：二叉树的后序遍历（递归与非递归法）

二叉树结点类：struct TreeNode{ int val; TreeNode *left; TreeNode *right; TreeNode(int x): val(x), left(NULL), right(NULL) {}};递归法： class Solution{public: void postOrder(Tr...

2018-09-14 17:35:11 724

原创指数平滑法：预测中短期事件发展趋势

简单移动平均法简单移动平均的各元素的权重都相等。简单的移动平均的计算公式如下： Ft=(At-1+At-2+At-3+…+At-n)/n加权移动平均法加权移动平均给固定跨越期限内的每个变量值以不同的权重。其原理是：历史各期产品需求的数据信息对预测未来期内的需求量的作用是不一样的。除了以n为周期的周期性变化外，远离目标期的变量值的影响力相对较低，故应给予较低的权重。加权移动平均...

2018-09-11 12:36:53 1616

原创启发式算法：模拟退火算法

爬山算法：是一种简单的贪心搜索算法，该算法每次从当前解的临近空间中选择一个最优解作为当前解，直到达到一个局部最优解。该算法实现简单，其主要缺点是会陷入局部最优解。如，按箭头的方向搜索，当达到A点时，无论朝哪个方向小幅度移动都不能得到更优的解。模拟退火算法模拟退火算法来源于固体退火原理，是一种基于概率的算法，将固体加温至充分高，再让其冷却，加温时，固体内部粒子随温升变为无序状，内...

2018-09-10 15:17:27 2692

原创动态申请一维/二维数组

int N = 10;int M = 10;int *a;a = (int *) malloc(sizeof(int)*N);int **aa;aa = (int **) malloc(sizeof(int*)*N);for(int i=0; i<N; i++){ aa[i] = (int *)malloc(sizeof(int)*M);}

2018-09-07 16:39:20 245

原创编程：0交换排序

长度为n的数组乱序存放着0至n-1. 现在只能进行0与其他数的交换，以完成排序。#include <string>#include <iostream>using namespace std;void swap_with_zero(int *array, int len, int n){ int zIndex = -1; int nIndex = -1;...

2018-09-07 14:08:05 1817

空空如也

空空如也