自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 资源 (3)
  • 收藏
  • 关注

原创 logistic回归(二)logistic的正则化

aaa

2020-11-30 09:56:22 1816

原创 机器学习面试题(二):距离度量(余弦与欧式距离的区别、为什么knn不用曼哈顿距离而要用欧式距离、knn与kmeans的区别)

1、欧式距离与余弦距离对于两个向量 A和B ,其余弦相似度定义为即两个向量夹角的余弦,关洼的是向量之间的角度关系,并不关心他们的绝对大小,真取值范围是[-1, 1]...

2020-11-30 09:56:03 2305

转载 logistic回归(一):logistic原理及推导

一、logistic回归当我们的因变量使分类变量的时候,我们可以采取logistic回归,在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;区别一个肿瘤是恶性的还是良性的。我们从二元的分类问题开始讨论。我们将因变量(dependant variable)可能属于的两个类分别称为负向类(negat...

2020-11-30 09:55:49 741

原创 线性回归(二) 岭回归

一、岭回归这个即我们通过最小二乘法求出来的w ,但是求出来的矩阵可能存在一个问题,即X可能不是满秩矩阵(即变量之间存在着多重共线性),此时求出来的(XTX)(X^{T}X)(XTX)可能也是非满秩的,(即(XTX)(X^{T}X)(XTX)可能不可逆 ),即w可能无法求出解。或者存在多个无穷个解使得w满足最小误差。这里补充一个矩阵求逆的方法:设同理设一组变量a,b,c,d:求解方程组:...

2020-11-30 09:54:44 2291

原创 线性回归 (一) 基本线性回归原理

一、线性回归回归算法是一种有监督算法回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观 测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函 数)来做属性(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个 函数使得参数之间的关系拟合性最好。 回归算法中算法(函数)的最终结果是一个连续的数据值,输入值(属性值)是一个d 维度的属性/数...

2020-11-22 20:41:29 3505

原创 每日算法(5) 求数组中位数

给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m + n))。 你可以假设 nums1 和 nums2 不会同时为空。示例 1: nums1 = [1, 3] nums2 = [2] 则中位数是 2.0示例 2: nums1 = [1, 2] nums2 = [3, 4] 则中位数是 (2 + 3...

2020-11-22 20:40:46 613

原创 算法 每日一题(4) 最长回文子串

给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。首先你要知道什么是回文回文是一个正读和反读都相同的字符串,例如,{“aba”} 是回文,而 “abc” 不是。示例 1:输入: “babad”输出: “bab”注意: “aba” 也是一个有效答案。示例 2:输入: “cbbd”输出: “bb”class Solution(object):...

2020-11-22 20:40:34 62

原创 python 数据格式化

python 中也有字符串的格式化操作

2020-11-22 20:40:20 56

原创 np函数的应用

一、随机数的生成1、np.random.rand 用于生成[0.0, 1.0)之间的随机浮点数, 当没有参数时,返回一个随机浮点数,当有一个参数时,返回该参数长度大小的一维随机浮点数数组,参数建议是整数型,因为未来版本的numpy可能不支持非整形参数import numpy as npnp.random.rand(10) >>array([ 0.89103033, 0.605...

2020-11-22 20:39:49 67

原创 混淆矩阵

1.交叉验证代码

2020-11-22 20:39:37 471

原创 python set 集合及其使用

一、python set集合使用总结python中的set()是一个无序的不重复的元素集。sets 支持 x in set, len(set),和 for x in set1、构建集合x = set('class')y = set(['c','a','m'])print(x, y)(set(['l', 'c', 'a', 's']), set(['c', 'a', 'm']))储...

2020-11-22 20:39:06 164

原创 python 字符串常用操作1

1、字符串的拼接字符串的拼接采用+号的形式如:print("5"+"8")print("a"+"b")2、字符串的转译对于字符串来说,我们常用单引号或者双引号进行引用,但是如果我们想打印的字符串中出现了单引号和双引号,该怎么办呢?我们采用转移的方法单不能直接打印转义符用(\)(单引号表示,代表这这是一个字符串的子串)如:print('let's go')print('Let...

2020-11-22 20:38:53 70

原创 python常见函数

1、join函数join()函数Python中有join()和os.path.join()两个函数,具体作用如下:join(): 连接字符串数组。将字符串、元组、列表中的元素以指定的字符(分隔符)连接生成一个新的字符串os.path.join(): 将多个路径组合后返回一、函数说明1、join()函数语法: ‘sep’.join(seq)参数说明sep:分隔符。可以为空...

2020-11-22 20:38:35 90

转载 python 内置函数整理

1、数学相关abs(a) : 求取绝对值。如:abs(-1)>>1max(list) : 求取list最大值。max([1,2,3])min(list) : 求取list最小值。min([1,2,3])sum(list) : 求取list元素的和。 sum([1,2,3]) >>> 6sorted(list) : 排序,返回排序后的list。len(lis...

2020-11-22 20:38:12 44

原创 python 列表基础操作

1.字符串的反转如“abcd“我要将其变为”dcba“

2020-11-22 20:37:41 112

原创 python 字典的常用操作

1 字典1.1 python字典的概述字典是一个无序的,可以修改的,元素呈键值对的形式,以逗号分割的,以大括号包围的序列;字典是python基础数据类型当中唯一一个映射关系的数据类型;由于字典无序,所以我们定义字典和字典生成之后的元素的顺序是不同的;1.2 python字典的定义1.定义字典、查看数据和类型直接使用print输出使用type函数查看字典类型源码:运行结果...

2020-11-22 20:37:02 83

原创 图(5)最短路径树

1、什么是最短路径这里讨论的是带权有向图和带权无向图,在这类图中一个顶点到其他顶点可能有路径,可能没有路径,也可能有多条不同的路径,怎样找到一条最好的路径呢,这就是本节要讨论的最短路径问题。定义:在图中:从顶点v到v‘v^`v‘的各个边的长度之和就称为该路径的长度。从v到v‘v^`v‘的所有长度中最短的路径就是v到v‘v^`v‘的最短路径,最短路径记为dist(v,v`)在介绍之前我...

2020-02-16 21:54:50 3742

原创 随机森林-解决多重共线性降维进行调参

我们在使用python的随机森林包时,会用到max_feature这个参数这个参数是我们进行选择样本特征的个数,如果当样本的特征较多时,比如有50-100个,我们选择auto,全部特征可以进行降维,即有的特征重要性过低的可以舍去。选择sqrt可以去除样本中特征之间多重共线性的干扰,sqrt代表每次选择根号n个特征进行建树。从而减少样本间多重共线性的干扰。...

2020-02-15 11:53:36 3743

原创 统计学原理:相关系数

一、相关系数分类常见的相关系数共有三个分别是spearman相关、pearson相关和秩相关1、pearson相关pearson系数用来描述两组线性的数据一同变化移动的趋势。用数学公式表示,皮尔森相关系数等于两个变量的协方差除于两个变量的标准差。值域:[-1,1]如果两个变量同向变化,那么同向变化的幅度越接近于线性值越接近于1,如果两个变量逆向变化,那么逆向变化的幅度越接近于-1,p...

2020-02-08 23:47:10 1978

原创 数据结构和算法习题部分 字符串及相关习题

题目描述请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。class Solution: # s 源字符串 def replaceSpace(self, s): # write code here s_lis=list(s) ...

2020-02-05 18:39:23 191

原创 动态规划:华为练习题:合唱队排队

题目描述计算最少出列多少位同学,使得剩下的同学排成合唱队形说明:N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学排成合唱队形。 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1,2…,K,他们的身高分别为T1,T2,…,TK, 则他们的身高满足存在i(1<=i<=K)使得T1<T2<......<Ti-1<Ti&...

2020-01-29 19:49:59 794

原创 字符串及相关习题

例题1:翻译密码密码是我们生活中非常重要的东东,我们的那么一点不能说的秘密就全靠它了。哇哈哈. 接下来渊子要在密码之上再加一套密码,虽然简单但也安全。假设渊子原来一个BBS上的密码为zvbo9441987,为了方便记忆,他通过一种算法把这个密码变换成YUANzhi1987,这个密码是他的名字和出生年份,怎么忘都忘不了,而且可以明目张胆地放在显眼的地方而不被别人知道真正的密码。他是这么变换的,...

2020-01-17 20:08:46 185

原创 面板门限回归模型

1、面板门限模型2、面板门限模型估计模型2相当于将模型1进行一个整合。3、估计思想二、门限检验(1)门限效应检验(2)门限值的检验2、多门限面板模型2.2 三门限面板模型目前stata只有三门限模型门限回归命令:...

2019-11-21 12:19:52 8536

原创 动态面板数据模型

1、自回归面板模型。2、含外生变量的动态面板模型这里要注意的是Yi,t−1Y_{i,t-1}Yi,t−1​和Xi,tX_{i,t}Xi,t​是有相关性的,所以求出来的ρ1\rho1ρ1是有偏的。3、根据T与N的关系进行分类,3.2、短动态面板模型可以知道ΔYi,t−1\Delta Y_{i,t-1}ΔYi,t−1​和Δεit\Delta \varepsilon _{it}Δεit...

2019-11-20 20:30:43 10896 2

原创 中国电信笔试题目

1、中国电信的企业使命?让客户尽情享受信息新生活2、中国电信的目标是?做世界级综合信息服务提供商。3、中国电信的核心价值观?全面创新、以人为本、求真务实、共创价值4、中国电信的经营理念是?追求企业价值与客户价值共同成长。5、中国电信的服务理念是?用户至上,用心服务6、中国电信的企业形象口号是?让世界触手可及7、中国电信的全称以及陕西分公司的全称是什么?中国电信股份有限公司...

2019-11-16 11:15:30 3752

原创 python 数据框的常用操作 数据的读取、数据框的操作

python欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带...

2019-11-08 10:28:30 4590

原创 python 数据分析常用操作时间转换函数

时间转换函数,常用模块 time、datetime一、字符串串转换为时间戳1、将字符串转化为标准的时间格式import timetime.time()time.localtime(time.time())timestamp = '2013-10-10 23:40:00'timeArray = time.strptime(timestamp, "%Y-%m-%d %H:%M:%S")...

2019-11-06 21:52:19 190

转载 支持向量机预备知识(一)kkt条件、凸函数

一、kkt条件kkt条件是用来解决不等值约束条件下,求解极值的最优解的问题。1、无约束优化问题最优性条件若 min f(x) 可微,则其最优解的一阶必要条件为:2、 有约束优化问题最优性条件下面考虑如下带约束的优化问题其中 f,hi,gif,h_i,g_if,hi​,gi​可微且一阶导数连续,存在非负实数 和实数μi和λi\mu_i和\lambda_iμi​和λi​,若x∗x*x...

2019-11-06 15:31:57 1750

原创 假设检验及其原理

一、原假设和备择假设H0:原假设H1:备择假设原假设是我们要验证的假设,备择假设是与原假设相反的假设如:原假设:药物能够在两周内治愈90%的患者,备择假设:药物在两周内治愈患者少于90%2、第一类错误、第二类错误第一类错误是指:当H0成立我们判定为不成立(即H0为真,我们拒绝了H0)第二类错误是指:当H0为假时,我们接受了H0一般情况下我们计算概率α即第一类错误的概率。即原假设为...

2019-10-29 23:38:48 5352

原创 支持向量机(一)

支持向量机本身是一个二元分类算法,是对感知机模型的一种扩展,现在svm支持线性分类和非线性分类的分类应用,我们也可以讲svm应用在多元分类领域当中。在不考虑集成学习算法,不考虑特定的数据集的时候,在分类算法中SVM可以说是特别优秀的。在感知机模型之中,我们可以找到多个分类的超平面将数据分开,并且优化时希望所有的点离超平面尽可能的远,但实际上 离超平面较远的点已经被正确分类了,所以这个是没有意义的...

2019-10-29 11:25:09 172

原创 高等数学:如何求二元函数的极值问题

1. 二元函数的极值与驻点 例题求函数 f(x,y)=x3−y3+3x2+3y2−9xf(x,y)=x^3-y^3+3x^2+3y^2-9xf(x,y)=x3−y3+3x2+3y2−9x的极值:fx(x,y)=3x2+6x−9=0f_x (x,y)=3x^2+6x-9=0fx​(x,y)=3x2+6x−9=0fy(x,y)=−3y2+6y=0f_y(x,y)=-3y2+6y=0fy...

2019-10-29 11:10:58 43277 4

转载 数学基础类:如何求矩阵的特征值和特征向量

一、特征值特征向量定义即利用特征多项式可以求出所有的特征值,特征值之和等于原矩阵对角线元素之和特征值的乘积等于原矩阵A的行列式的值。特征多项式的乘积等于矩阵之积。2、具体例子的求解方法计算:A的特征值和特征向量。化简令x=1,便可得出一个基础解系:同理当λ2=λ3=0λ_2=λ_3=0λ2​=λ3​=0时,得出:同样可以得出特征向量:...

2019-10-29 09:51:02 77351

原创 什么是tcp三次握手

一、什么是tcp三次握手每一次TCP连接都需要经过三个阶段:连接建立、数据传送和连接释放。三次握手就发生在连接建立阶段。第一次握手:客户端发送syn包给服务器,这个时候syn=j,这个时候,客户端的状态进入SYN_SENT状态,需要等待服务器确认。(大白话说就是客户端发了个包给服务器,我客户端就处在发送状态了,但是不知道服务器有没有收到,我就需要服务就确认有没有收到,这个时候客户端处在SYN_...

2019-10-28 09:40:25 298

原创 正则表达式1:基本知识

一、正则匹配的基本1、re.compile 函数compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。语法格式为:pattern : 一个字符串形式的正则表达式flags : 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:re.I 忽略大小写re.L 表示特殊字符集 \w, \W,...

2019-10-27 20:45:04 626

原创 python正则匹配1:re函数

一、正则表达式正则表达式是python中进行字符串匹配的模式,其中包括特定字符串的寻找,替换等等操作,其中正则表达式存在python的re模块,主要有下面四种函数1、search(pattern, string) 在一个字符串中查找匹配2、findall(pattern, string ,flags=0) 找到匹配,返回所有匹配部分的列表3、sub(pattern, re...

2019-10-27 19:54:03 393

原创 项目(一)(2):对公司评论利用朴素贝叶斯模型进行分类

1、基于朴素贝叶斯的评论分类(1)评论的预处理由于评论是一句话,所以这里我们采用jieba函数将评论进行分词,包括以下几点处理:①加入专有的词汇,如公司名字、地名、人名、专有词汇(如工资:10k,数字等等)等等让jieba更好的分词②去掉停用词③去掉一些特殊符号(2)朴素贝叶斯的原理wjw_jwj​是第i个类别的第j个词,v代表全部的词空间,xijx_{ij}xij​代表第i个评论...

2019-10-27 19:33:27 338

原创 机器学习实战4(1):朴素贝叶斯:垃圾邮件的识别

一、朴素贝叶斯基础知识预备数学知识:1、求极值问题人工智能中最核心的数学环节是求出一个目标函数(object function)的最小值/最大值。求出一个函数最小是/最大值的方法很多,在这里我们介绍一个最经典的方法之一:直接求出极值点。这些极值点的共同特点是在这些点上的梯度为0, 如下图所示。这个图里面,有8个极值点,而且这些极值点中必然会存在最小值或者最大值(除去函数的左右最端点)。所以在...

2019-10-27 19:31:56 1238

原创 项目(一)爬取公司的评论信息

1、首先看准网上的评论是用json处理的,所以我们要通过json抓包,其中为了要抓取各个公司的评论,我们先从首页上将各个公司的companyID和conpanyname进行获取,然后在url中限制参数。'http://www.kanzhun.com/gsrPage.json?companyId=194222&companyName=%E4%B8%AD%E6%95%B0%E9%80%9A&...

2019-10-27 17:26:19 251 1

转载 beautifulsoup函数

1、beautifulsoupbeautifulsoup是一个对网页进行解析转换的包,可以将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象例如:html = """<html><head><title>The Dormouse's story</title></head><body><...

2019-10-27 17:08:23 1034

转载 集成学习(三) 提升学习 adaboost、gbdt、xgboost

1、什么是梯度提升假定当前已经得到了m-1颗决策树,能否通过现有样本对第m颗决策树产生影响呢?答案是可以的一、Boosting与Adaboost在随机森林的构建过程中,由于各棵树之间是没有关系的,相对独立的;在构建 的过程中,构建第m棵子树的时候,不会考虑前面的m-1棵树。如果在构建第m棵子树的时候,考虑到前m-1棵子树的结果,会不会对最终结果产生有益 的影响? 各个决策树组成随机森林后...

2019-10-26 23:17:23 558

llama13b模型,百度网盘资源

llama13b模型 百度网盘的资源,防止在github上无法下载

2023-12-07

大汉字字典160000个汉字,几乎包含了常用的所有汉字。

汉字转码,nlp处理,汉字编码等等。 word.josn为最新新华字典的数据,汉字.txt为提取其中的汉字的txt,python解析新华词典汉字程序.py为处理word.json的代码

2021-05-18

sougou_result.tar

nlp各个领域的新词发现,词库寻找

2021-01-27

python爬取地点经纬度轮廓信息

python爬取的地点的轮廓信息,主要作用为输入地点的名称返回一个地点的经纬度围栏,本程序爬取的基础为百度地图

2019-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除