自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 《统计学习方法》笔记——逻辑斯蒂回归模型

逻辑斯谛回归模型逻辑斯谛分布设XXX是连续随机变量,XXX服从逻辑斯谛分布是指XXX具有以下的分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}F(x)=P(X≤x)=1+e−(x−μ)/γ1​f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\ga

2021-02-23 14:55:01 427

原创 《统计学习方法》笔记——决策树(二):CART

CART算法  CART(分类与回归树)是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。  CART假设决策树是二叉树,内部结点特征的取值是“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。  这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出条件概率分布。  CART算法由以下两步组成:(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;(2)决策树剪

2021-02-23 14:33:11 218

原创 《统计学习方法》笔记——决策树(一):ID3,C4.5

本章学习目标1.理解信息增益和信息增益比的含义和计算方法。2.掌握ID3和C4.5算法。3.掌握决策树的算法实现决策树是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、

2021-02-06 09:01:59 483

原创 《统计学习方法》笔记——朴素贝叶斯

本章学习目标1.理解朴素贝叶斯模型的模型假设。2.理解后验概率最大化与期望损失最小化的关系。3.掌握极大似然估计的求解过程。4.掌握贝叶斯估计的求解过程。5.掌握贝叶斯估计的算法实现朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。“特征条件独立”假设是被称为“朴素”的原因。做法:给定训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入xxx,利用贝叶斯定理求出后验概率最大的输出yyy。首先来说一下两个概念:“先验概率”和“后验概率”“先验

2021-01-29 10:14:19 159 1

原创 《统计学习方法》笔记——k近邻(二):kd树

上篇记录了k近邻算法原理及线性扫描实现。当样本量比较大时,计算比较耗时,为提高k近邻的搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。方法之一就是kd树。kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是二叉树,表示对k维空间的一个划分。构造平衡kd树的算法输入:k维空间数据集T={x1,x2,...,xN}T = \{x_1, x_2,...,x_N\}T={x1​,x2​,...,xN​},其中xi=(xi(1),xi(2),...,xi(k

2021-01-22 09:57:22 245 2

原创 《统计学习方法》笔记——k近邻(一)

本章学习目标:1.掌握k近邻算法的原理。2.理解k近邻算法三要素及模型对应的损失函数。3.掌握k近邻算法在分类问题上的求解过程。4.掌握k近邻的算法实现 如果有一堆水果,里面只有苹果和梨,另外拿来一个水果,判断是苹果还是梨回想感知机的做法:1.构造超平面2.将样本带入模型中计算,根据其结果正负值判断水果种类。还有别的做法:1.同一标签的样本通常有很多相似的特征,所以同一类别的可能有扎堆现象,也就是物以类聚。2.每进来一个样本,我们查看它周围的样本是什么类别的,那它也有极大可能属于该

2021-01-21 10:06:52 346 1

原创 《统计学习方法》笔记——感知机

《统计学习方法》笔记——感知机本章学习目标1.掌握感知机的模型形式、损失函数及对应的优化问题。3.理解感知机模型中随机梯度算法的收敛性。4.掌握感知机的算法实现感知机模型感知机是个二分类的线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型。f(x)=sign(w⋅x+b)f(x) = sign(w \cdot x + b)f(x)=sign(w⋅x+b)sign(x)={+1x≥0−1x<0sign(x) = \begin{cases}+1 &am

2020-12-25 09:57:56 116

原创 puppeteer登录使用记录

一、浏览器环境补充当使用puppeteer登录时,常规步骤:const puppeteer = require('puppeteer');(async () => { const browser = await puppeteer.launch({ slowMo: 100, //放慢速度 headless: false, defaultViewport: {width: 1440, height: 780}, ignoreHT

2020-12-04 10:50:52 1191

原创 非结构化商业文本信息中隐私信息识别Baseline

简介最近,CCF大数据与计算智能大赛出了好几个赛题。CCF BDCI比赛链接:https://www.datafountain.cn/special/BDCI2020比赛baseline汇总:https://github.com/datawhalechina/competition-baseline我报名了这个《非结构化商业文本信息中隐私信息识别》,赛题详情可见https://www.datafountain.cn/competitions/472,看到数据与评测说明时,这不就是NER吗?然后

2020-10-30 23:29:50 6497 103

原创 中医药天池大数据竞赛——中医文献问题生成挑战(三)

前两篇主要写了数据预处理(https://blog.csdn.net/jasmine0244/article/details/108888236)和模型搭建(https://blog.csdn.net/jasmine0244/article/details/108902127),接下来就是K折模型验证评估。官方的评估标准是以ROUGE-L(https://www.aclweb.org/anthology/W04-1013.pdf)为准。我在github上找到了一个免安装的版本,rouge4chinese

2020-10-02 16:05:05 967 2

原创 中医药天池大数据竞赛——中医文献问题生成挑战(二)

接着上一篇(https://blog.csdn.net/jasmine0244/article/details/108888236)设置好参数:max_q_len = 80max_a_len = 80接下来就是构建模型部分了。首先加载词库和分词器,# 加载并精简词表,建立分词器token_dict, keep_tokens = load_vocab( dict_path=dict_path, simplified=True, startswith=['[P

2020-10-02 15:28:03 955 6

原创 中医药天池大数据竞赛——中医文献问题生成挑战(一)

比赛详情见https://tianchi.aliyun.com/competition/entrance/531826/introduction第一次读到这个比赛,脑子出跳出来的就是苏大神的bert4keras(https://github.com/bojone/bert4keras),因此,我就用bert4keras来做了,而且苏大神也给了我们example。我给一下我用的一些包的版本:tensorflow-gpu =2.1.0 keras=2.3.1 bert4keras=0.8.3...

2020-09-30 17:34:45 1654

原创 Linux设置ssh server保持连接时长

新购买了一台云服务器,使用ssh登录,安装python,没一会怎么毫无反应了,原来是断开连接了。我们只需要设置下ssh配置文件。1.打开ssh配置文件:vi /etc/ssh/sshd_config把以下两个参数去掉注释,并修改:TCPKeepAlive yes # 保持TCP连接ClientAliveCountMax 180 #时间单位是min改完后保存。2.重启sshd...

2019-10-19 09:49:19 308

原创 python100例(一)

1.题目:有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?m=0for i in range(1,5): for j in range(1,5): for k in range(1,5): if(i!=j and i!=k and j!=k): print i

2016-01-17 21:55:14 399

原创 用java将excel导入数据库

本人需要对每天发送的定时邮件取近30天的数据导入数据库,因此excel文件名有一定的特点,比较好删选。写这博客主要做个笔记,因为java还是入门阶段package com.yiwugou.analysis.words;import java.io.File;import java.io.FileInputStream; import java.io.FileOutputStream;

2015-06-21 18:10:35 430

转载 nginx和apache日志格式详解

之前一直分不清日志格式是怎样的,看了这个格式后,了解了。转载自:http://blog.chinaunix.net/uid-25508645-id-3308051.htmlnginxlog_format  main  '$remote_addr - $remote_user [$time_local] "$request" '               '$status $bod

2015-06-16 09:19:25 371

原创 对指定文件夹下的文件批量重命名

指定文件夹下的文件名有规律,对这些文件批量重命名

2015-03-18 21:31:24 757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除