自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 收藏
  • 关注

原创 python与自然语言处理3朴素贝叶斯

1. 引言上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。2. 为什么不直接匹配关键词来识别垃圾邮件?看了上一篇文章的一些同学可能会问:“何必费这么大劲算那么多词的概率?直接看邮件中有没...

2022-08-18 17:16:13 367

原创 python 内置函数或函数(争取日更)

Python rjust()方法描述Python rjust() 返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串。如果指定的长度小于字符串的长度则返回原字符串。语法rjust()方法语法:str.rjust(width[, fillchar])参数width -- 指定填充指定字符后中字符串的总长度.fillchar -- 填充的字符,默认为空格。返回值返回一个原字符串右对齐......

2022-08-18 17:15:03 135

原创 python 杂(一)

Python 字典(Dictionary) items()方法描述Python 字典(Dictionary) items() 函数以列表返回可遍历的(键, 值) 元组数组。语法items()方法语法:dict.items()参数NA。返回值返回可遍历的(键, 值) 元组数组。实例以下实例展示了 items()函数的使用方法:实例(Python 2.0+)#!/usr/bin/python# cod......

2022-08-18 17:14:34 115

原创 2018的第一篇 博客,总结下半年来的变化吧

我于17年7月份从传统行业离职,就是有一个普通的装饰工程的质检员。没有花钱培训,加上原来当质检员时自学的时间,也就一年了,学习和接触了,java开发,hadoop,spark大数据,数据挖掘,机器学习,发现自己的基础太差又从头开始学了高等数学,计算机的基础 算法与数据库,后来改用python,作了python爬虫,又自学了深度学习和强化学习,处理了图像和自然语言处理的问题,现在在做比特币量化交易,......

2022-08-18 15:54:32 212 4

原创 redis 学习1

"++++++++++++++++++++++++++++++阻塞IO/非阻塞IO; 同步IO/异步IO +++++++++++++++++++++++++++++++++++++++++ "一。IO请求的两个阶段:1.等待资源阶段:IO请求一般需要请求特殊的资源(如磁盘、RAM、文件),当资源被上一个使用者使用没有被释放时,IO请求就会被阻塞,直到能够使用这个资源。2.使用资源阶段:真正进行数据......

2022-08-18 15:52:43 120

原创 评分卡模型

公式woe=ln(odds),beita为回归系数,altha为截距,n为变量个数,offset为偏移量(视风险偏好而定),比例因子factor。总评分。或去掉负号。Logistic Regression with Weight of Evidence比例因子和偏移量为:令好坏比为50,对应的评分为600;在些基础上评分值增加20分,e.g.600 = l...

2019-05-21 14:41:57 1167

原创 机器学习与评分卡

机器学习简介什么是机器学习如果一个系统能够通过执行某个过程改变它的性能,这就是学习(什么是学习) 不用编程去指定机器做什么,而是让机器有能力自己学习 首先定义任务T,经验E,表现P,如果机器有一个任务T,随着经验E的增多,表现P也会变好,则表示机器正在经验E中学习三要素模型(机器学习的成果,条件概率分布或决策函数) 策略(计算模型的方式) 算法生活中的机器学习应用垃圾邮...

2019-05-21 14:36:07 1389

原创 信用卡评分模型

基于python的信用卡评分模型基于python的信用卡评分模型1.项目背景介绍1.1 信用风险和评分卡模型的基本概念 信用风险指的是交易对手未能履行约定合同中的义务造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。 借贷场景中的评分卡是一种以分数的形式来衡量风险几率的一种手段,也是...

2019-05-21 14:32:46 1856

原创 linux 学习一

nohup和&后台运行,进程查看及终止1.nohup用途:不挂断地运行命令。语法:nohup Command [ Arg … ] [ & ]  无论是否将 nohup 命令的输出重定向到终端,输出都将附加到当前目录的 nohup.out 文件中。  如果当前目录的 nohup.out 文件不可写,输出重定向到 $HOME/nohup.out 文件中。  如果没有文件能创建或打开以用...

2018-04-14 12:46:10 216

原创 python基础(操作MySQL数据库)

本节内容 数据库介绍mysql 数据库安装使用mysql管理mysql 数据类型常用mysql命令创建数据库外键增删改查表权限事务 索引python 操作mysql ORM sqlachemy学习1. 数据库介绍什么是数据库?数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,每个数据库都有一个或多个不同的API用于创建,访

2018-03-28 14:35:25 394

原创 python基础(面对对象编程进阶)

本节内容:面向对象高级语法部分经典类vs新式类  静态方法、类方法、属性方法类的特殊方法反射异常处理Socket开发基础作业:开发一个支持多用户在线的FTP程序  面向对象高级语法部分经典类vs新式类把下面代码用python2 和python3都执行一下123456789101112131415161718192021222324#_*_coding:utf-8_*_  class A:    d...

2018-03-20 16:29:06 464

原创 python模块(APScheduler定时任务)

APScheduler简介在平常的工作中几乎有一半的功能模块都需要定时任务来推动,例如项目中有一个定时统计程序,定时爬出网站的URL程序,定时检测钓鱼网站的程序等等,都涉及到了关于定时任务的问题,第一时间想到的是利用time模块的time.sleep()方法使程序休眠来达到定时任务的目的,虽然这样也可以,但是总觉得不是那么的专业,^_^所以就找到了python的定时任务模块APSchedu

2018-01-30 17:35:23 8028 1

原创 python模块(shutil文件复制,移动)

python 标准库 -- shutilshutilshutil.move(src,dst)shutil.move('/tmp/20170223/new','/tmp/20170223/test') # 移动文件, 重命名等shutil.copytree(src, dst, symlinks=False, ignore=None)shutil.c

2018-01-30 14:52:09 27127

原创 python模块(使用xlrd、xlwt操作excel表格详解)

这篇文章主要介绍了python中使用xlrd、xlwt操作excel表格详解,python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库,需要的朋友可以参考下最近遇到一个情景,就是定期生成并发送服务器使用情况报表,按照不同维度统计,涉及python对excel的操作,上网搜罗了一番,大多大同小异,而且不太能满足

2018-01-30 11:07:29 538

原创 python-django 第二节

ORM简介MVC框架中包括一个重要的部分,就是ORM,它实现了数据模型与数据库的解耦,即数据模型的设计不需要依赖于特定的数据库,通过简单的配置就可以轻松更换数据库ORM是“对象-关系-映射”的简称,主要任务是:根据对象的类型生成表结构将对象、列表的操作,转换为sql语句将sql查询到的结果转换为对象、列表这极大的减轻了开发人员的工作量,不需要面对因数据库变更而导致的无效劳动Dj

2018-01-30 10:53:21 275

原创 python-djongo 第一节

创建虚拟环境创建:mkvirtualenv [虚拟环境名称]删除:rmvirtualenv [虚拟环境名称]进入:workon [虚拟环境名称]退出:deactivate所有的虚拟环境,都位于/home/.virtualenvs目录下进入虚拟环境前的提示:进入虚拟环境后的提示:查看当前的所有虚拟环境:workon [两次tab键]查看虚拟环境中已经安装的包p

2018-01-23 11:31:07 1637

原创 python操作mysql数据库

Python 标准数据库接口为 Python DB-API,Python DB-API为开发人员提供了数据库应用编程接口。Python 数据库接口支持非常多的数据库,你可以选择适合你项目的数据库:GadFlymSQLMySQLPostgreSQLMicrosoft SQL Server 2000InformixInterbaseOracleSyb

2018-01-22 17:52:36 203

原创 构建股票交易平台专业术语

Trade:交易;发生时机:当卖家同意以某个特定价格转移一定数量的股票(或有价证券)所有权给买家Orders:买卖盘;买家和卖家如何实现Trade(交易),这就需要一个中心市场,Stock Market(股市),掮客们汇聚股市,然后对特定的股票叫买或叫卖,比如我想以¥35.50的价格买入500股东方科技的股票,以¥65.34的价格卖出中国石油的股票,这都是买卖盘Buy Orde

2018-01-22 16:34:44 932

原创 python基础第五天 (多线程 多进程)

内容提要paramiko模块进程、与线程区别python GIL全局解释器锁多线程语法join线程锁之Lock\Rlock\信号量将线程变为守护进程Event事件 queue队列生产者消费者模型多进程语法join进程Queue进程Pipe进程Manager进程同步进程池  1.paramiko模块      安装:若已安装pip则

2018-01-15 13:36:23 325

原创 python argparse用法总结

1. argparse介绍是python的一个命令行解析包,非常适合编写可读性非常好的程序2. 基本用法prog.py是我在linux下测试argparse的文件,放在/tmp目录下,其内容如下:#!/usr/bin/env python# encoding: utf-8import argparseparser = argparse.ArgumentParser()parse

2018-01-12 10:30:56 289

原创 python与自然语言处理之rnn在 nlps上的应用

1.引言在离人工智能越来越近的今天,研究界和工业界对神经网络和深度学习的兴趣也越来越浓,期待也越来越高。 我们在深度学习与计算机视觉专栏中看过计算机通过卷积神经网络学会了识别图片的内容——模仿人类的看,而工业界大量的应用也证明了神经网络能让计算机学会听(比如百度的语音识别),于是大量的精力开始投向NLP领域,让计算机学会写也一定是非常有意思的事情,试想一下,如果计算机通过读韩寒和小四的

2017-12-25 12:26:13 1366

原创 python自然语言处理之lda

自然语言处理之LDALDA由PLSA发展而来,PLSA由LSA发展而来,同样用于隐含语义分析,这里先给出两篇实现LSA和PLSA的文章链接。自然语言处理之LSA自然语言处理之PLSA我们知道,PLSA也定义了一个概率图模型,假设了数据的生成过程,但是不是一个完全的生成过程:没有给出先验。因此PLSA给出的是一个最大似然估计(ML)或者最大后验估计(MAP)。LD

2017-12-21 16:15:13 2637

原创 python 与自然语言处理之语言模型n-gram

1. 引言:朴素贝叶斯的局限性我们在之前文章《NLP系列(2)_用朴素贝叶斯进行文本分类(上)》探讨过,朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是本节要接到的N-gram语言模型。2. N-gram语言模型是啥?

2017-12-21 12:07:18 12217 1

原创 python与自然语言处理之朴素贝叶斯下

1. 引言上一篇文章我们主要从理论上梳理了朴素贝叶斯方法进行文本分类的基本思路。这篇文章我们主要从实践上探讨一些应用过程中的tricks,并进一步分析贝叶斯方法,最后以情绪褒贬分析和拼写纠错为例展示这种简单强大的方法在自然语言处理问题上的具体应用。2. 为什么不直接匹配关键词来识别垃圾邮件?看了上一篇文章的一些同学可能会问:“何必费这么大劲算那么多词的概率?直接看邮件中有没

2017-12-21 12:06:06 1626

原创 python与自然语言处理之贝叶斯实战

1.引言前两篇博文介绍了朴素贝叶斯这个名字读着”萌蠢”但实际上简单直接高效的方法,我们也介绍了一下贝叶斯方法的一些细节。按照老规矩,『锄头』给你了,得负责教教怎么用和注意事项,也顺便带大家去除除草对吧。恩,此节作为更贴近实际应用的部分,将介绍贝叶斯方法的优缺点、常见适用场景和可优化点,然后找点实际场景撸点例子练练手,看看工具怎么用。PS:本文所有的python代码和ipython

2017-12-21 12:04:08 1689

原创 python与自然语言处理之朴素贝叶斯上

1. 引言贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)而它其实是由以下的联合概率公式推导出来:P(

2017-12-21 12:01:31 1695

原创 python与自然语言处理 2结巴分词

特点1,支持三种分词模式:    a,精确模式,试图将句子最精确地切开,适合文本分析;     b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;     c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2,支持繁体分词3,支持自定义词典安装1,Python 2.x 下

2017-12-18 17:39:21 447

原创 python与自然语言处理1 正则匹配

find()方法语法:str.find(str, beg=0, end=len(string))参数str -- 指定检索的字符串beg -- 开始索引,默认为0。end -- 结束索引,默认为字符串的长度。返回值如果包含子字符串返回开始的索引值,否则返回-1。实例以下实例展示了find()方法的实例:实例(Python

2017-12-18 17:38:02 366

原创 sk-learn 学习官方笔记1

加载示例数据集scikit-learn提供了一些标准数据集,例如 用于分类的 虹膜和数字数据集和波士顿房价回归数据集。在下文中,我们从shell中启动一个Python解释器,然后加载iris和digits数据集。我们的符号约定是 $表示shell提示符,而>>>表示Python解释器提示符:$ python>>> from s

2017-12-18 14:30:37 340

原创 爬虫之pyquery 解析html

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考

2017-12-14 11:35:05 2020

原创 深度学习

shen神经网络结构两个隐藏层的神经网络MultiLayer Perceptions (MLP): 实际是sigmoid neurons, 不是perceptrons 假设识别一个手写图片:如果图片是64*64, 输入层总共有64*64 = 4096个神经元如果图片是28*28, 输入层总共有28*28 = 784个神经元

2017-12-13 16:30:06 653

原创 机器学习之softmax函数

Softmax分类函数 这篇教程是翻译Peter Roelants写的神经网络教程,作者已经授权翻译,这是原文。该教程将介绍如何入门神经网络,一共包含五部分。你可以在以下链接找到完整内容。(一)神经网络入门之线性回归Logistic分类函数(二)神经网络入门之Logistic回归(分类问题)(三)神经网络入门之隐藏层设计Softmax分类函数(四

2017-12-07 16:35:45 1870

原创 神经网络之cost函数损失函数,

【机器学习】代价函数(cost function)注:代价函数(有的地方也叫损失函数,Loss Function)在机器学习中的每一种算法中都很重要,因为训练模型的过程就是优化代价函数的过程,代价函数对每个参数的偏导数就是梯度下降中提到的梯度,防止过拟合时添加的正则化项也是加在代价函数后面的。在学习相关算法的过程中,对代价函数的理解也在不断的加深,在此做一个小结。 1.

2017-12-07 15:54:10 7308

原创 机器学习之降维

python大战机器学习——数据降维注:因为公式敲起来太麻烦,因此本文中的公式没有呈现出来,想要知道具体的计算公式,请参考原书中内容     降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中1、主成分分析(PCA)  将n维样本X通过投影矩阵W,转换为K维矩阵Z  输入:样本集D,低维空间d  输出:投影矩阵W  算法步骤:

2017-12-05 16:36:35 483

原创 机器学习之神经网络

1. 背景:     1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本     1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network)     2.1 Backpropagation被使用在多层向前神经网络上     2.2 多层向前神经网络由以

2017-12-05 15:03:20 211

原创 机器学习之聚类

聚类1、聚类试图将数据集中的数据划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)2、聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名思考:簇所对应的概念固然是可以任意命名的,但我们一般的规律仍然是通过样本的属性来命名的,这就意味着,有可能根据样本特征给不同的簇命名3、聚类既能作为一个单独的过程,用于找寻数据内在的分布结

2017-12-01 16:54:29 1773

原创 机器学习之集成学习 bagging与随机森林

Bagging与随机森林算法原理小结    在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。    随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是

2017-11-30 16:36:58 2027 1

原创 机器学习之集成学习之adaboost

Adaboost算法原理分析和实例+代码(简明易懂) 【尊重原创,转载请注明出处】 http://blog.csdn.net/guyuealian/article/details/70995333    本人最初了解AdaBoost算法着实是花了几天时间,才明白他的基本原理。也许是自己能力有限吧,很多资料也是看得懵懵懂懂。网上找了一下关于Adaboost算法原理分析,大都是你复制我,我

2017-11-30 16:05:17 946

原创 机器学习与em算法

EM算法原理和python简单实现发表于2017/9/7 9:41:18  475人阅读分类: 机器学习算法 目录 第一章最大似然估计    1第二章最大似然估计到EM    2第三章 EM算法推导    3第四章 EM例子和python代码    7参考文献    8 最大似然

2017-11-30 15:03:59 306

原创 机器学习与贝叶斯分类器

stick-learn朴素贝叶斯的三个常用模型:高斯、多项式、伯努利朴素贝叶斯是一个很不错的分类器,在使用朴素贝叶斯分类器划分邮件有关于朴素贝叶斯的简单介绍。若一个样本有n个特征,分别用x1,x2,...,xn表示,将其划分到类yk的可能性P(yk|x1,x2,...,xn)为:P(yk|x1,x2,...,xn)=P(yk)∏ni=1P(xi|yk)上式中等号右侧的各个值可以

2017-11-30 12:32:14 427

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除