zangao0718-CSDN博客

原创对于２－gram 条件下对英语文本的分词处理

#coding=utf-8import re#得到１元条件下的分词，并将这些分词加入到list中with open('/home/zheng/firstproject/lecture.txt', 'r') as lecture: content = lecture.read().strip().decode('gbk').encode('utf-8') lecture_lis

2017-05-23 21:05:43 712

原创 Mysql基础（二）

这篇博客主要是笔者为了准备秋招的数据分析岗位，然后整理的数据库的一下基本概念，如果有什么不对的地方，欢迎各位通过QQ邮箱：1391716398与笔者进行联系和沟通。where 条件子句固定语法格式： where * from 表名 where 条件；表记录管理1.删除特定条件的表记录delete from 表名 where 条件；如果不加where，则表中的数据全部删除；2.更新表记...

2019-09-02 14:39:20 150

原创【MySQL】基础学习全解（一）

这篇博客主要是笔者为了准备秋招的数据分析岗位，然后整理的数据库的一下基本概念，如果有什么不对的地方，欢迎各位通过QQ邮箱：1391716398与笔者进行联系和沟通。1、介绍数据库模型· 层次模型· 网状模型· 关系模型主流关系数据库· 商用数据库，例如：Oracle，SQL Server，DB2等；· 开源数据库，例如：MySQL，PostgreSQL等；· 桌面数据库，以微软A...

2019-09-01 13:09:59 171

原创李航统计学习方法——感知机的实现

笔者，即将大四了，面临秋招的挑战，笔者以后想从事数据分析的相关工作，暑假实习自己在一家小公司做数据分析的工作，但是所接触到的工作内容都是比较偏业务方向的，偏技术的比重并没有我想象中的那么高，因此我想抓紧时间复习一下，加上之前看过台湾林轩田教授的机器学习视频，因此现在想试着去实现一下李航统计学习方法上面设计到的机器学习算法。正文感知机：假设输入空间是χ⊆Rn,输出空间是γ=(+1,−1)。输...

2019-08-28 15:12:12 180

原创 selenium

title: 爬虫系列之seleniumdate: 2019-04-19 16:33:24tags: 爬虫categories: 爬虫toc: true一、什么是seleniumSelenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium 的插件，那么便可以方...

2019-04-19 17:02:36 512

原创 beautiful-soup

title:爬虫系列之 beautiful soupdate: 2019-04-16 09:59:18tags: 正则表达式categories: 爬虫toc: true前面介绍了正则表达式的相关用法，但是一旦正则表达式写的有问题，得到的可能就不是我们想要的结果了。而且对于一个网页来说，都有一定的特殊结构和层级关系，而且很多节点都有id或class来作区分，所以借助它们的结构和属性来...

2019-04-16 18:24:18 226

原创正则表达式实战

title: 爬虫系列之正则表达式实战date: 2019-04-15 23:14:30tags: 正则表达式categories: 爬虫toc: true前言我们前面已经详细的了解过了正则表达式的具体功能和用法，今天我们就在实战过程中使用正则表达式。我们的目标网站是：http://maoyan.com/board/41、准备工作首先，我们要确保我们已经安装了request库，...

2019-04-15 23:50:37 648

原创正则表达式

title: 爬虫系列之正则表达式date: 2019-04-15 15:42:15tags: 爬虫categories: 爬虫toc: true什么是正则表达式正则表达式是对字符串操作的一种逻辑公式，就是事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的，其他语言也都有正则pyth...

2019-04-15 17:21:52 257

原创如何统计文本中出现的每个单词的次数

统计文本出现的每个每个单词的次数，并列出频率最高的前五个单词# coding=utf-8from random import randint# 读取文本with open('test.txt') as t: content=t.readlines() # print(content) # 对读取到的文本进行分词，以空位符为分割符 content[0:-1...

2018-11-25 16:25:52 2197

原创如何拆分含有多种分隔符的字符串

对于分割字符床，我们通常想到的都是运用字符串中的split()方法来进行分割，但是此种方法只能分割单一分割符。比如：对于多个分割符的字符串s,我们如果用split的方法进行分割时就会报错：s='ab;cd|efg|hi,jkl|mn\topq;rst,uvw\txyz't=s.split('; | , \t')E:\Anaconda\python.exe E:/Anaconda/M...

2018-11-25 14:18:45 553

原创 Python中split字符串

Python中的split字符床详解：split翻译为分裂，在python中split()则是将一个字符串分裂成多个字符串组成的列表split的分裂规则是：当split()不带参数时，按空字符（包括空格符，换行符，制表符等空字符）进行分割，当split()带参数时，则是根据参数进行分割。例子：不带参数时：str='human table bye'print(str.spli...

2018-11-25 13:41:46 303

原创运用Beautifulsoup对新闻网站进行简单的爬取

利用BeautifulSoup可以很简单的爬取网页上的内容。这个套件可以把一个网页变成DOM tree要使用BeautifulSoup需要使用命令行进行安装，不过也可以直接用python的ide。基础操作 :①使用之前需要先从bs4中导入包：from bs4 import BeautifulSoup②使用的代码：soup = BeautifulSoup(res.text, ...

2018-11-18 11:33:31 869

转载如何根据字典中值的大小，对字典中的项排序

实际案例某班英语成绩以字典形式存储为{‘Li’:79, ‘Jim’:88, ‘Lucy’:92, …}，根据成绩高低，计算学生排名。这里我们将利用内置函数sorted对学生的英语成绩排名。方法一：首先，我们利用zip()将字典转化为元组；然后，我们调用sorted函数对元组进行排序，代码如下：# -*- coding: utf-8 -*-from random import...

2018-07-24 20:22:08 834

原创 python字典元素的读取

1.根据字典的键读取键对应的值，键不存在时抛出异常>>> a={'apple':'苹果','banana':'香蕉','pear':'梨'}>>> a['apple']'苹果'>>> a[b]Traceback (most recent call last): File "<pyshell#38>", line 1, ..

2018-07-24 20:19:49 5484

原创求文章的段落的句子个数，句子平均数以及句子的标准差

先用划分段落的办法把每一个段落存进一个列的表里面，再遍历每个段落，求出句子个数具体代码如下：# -*-coding:utf-8 -*-import nltk# nltk.download()import sysimport numpyimport reimport osfrom scipy.stats import pearsonrreload(sys)sys.set

2017-07-16 15:07:20 1025

原创对文章单词的字母个数的计算

首先是先把每篇文章里的单词用正则表达式切分出来，然后放进一个list里面，然后再将这个list里面的元素一一遍历，每次遍历后的结果都是用正则对这个单词进行切分，将得到的结果就是用另一个list保存起来，最后求这个list的长度就是每个单词的字母长度了。具体的代码如下：# -*-coding:utf-8 -*-import nltk# nltk.download()import s

2017-07-16 15:02:01 539

转载统计分词/无字典分词学习(2):n-gram词频统计

我们现在面对的是“wheninthecourseofhumaneventsitbecomesnecessary”这样一堆语料，要获取词典，怎么办？第一步肯定是找到所有可能是词的片段了，常用的方法就是n-gram切分了，如假设词的最大长度是3，则句子“abcd”的n-gram切分就是：1-gram切分：a b c d2-gram切分：ab bc cd3-gram切分：

2017-05-21 00:09:19 1461

转载分词学习(3)，基于ngram语言模型的n元分词

最大概率分词中，认为每个词的概率都是独立的，但是有一部分词，其切分却与前一个词密切相关，特别是中文分词中更为明显，英文中就是如上一篇文章中的“tositdown”的例子。这样就可以使用2元模型，就是如一个分割形式"ab cde f"的概率，如果按照1-gram计算：P(ab cde f) = P(ab)*P(cde)*P(f)如果按照2-gram计算：P(ab cde

2017-05-20 16:13:41 1331

上节课，师兄主要讲了NSAQL和Mogodb的内容，也让我了解了数据库更多的知识。虽然我还不是能够完全理解消化上节课的内容，当总体上还是了解NOSQL的由来以及NOSQL的四大家族。虽然还是不怎么懂这四大家族的具体运用情况，但是总归是了解了，这也算是一种收获吧。然后便是Mogodb的讲解，这部分的内容自己大多数是跟着师兄的步骤来做的，也就显得很轻松，也基本上了解了Mogodb上的一些命令操作了。不

2017-05-17 21:37:41 196

zangao0718的博客