自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 构建决策树对于流失用户进行分类

    最近被分配到商业分析组配合商业分析师对流失掉的客户进行研究。我最先接到的任务是根据客服部门记录的客户的流失原因,对于这些客户的流失原因做分类。商业分析师给我提供了23个类别,要求我把客户都分到这些类中。最开始我企图通过建立关键词规则,比如包含某些单词或者不包含某些单词,但是实际上发现分类的结果很差,规则首先不完备,并且彼此还可能冲突,分类的结果当然就很差。于是我就想到可以利用文本挖掘的方法...

2018-07-30 17:36:17 2855

原创 pandas数据清洗(1)

import pandas as pdimport numpy as np data = pd.read_excel('EDA.xlsx') data.head()//此数据纯属捏造,不代表任何事实  序号 民族 ZCQ_JY10800_2.0_c ZCQ_JY11600_2.0_c ZCQ_JY11600_2.0_c.1 ...

2018-07-13 17:51:57 381

原创 Python获取城市美食、地铁、中小学、商场及超市信息

from bs4 import BeautifulSoup from urllib import requestimport pandas as pdimport numpy as npimport urllib.parse as urpimport timeimport jsonloc_1 = [30.389814,103.801536]loc_2 = [30.836448,10...

2018-07-05 15:03:37 1482 1

原创 房源对应地铁站的直线距离计算

import pandas as pdimport numpy as npclass Distance: def __init__(self,data): assert ('name' in data.columns) and ('longitude' in data.columns) and ('latitude' in data.columns) and \ ...

2018-06-22 13:19:52 585

原创 房源匹配最近地铁站

最近有一个新的城市准备上线,我们作为基础数据组需要收集很多基本信息。其中很重要的一个字段就是房源的最近地铁站和与地铁的距离为多少,这对于租户来说,是影响租房与否以及愿意支付价格的重要因素。class MatchSubway: def __init__(self,data1,data2): import pandas as pd assert 'name' i...

2018-06-21 10:40:57 491

原创 Python爬虫获取小区经纬度以及获取结构化的地址

    通过小区名称利用百度api可以获取小区的地址以及经纬度,但是由于api返回的值中的地址形式不同,所以可以首先利用小区名称进行一轮爬虫,获取小区的经纬度,然后再利用经纬度Reverse到小区的结构化的地址。另外小区名称如果是'...号‘,可以在爬虫开始之前在’号‘之后加一个’院‘,得到的精确度更高。这次写到程序更加便于二次利用,只需要给程序传递一个dataframe就可以坐等结果了。现在程序...

2018-06-13 13:51:41 6113 5

原创 从百度地图api获取地铁站经纬度

class GetInfo: def __init__(self,df): import pandas assert type(df) == pandas.core.frame.DataFrame and ('city' in df.columns) and ('name' in df.columns),\'The dataframe is not vai...

2018-06-12 12:06:33 5623 1

原创 从China Webmaster上收集房地产网站排名、网址和简介

    今天工程师要求我从China Webmaster上收集排名前200名的房地产网站的排名、网址和简介以及评分信息。在完成任务之后我把程序重新优化了一下,写成了一个类,方便下次重复使用。最终的返回结果是一个pandas中的dataframe,可以写成excel。class Rank: def __init__(self,start,end): from bs4 impo...

2018-06-11 17:38:52 1686

原创 Python爬虫获取楼盘信息

    在一家线上租房的公司已经实习两周了。作为实习生,所以日常的工作主要是收集和整理全国各小区的信息,比如小区的建成年代,是否有电梯,小区的门牌数等。因为我不太喜欢用复制粘贴这种效率低的工作方式,所以写了一个简单的Python程序,相对那些高端爬虫比较简单,但是还挺管用。通过以下的代码可以爬取网站上的相关信息啦。    def get_shanghai_beike_info(key): ...

2018-05-25 12:06:50 2278

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除