自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 常用SQL代码整理

实习期间基于业务的SQL代码整理周报提数1.1某时间段某省的活跃用户数统计口径:活跃用户数 (dmid_client_user_detail_d_yyyymm 客户端细节表,MID层)prov_id字段中15表示江苏省 (ddim_province省份号段表,关联prov_id)msidn字段表示手机号参考代码:SELECT COUNT(DISTINCT( msisdn) ) ...

2018-11-23 16:18:11 715

原创 利用selinum爬取咪咕音乐歌单信息源代码分享

话不多说,直接上代码,咪咕音乐的网页相对简单比较容易爬取这个代码只是比较粗糙的完成了爬取工作,还有很多未完善的地方,因为使用的是ChromeDriver,我们可以直接看到浏览器操作,可以很容易查错执行此代码前请保证已经安装了下列包及ChromeDriver应用程序from selenium import webdriverfrom selenium.common.exceptions ...

2018-11-23 15:44:29 2297 2

原创 Pandas包中DataFrame 的应用

1.Pandas包中DataFrame 的应用下面都是工作种经常用到的方法,随手记录下来1.1 数据库数据存储 from sqlalchemy import create_engine engine= create_engine("mysql+pymysql://data_user:[email protected]:3306 /data2?charset=utf8"...

2018-11-23 15:25:04 383

原创 美图数据分析实习生笔试题

以下题为当时回忆版,只记得部分题目大意。 1. 找规律 0,4,18,(),100 0=1的平方×(1-1) 4=2的平方×(2-1) 18=3的平方×(3-1) 100=5的平方×(5-1) 4的平方×(4-1)=48 2. 如果你有一把剑,一颗宝石有50%的几率能升一级,五级及以上,失败会降级,五级以下失败就不做任何反应。期望有多少颗宝石才能把一把1级的宝剑升到9级。...

2018-08-02 10:51:28 1715

原创 数据分析笔试题收集(一)

1.请说明随机森林较一般决策树稳定的几点原因随机森林分类的过程就是对于每个随机产生的决策树分类器,输入特征向量,森林中每棵决策树对样本进行分类,根据每个决策树的权重得到最后的分类结果。即随机森林就是由多颗决策树形成的并且随机森林是并行计算多颗决策树。 bagging的方法,多个树投票提高泛化能力 bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力...

2018-08-01 19:02:54 21496

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除