自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (1)
  • 收藏
  • 关注

原创 AB Test介绍

what

2022-03-15 13:57:43 7752

原创 用户画像基础

用户画像是什么画像简介用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的全貌信息。个人画像示例从图中,我们可以看到一个人物的画像,它其实是用各种标签来构成的。这些标签(文静、可爱、善解人意、活泼等等)都是对我们的用户的某些属性的一个描述。从图中也可以看到这些标签被分成了几个类型(基本属性、消费购物、网络社交等等),之所以会去对标签分类,一个是便于对标签的管理,另外

2022-03-11 20:10:14 956

原创 ROC和AUC

ROC概念在信号检测理论中,接收者操作特征曲线,或者叫ROC曲线(Receiver operating characteristic curve),用于选择最佳的信号侦测模型、舍弃次佳的模型或者在同一模型中设置最佳阈值。最近在机器学习领域也得到了很好的发展。ROC分析的是二元分类模型,也就是输出结果只有两种类别的模型,例如(阴性/阳性),(垃圾邮件/非垃圾邮件)混淆矩阵ROC 空间ROC空间将伪阳率(FPR)定义为X轴,将真阳率(TPR)定义为y轴,从(0,0)到(1,1)的对角线将ROC空间划

2022-03-11 10:45:52 2150

原创 CVR/CTR/ROI

PV流量(Page View),一个统计周期内,浏览页面的数量之和UV访客数(Unique Visitor),一个统计周期内,访问网站的人数之和ROI投资回报率(Return on investment)ROI=(总收入-成本投入)/成本投入CVR转化率(Click Value Rate)是一个横向CPA广告效果的指标,是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率CPA(Cost Per Action): 每行动成本,CPA 计价方式是指按广告投放实际效果,即按回应的

2022-03-10 17:08:36 1090

原创 MAC动态屏保

SaveHollywoodSaveHollywood是OS X 10.8或更高版本的屏幕保护程序模块,可以播放动态视频。SaveHollywood lets you define which movies you want to be played. You can either add a movie or a folder of movies.You can play:movies shot with your iPhone®, iPad® or iPod® touch.movie tra

2022-03-09 10:45:23 4058

原创 Spark SQL, DataFrames and Datasets 简介

Spark SQL 简介什么是Spark SQLSparkSQL是Spark用来处理结构化数据的一个模块。Spark SQL 特性易整合Spark SQL将SQL查询与Spark程序无缝混合,可以使用python,java等不同的语言进行代码开发统一的数据源访问以相同的方式连接到任何数据源,sparksql后期可以采用一种统一的方式去对接任意的外部数据源,不需要使用不同的Api兼容HIVEsparksql可以支持hivesql这种语法 sparksql兼容hivesql

2022-03-04 16:53:35 2610

原创 Spark初试

Spark 本地安装(MAC OS)1.安装Java前往JAVA Downloads下载合适Java版本MAC JAVA 安装流程在命令行中输入 java -version测试安装是否成功2. 安装Spark前往spark官网下载所需安装的版本Downloads are pre-packaged for a handful of popular Hadoop versions. Users can also download a “Hadoop free” binary and r

2022-03-04 15:00:01 2406

原创 Spark简介

Spark简介Spark是什么新的改变Spark集群架构合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入Spark是什么新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如

2022-03-03 18:45:23 20601

原创 RDD简介

RDD概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,是spark core的底层核心,它代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:就是一个集合,存储很多数据.Distributed:它内部的元素进行了分布式存储,方便于后期进行分布式计算.Resilient:表示弹性,rdd的数据是可以保存在内存或者是磁盘中.RDD 五大属性A list of partitionsRDD 是 一组

2022-03-03 15:43:53 8762

原创 Django多APP加载静态文件

Django 是Python下一个开放源代码的Web框架,许多网站和APP都基于Django。我需要用Django搭建一个网站,中间遇到了一些问题,在这里记录一下。Django安装参考资料https://docs.djangoproject.com/zh-hans/3.1/https://www.runoob.com/django/django-tutorial.html...

2020-08-10 21:08:38 1307

原创 Word Mover Distance(WMD,词移距离)模型

文本表示方式词袋模型(BOW,bag od words)词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。举个例子,来说明词袋模型。假设语料库中只有两个句子。Jane wants to go to Shenzhen.Bob wants to go to Shanghai.分词后,将所有词语装进一个袋子里,不考虑词法和语序的问题,即每个词语都是独立的。上面两个句子,就可以构成一个词袋。[Bob,go, Jane, Shanghai

2020-07-17 23:34:20 1054

原创 现代自然语言系统简介

汉语 NLP自然语言系统的整体逻辑新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示...

2018-11-21 15:19:36 591

原创 爬虫练习--爬取CNNVD相关漏洞

目标从国家信息安全漏洞库(CNNVD)中爬取目标软件的相关漏洞,统计漏洞类型、危害等级、相关数量等,并进行可视化。具体流程构造URL,根据关键词爬取相关软件的漏洞信息,统计其数量和网页数构造URL,一个一个网页的爬取,找到每个具体漏洞的链接,保存这些链接根据每个具体漏洞的链接,爬取相关页面,用正则表达式和BeautifulSoup找到我们需要的链接。代码实现结果可视化...

2018-06-07 20:19:19 6309 5

原创 Python实现《人民的名义》关系可视化

流程概述在网上找到《人民的名义》剧本并下载在网上查询《人民的名义》的一些主要人物,做一个人物字典基于共现原理寻找人物关系使用软件Gephi绘制关系图,将关系可视化人物字典在结巴分词中,人物姓名以标记”nr”来标志。侯亮平 nr李达康 nr 达康 nr沙瑞金 nr沙书记 nr高育良 nr育良 nr老师 nr祁同伟 nr陆亦可 nr钟小艾 nr...

2018-06-07 11:06:40 4100 16

原创 Pagerank算法学习

如何度量一个网页本身的重要性? 某网页被指向的次数越多,重要性越高 越是重要的网页,所链接的网页的重要性也就越高 如图所示,链向网页E的链接远远大于链向网页C的链接,但是网页C的重要性却远高于网页E,这是因为网页C被网页B所链接,而网页B具有很高的重要性。 Pagerank算法的相关概念PR值:用来评价网页的重要性,PR值越大越重要,其级别从0到...

2018-05-01 11:33:22 1405

原创 爬虫练习--爬取股票数据

爬取股票数据步骤从东方财富网找到上市公司的股票代码并保存根据股票代码去百度股市通去查找相关股票的具体信息并保存 代码#-*- coding:utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport tracebackimport reimport xlwtdef getHTMLText(ur...

2018-03-30 11:13:32 2313 2

原创 # Python安装scrapy失败解决方法

Python安装scrapy失败解决方法环境:win10+Python3.6使用 python -m pip install scrapy 命令安装scrapy显示错误如下: building ‘twisted.test.raiser’ extension error: Microsoft Visual C++ 14.0 is required. Get it with “...

2018-03-25 10:43:51 16833 5

原创 计算机网络实验--在Cisco Packet Tracer中配置ACL

实验内容 配置ACL禁止192.168.3.0/24网段的icmp协议数据包通向与192.168.1.0/24网段 配置ACL禁止特点的协议端口通讯: 禁止192.168.2.10访问web(禁止网段与禁止单个之间的区别) 禁止192.168.2.20访问DNS ACL(访问控制列表)介绍应用在路由器接口的指令列表指定哪些数据报可以接收、哪一些需要拒绝相对网络接口

2017-12-02 10:56:14 17143 2

20_newsgroups

20_newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。

2018-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除