自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 发送邮件Python

import smtplibimport refrom email.header import Headerfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextfrom email.mime.application import MIMEApplicationimport configparser as ConfigParserdef get_mail_name(mail_add.

2021-11-21 07:22:54 760

原创 PYTORCH学习

一. TORCH官网官网链接:PyTorch An open source machine learning framework that accelerates the path from research prototyping to production deployment.https://pytorch.org/epochs = 1000#定义迭代次数二. Tensors三. Datasets and DataLoaders四. Transforms五. Build Mo

2021-10-12 10:03:25 835

原创 《用户画像--方法论与工程化解决方法》读后感

前言第1章 用户画像基础11.1 用户画像是什么11.1.1 画像简介11.1.2 标签类型31.2 数据架构41.3 主要覆盖模块51.4 开发阶段流程71.4.1 开发上线流程71.4.2 各阶段关键产出91.5 画像应用的落地101.6 某用户画像案例111.6.1 案例背景介绍111.6.2 相关元数据121.6.3 画像表结构设计161.7 定性类画像211.8 本章小结22第2章 数据指标体系232.1 用户属性维度23

2021-09-02 10:12:02 873

原创 根据身份证号计算周岁年龄

1、测试import pandas as pdimport datetimetemp_data='110221195404083625'v_start_date=temp_data[6:14]now = datetime.datetime.now()now = now.strftime('%Y%m%d')v_year_end=datetime.datetime.strptime(now, '%Y%m%d').yearv_month_end=datetime.datetime.strpti

2021-04-08 10:58:32 2327

原创 数据埋点与数据需求文档

数据分析流程数据采集→指标建模→观测数据→数据分析→业务洞察,数据采集首当其冲,而数据采集中埋点是其中的一个重要方法,移动端的数据采集,一是为了服务于开发者,协助开发者分析各类设备信息;二是为了帮助各APP更好地了解自己的用户,了解用户在APP上的各类行为,帮助各应用不断进行优化,提升用户体验。一、 概述:数据采集1.1 收集需求收集数据来源于两个方面,一个是产品自身的指标建模,另一个是业务部门的分析需求,比如一个共享出行APP新上一个包月服务,其中最重要的模块是交易模块,相关的数据指标有...

2021-01-13 21:53:25 5604

原创 用户画像理论和搭建过程

一、定义用户画像是根据目标用户的社会属性、生活习惯和其他行为信息,抽象出一个标签化的用户模型。标签是名词性的、碎片式的,比如说当我们在使用互联网的时候,那些给我们提供服务的公司都在给我们打标签,你的任何一个行为都有可能被它贴上一个小标签。你购买了任何一件产品,你浏览了任何一条新闻,你都可能被打上了一个小标签,你都不知道你身上已经悄悄地被它贴上了几十个甚至几百个这样的小标签。这些小标签就像是一个密码,当你被贴上了几百个这样的小标签的时候,它就好像是加了密的电文,机器就能够用这些小标签逐渐地合成一个形象

2021-01-08 12:08:25 595

原创 python 安装包问题

一、[python] 安装TensorFlow问题 解决Cannot uninstall 'wrapt'. It is a distutils installed projectcmd安装 pip install tensorflow1.遇到了ERROR: Cannot uninstall 'wrapt'. It is a distutils installed project and thus we cannot accurately determine which files be.

2020-12-29 15:23:52 2033

原创 自然语言处理训练营NLP--笔记

任务010: 简单的复杂度的回顾任务011:归并排序:merge sort(归并)Divide and conquer—分治算法(category 属于这个范畴)A=[3,4,1,6,7,2,5,9]目标:sort(A)步骤:1、将数组分成两部分2、针对每部分排序3、对前后两部分对比后排序归并排序的时间复杂度是O(n logn)#merge and sortimport numpyimport pandasa=list(numpy.random.r...

2020-12-24 14:29:43 6819

原创 python BUG解决之路

ImportError: cannot import name 'joblib' from 'sklearn.externals' 解决方法 将 from sklearn.externals import joblib 改为 import joblib

2020-12-03 13:51:50 98

原创 python 小知识

#导入自己的包import syssys.path.append('E:/chinakeji/car/state/')

2020-12-03 13:27:38 671

原创 算法复杂度

任务010: 简单的复杂度的回顾任务011:归并排序:merge sort(归并)Divide and conquer—分治算法(category 属于这个范畴)A=[3,4,1,6,7,2,5,9]目标:sort(A)步骤:1、将数组分成两部分2、针对每部分排序3、对前后两部分对比后排序归并排序的时间复杂度是O(n logn)#merge and sortimport numpyimport pandasa=list(numpy.random.ra..

2020-11-30 14:49:03 94

原创 遍历每行,eval转成元组

cat a.txt (('aa','6L'),[('n','3CE'),('c','48'),('c','ff')])(('bb','5L'),[('n','4E5'),('c','28'),('c','2'),('c','8')])(('cc','2L'),[('n','5DC'),('c','108'),('c','4'),('c','2'),('c','4')])with open("D:/aaa/a.txt", "r", encoding="utf-8") as f: for .

2020-11-30 10:57:23 237

原创 NLP中的红楼梦

兜兜转转学NLP学了一个月,结果还在皮毛上,今天打算使用NLP对自己喜欢的红楼梦进行梳理。一、分词,建立红楼梦词库分词方法分规则分词和统计分析,目前我们还没有红楼梦的词库,所以规则分词不适用,统计分析有两种算法:HMM和CRF1.1 HMM1.2 CRF1.3 衡量分词的一致性二、命名实体识别三、每章摘要四、每章内容概述五、每章内容标签六、红楼梦的社交网络七、每章内容概述八、每章内容概述九、每章内容概述未完待续......

2020-11-26 21:12:01 1236

转载 nlp相关内容原理、实现和应用

本文内容转自:https://ailearning.apachecn.org/#/docs/nlp/一、分词--搜索功能--ChineseAnalyzer for Whoosh搜索引擎ChineseAnalyzer for Whoosh搜索引擎pip install whooshWhoosh是一个用来索引文本并能够根据索引搜索的包含类和方法的类库,它允许你开发一个针对自己内容的搜索引擎例如,如果你想创建一个博客软件,你可以使用Whoosh添加一个允许用户搜索博客类目的搜索功能代码案.

2020-11-26 17:11:59 268

原创 PageRank算法原理及代码

本文内容出自帅器学习的课程内容,讲得原理清晰,概念深入,链接:https://www.bilibili.com/video/BV1m4411P76G?p=1

2020-11-24 20:57:22 10347 5

原创 random.multivariate_normal和norm.rvs

np.random.multivariate_normal方法用于根据实际情况生成一个多元正态分布矩阵,其在Python3中的定义如下:def multivariate_normal(mean, cov, size=None, check_valid=None, tol=None) 其中mean和cov为必要的传参而size,check_valid以及tol为可选参数。mean:mean是多维分布的均值维度为1;cov:协方差矩阵,注意:协方差矩阵必须是对称的且需为半正定矩...

2020-11-24 11:36:24 4157

原创 详解动态规划算法(Python)

动态规划解题四组成部分1、确定状态解动态规划的时候需要一个数组,数组的每个元素F[i],或者F[i,j]代表什么需要明确;确定状态需要两个意识:1.1 最后一步k枚硬币a a a...a,面值加起来应该等于11,最后的硬币是a1.2 子问题除掉最后一枚硬币,前面的k-1枚硬币加起来应该等于27-a​​​​​​​,因为是最有策略,所以拼出2、建立状态转移方程3、初始条件和边界情况4、计算顺序...

2020-11-08 20:32:21 6721

原创 算法训练

讲师:覃超平台:极客时间账号:小宝微信网址:https://time.geekbang.org/一、数组、链表、跳表的原理和实现1、数组:list=[],数组里面的类型是泛型;数组在内存中开辟了一段连续的地址,可以通过内存管理器访问,访问任何一个元素的时间复杂度都是O(1)插入、删除的时间复杂度是O(N)2、链表:参考文章:https://www.cnblogs.com/mooncode/p/11039266.html链表这种数据结构,在一些修改、增.

2020-11-02 16:28:23 1245

原创 根据点大小生成分布及模拟分布

根据经纬度位置和点大小生成分布及模拟分布项目背景:根据北京市图书馆位置及借书人数,生成图书馆服务分布。一、原始数据:图书馆数据:site_id longitude latitude num(借书人数)         下载地址:链接:https://pan.baidu.com/s/1U12xMBEPveK7-Hah3yvqKQ提取码:hi6o二、数据处理...

2020-10-28 14:26:00 587

原创 算法刷题

参考网址:https://wx.zsxq.com/dweb2/login##/*-------------------------------------*/##/* 从 0 学算法第一周总结:1 万字 30 多幅图##/*https://mp.weixin.qq.com/s/Ay-N6S920BosVqvpSgGrfg##/*-------------------------------------*/"""1 星球使用方法2 程序员还需要学算法吗?3 从零学算法大纲Day 1 冒泡

2020-10-20 21:00:25 233

原创 读书程序

手把手构建人工智能产品##/*-------------------------------------*/##/* 手把手构建人工智能产品##https://www.cnblogs.com/by-dream/p/9403984.html##https://www.cnblogs.com/ywl925/archive/2012/11/21/2780861.html##/*-------------------------------------*/#第三章--排序任务评估指标--DCG--P

2020-10-20 20:40:52 315

原创 贝叶斯概率

2020-10-12 11:24:46 367

原创 经纬度和距离转换

工作中我们经常遇到1经度或1纬度对应的距离,以及有了距离相应的经纬度差是多少1、1公里对应的经纬度差如果地球是个规则的球体,其周长是40076千米,那么1个360度的经度圈周长也是40076千米(和赤道圈一样),推断出1度经度的距离是40076/360=111千米;而1纬度的距离和它所在的纬度带有关。import numpy as npimport math# 区域范围bound = {}bound['min_lon'] = 102.2 # min_lonbound['min_l

2020-10-02 21:32:47 9579

原创 EM算法

EM最大期望算法(Expectation Maximum)只要给出一些训练数据,再定义一个最大化函数,就能通过计算机的多次迭代,得到所需要的模型。迭代步骤:初始化k个中心,,...E:计算各个点到k个中心的距离,并归到最近的类,并算出每个类中点的平均距离d以及各个类中心的平均距离D;M:根据分好的类,重新计算各个中心的位置,,...; 假如某一个分类有点,,...,那么其中心点位置等于w=重复上述步骤。通过判断平均距离d最小化和D最大化,做为迭代停止条件。即各个类内的平..

2020-09-29 17:58:26 152

转载 杂学待整理

最小二乘法及其python实现最小二乘法,即通过对数据进行拟合,使得拟合值与样本值的方差最小。https://blog.csdn.net/m0_37816922/article/details/97161484

2020-09-22 12:48:20 73

原创 排序任务评估指标

本文内容参考《手把手构建人工智能产品》和https://www.cnblogs.com/ywl925/archive/2012/11/21/2780861.html排队任务可以当做一个分类任务来处理,对目标对象进行打分之后按照分数规则返回一个序列结果,在工作中可以通过定义分数规则来确定目标对象属于哪一类。搜索引擎就是一个典型的排序系统,当输入关键词时,系统按一定顺序返回一系列与关键词相关的搜索结果。搜索引擎对每个关键词有一个打分,即将对象池中的对象分为正类(与查询关键词相关)和负类(与查询词...

2020-09-19 20:51:15 1179

原创 matplotlib画图

折线图import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#做一下对数函数的图log_data=pd.DataFrame()log_data['x']=[i for i in range(1,100)]log_data['y']=[math.log(i,2) for i in x]log_data = log_data.set_index(keys=['x'])ax=log_data['y'].plo

2020-09-19 17:42:49 65

原创 泊松分布

泊松分布定义:如果随机事件A发生的概率是P,进行n次独立试验,恰巧发生了k次,则相应的概率可以用这样一个公式来计算:在实际事例中,当一个事件以固定的平均速率出现时随机且独立地出现时,那么这个时间在单位时间(面积或体积等)内出现的次数或个数近似服从泊松分布。如:某医院平均每小时出生3个婴儿;(单位时间)某公司平均每小时接到3.5个电话;(单位时间)一、理论知识【先说说组合数C(n, k)】C(n, k) = n!/(k!(n-k)!)一句话就是“n中选k”的所有可能数,详细的.

2020-09-08 10:04:20 48236 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除