自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

开码河粉

人生苦短,我选"开码共享"

  • 博客(285)
  • 收藏
  • 关注

原创 python - pip 命令合集

目录1.pip与pypi介绍2.pip 常用命令3.pip安装本地whl文件4.更换国内pip源1.pip与pypi介绍pip为Python 包管理工具,提供查找、下载、安装、卸载等功能,为easy_install替代品pypi是python官方第三方库仓库(开源包公共存储库),可下载或上传自己开发的库,使用pip下载。pip官方文档https://pip.pypa.io/en/latest/reference/2.pip 常用命令安装包python2

2022-03-19 20:30:32 5924 1

原创 Github - 第三篇:分支操作案例

1.本地分支与远程分支 建立或撤消关联1)本地没有dev分支,远程有dev分支git checkout--trackorigin/dev #本地会新建分支dev并自动跟踪远程分支dev2)本地已有分支dev,但远程没有git push --set-upstream origin dev #远程会创建dev分支,并本地分支dev会自动跟踪远程分支dev3)本地与远程都没有分支devgit checkout -b dev git push origin dev4)...

2021-10-23 18:06:35 472

原创 Github - 第二篇:基础原理与操作

目录1.Git Workfolw2.Git Repository Frame3.Git Common Order4.Usage Case5.Abnormal & Solution1.Git Workfolw一般工作流程如下:克隆 Git 资源作为工作目录。 在克隆的资源上添加或修改文件。 如果其他人修改了,你可以更新资源。 在提交前查看修改。 提交修改。 在修改完成后,如果发现错误,可以撤回提交并再次修改并提交。...

2021-10-17 15:56:34 550

原创 Github - 第一篇:Github安装与配置

1.Github安装(1)ubuntu下安装Git输入 git ,查看是否已安装 安装git , sudo apt-get install git 查看版本,git --version(2)mac下安装Git1)通过homebrew安装Git安装homebrew:/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 安装git:b...

2021-10-17 14:26:59 4685

原创 amazon - 第二章:amazon developer 之 第二节:SP-API Introduction

目录1.手把手教你开通Amazon SP-API2.SP-API 介绍文档3.SP-API 开发者文件1.手把手教你开通Amazon SP-API手把手从零开始搭建SP-API开发环境亚马逊SP-API开发,参数获取教程-开发者版https://zhuanlan.zhihu.com/p/347162082 https://zhuanlan.zhihu.com/p/352038475视频教程:【自行授权】亚马逊SP-API参数获取教程-卖家版PS: 调用SP-API需要6样

2021-08-14 22:52:20 1133

原创 clickhouse - 第三章:内置对象 之 第二节:table表操作 - 行与列增删改查

目录1.新增列2.删除列3.修改列类型1.新增列ALTER TABLE test.table_nmae ON CLUSTER cluster_name ADD COLUMN column_name1, ADD COLUMN column_name2;-- 置于首列alter table test.amz_fba_return add column channel_id UInt16 first;-- 常规alter table test.amz_fba_return a

2021-07-29 00:33:46 184

原创 clickhouse - 第三章:内置对象 之 第二节:table表操作 - 创建表与删除表

1.创建空表(1)MergeTree engineCREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]( name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1], name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2], ... INDEX inde...

2021-07-28 00:56:50 1119 1

原创 clickhouse - 第一章:clickhouse 存储引擎 之 第二节:表引擎

1.MergeTreeMergeTree -- 最强大的表引擎ReplacingMergeTree -删除排序键值相同的重复项SummingMergeTree -相同主键的数值类型行合并为一行AggregatingMergeTree -相同主键的行聚合统计成一行CollapsingMergeTree - 类似拉链表,通过sign字段标识当前生效行VersionedCollapsingMergeTree- 类似拉链表,通过sign与version字段标识当前生效行和版本号...

2021-07-26 23:58:22 246

原创 clickhouse - 第一章:clickhouse 存储引擎 之 第一节:数据库引擎

目录1.Atomic2.MySQL3.Lazy1.Atomic它支持非阻塞 DROP 和 RENAME TABLE 查询以及原子 EXCHANGE TABLES t1 AND t2 查询。默认情况下使用Atomic数据库引擎。CREATE DATABASE test ENGINE = Atomic;2.MySQLMySQL引擎用于将远程的MySQL服务器中的表映射到ClickHouse中,并允许您对表进行INSERT和SELECT查询,以方便您在ClickHouse与

2021-07-26 23:50:04 257

原创 数据分析 - 跨境电商爬虫成长记 之 第一篇:python常用爬虫框架与工具

爬虫干货文章打造一个健壮高效的网络爬虫-崔庆才 python爬虫系列版 Python高级—从趟过的坑中聊聊爬虫、反爬、反反爬爬虫常用框架scrapy框架:目前较成熟与常用的爬虫框架 Crawley框架:可以比较高效地攫取互联网对应的内容 Portia框架: 可以可视化地爬取网页的框架 newspaper:用来提取新门卫新闻,文章及内容分析的Python爬虫框架,由第三方开发 pyspider爬虫框架: 能在浏览器界面上进行脚本的编写 Grab爬虫框架:用于构建Web刮板的Pyth

2021-07-25 10:07:47 992

原创 数据分析 - 跨境电商爬虫成长记 之 第三篇:完整的爬虫工作环节有哪些

前言大神 崔庆才《健壮高效的网络爬虫》中爬虫分为 网页爬虫、APP爬虫,又根据网页渲染方式、APP接口又进行了细分,想了解更深入的伙伴们可去参考原著。由于工作的原因,本人搞得更多的是网页爬虫,其实在爬虫圈大多玩的也是网页爬虫;相对APP爬虫而言,网页爬虫的门槛更低,是大部分玩家的练手起点。单线式、扣链式定义根据采集动作不同分为单线式、扣链式爬虫。单线式爬虫,即一次request,其response就是目标数据;扣链式爬虫,特点是要从第1次request返回的response中得到第.

2021-07-24 12:12:12 862

原创 理财投资 之 基金投资 - #1篇:基金基础知识扫盲

基金基础知识:https://blog.csdn.net/wyb0218_0308/article/details/118070533

2021-07-23 00:28:12 3298

原创 数据分析 - 数据挖掘 之 第二章:数据预处理 - 第五节:数据标准化

若数据来源不同,量纲及量纲单位不同,数据之间则不具备可比性,不利于数据分析,因此需要采用标准化方法消除量纲。 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。数据标准化方法有如下几种:1.min-max标准化新数据=(原数据- min...

2021-07-19 22:42:37 977

原创 数据分析 - 数据挖掘 之 第二章:数据预处理 - 第四节:数据归约

2021-07-18 14:18:30 176

原创 数据分析 - 数据挖掘 之 第二章:数据预处理 - 第三节:数据集成与转换

1.数据集成2.数据转换规范化处理数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。特别是基于距离的挖掘方法,聚类,KNN,SVM一定要做规范化处理。离散化处理a数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:模型需要:比如决策树、朴素贝叶斯等算...

2021-07-18 14:12:31 580 1

原创 数据分析 - 数据挖掘 之 第二章:数据预处理 - 第二节:数据清洗

2021-07-18 14:06:59 218

原创 数据分析 - 数据挖掘 之 第二章:数据预处理 - 第一节:数据常见问题及处理方法

前言数据分析与数据挖掘都必须事先对原始数据进行清洗,因为原始数据不干净会严重地影响分析或挖掘的结果,所以数据预处理是不可避免的。1.原始数据常见问题2.常用数据预处理方法...

2021-07-18 11:27:10 1070

原创 数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第二节:数据挖掘算法

1.数据挖掘算法分类(1)按有无目标变量(2)按分析目的(3)算法汇总2.机器学习算法一览表

2021-07-18 10:56:44 154

原创 数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第二节:数据挖掘过程

1.SEMMA数据挖掘过程著名的SAS数据挖掘项目方法论中,将数据挖掘项目整体过程定义为:定义业务问题、系统环境评估、数据准备、挖掘数据SEMMA、模型实施、回顾与评价,其中挖掘数据SEMMA是核心过程,包括抽样Sample、探索Explore、修整Modify、建模Mode以及评估Assess几个阶段,如下图。(1)抽样从数据集中抽取有代表性的样本,样本应该大到不丢失重要的信息,小到能够便于操作。 创建三个数据子集:①训练数据,用于拟合各种模型;②验证数据,用于评估各模型并进行模型...

2021-07-18 10:30:49 756 1

原创 数据分析 - 数据挖掘 之 第一章:数据挖掘原理 - 第一节:数据挖掘任务

数据挖掘任务主要有很多种,常见的有分类、聚类、预测等,若按算法可分为两大类:无监督学习、有监督学习。1.分类学习 分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有K最近邻居算法(K Nearest Neighbor Algorithm)、决策树算法、贝叶斯分类和支持向量机算法(Support Vector...

2021-07-18 09:33:32 2580

原创 数据分析 - 基础原理 之 第三章:数据质量管理 - 第五节:数据质量监控

前言数据质量监控 是容易被忽略的一个重要环节,我刚开始搞数据库时压根也没想到会有这档事,直到频繁出现几次数据“翻车”事故后,才感受到它的重要性与必要性;如果连数据源的状况都不能掌控,那么搞数据分析就像在“危楼”上建房;“凡有数据必有监控”,这是之前我被老板骂过的话,只想说骂的真对。1.数据质量监控流程数据质量监控流程大体有两个环节:监控 与 告警。监控,一般指核查表的数据量 或 表字段的统计值 是否合理;如果不合理就发出告警。2.数据质量监控对象一般是表与表字段,两者的监控点有:

2021-07-04 14:19:23 2737 2

原创 数据分析 - 基础原理 之 第三章:数据质量管理 - 第三节:影响数据质量的因素

2021-07-04 01:02:50 1347 3

原创 数据分析 - 基础原理 之 第三章:数据质量管理 - 第二节:数据生命周期

前言数据生命周期 网上有许多版本,各行各业的、各类应用场景的;下面是个人认为比较好的两篇介绍,望匆喷,若有推荐请留言,不胜感激。1.数据全生命周期管理模型请参考原创:https://www.zhihu.com/question/393978073特点是包含10多种数据生命周期模型,涉及多个行业或研究主题方向,以下给出其中一版 —一般科学模型。一般科学模型通用科学模型由科学机构提供,用于管理科学数字数据。此模型可用于管理用于存档或处理数据的数据收集方法。通用科学数据模型将...

2021-07-04 01:00:10 1352 3

原创 数据分析 - 基础原理 之 第三章:数据质量管理 - 第一节:数据质量评估

请参考原创:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA前言数据资产的重要性数据资产是企业或组织拥有或控制,能带来未来经济利益的数据资源。越来越多的企业认识到自身的业务数据是一个有别于其他形式又很重要的企业资产。打理好企业数据资产,可以为企业带来准确及时的决策和有效的行动,为企业的业务分析预测和决策提供有力的支持,让企业在市场中用前瞻性的决策找到的新的盈利点和商业模式,利用数据资产来获取或增强市场竞争优势,给企业带来巨大的回报。数据

2021-07-03 23:23:52 1946 2

原创 数据分析 - 基础原理 之 第二章:数据架构与工具 - 第二节:数据工具体系

著名的数据观察家Matt Turck在他的BLOG(https://mattturck.com/) 里每年发出一张人工智能和大数据产业图,下面给出2019的。

2021-07-01 00:27:00 215

原创 数据分析 - 基础原理 之 第二章:数据架构与工具 - 第一节:数据平台逻辑架构

参考 《SAS-数据挖掘的意义与实践》

2021-06-30 01:10:29 207

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第五节:数据分析常见误区

1.数据分析师常犯错误(1)分析目的不明确,为了分析而分析;(2)缺乏行业、公司业务认知,分析结果偏离实际。数据必须和业务结合才有意义。摸清楚所在产业链的整个结构,对行业的上游和下游的经营情况有大致的了解,再根据业务当前的需要,制定发展计划,归类出需要整理的数据。同时,熟悉业务才能看到数据背后隐藏的信息;(3)为了方法而方法,为了工具而工具,只要能解决问题的方法和工具就是好的方法和工具;(4)数据本身是客观的,但被解读出来的数据是主观的。同样的数据由不同的人分析很可能得出完全相反...

2021-06-30 00:59:01 490

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第二节:数据分析的目的与意义

目录1.数据分析目的2.数据分析的意义参考:https://zhuanlan.zhihu.com/p/148733240?from_voters_page=true1.数据分析目的(1)数据分析目的1:分类检查未知分类或暂时未知分类的数据,目的是预测数据属于哪个类别或属于哪个类别。使用具有已知分类的相似数据来研究分类规则,然后将这些规则应用于未知分类数据。(2)数据分析目的2:预测预测是指对数字连续变量而不是分类变量的预测。(3)数据分析目的3:关联规则和推荐系统关联

2021-06-30 00:33:18 817

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第四节:数据分析一般流程

数据分析流程较多,常见流程有以下几种:1.数据分析六步曲参考:https://blog.csdn.net/weixin_33856370/article/details/92220965(1)明确目的和思路梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。同时,确保分析框架的体系化和逻辑性。(2)数据收集一般数据来源于四种方式:数据库、第三方数据统计工具、专业的调研..

2021-06-30 00:12:11 353 1

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第六节:数据分析能力8个等级与数据分析师3类工作

1.数据分析能力的8个等级参考 《SAS-数据挖掘的意义与实践》2.数据分析师3类工作参考:https://www.zhihu.com/question/25949022/answer/308321005(1)第一类:纯操作类举例: 把本季度和上季度的销售数据做一个对比分析。这类问题是非常典型的60分工作。何为60分工作呢?就是目标、思路、方法和执行过程都已经非常明确,不需要数据分析师做什么分析过程。唯一需要数据分析师做的,只是把对应的数据做成图表,以更好的进行展示。..

2021-06-27 00:47:53 352 1

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第三节:数据分析基本方法

参考:https://blog.csdn.net/is_badboy/article/details/104520461数据分析方法论主要是从宏观角度介绍如何进行数据分析,它就像是一个数据分析的前期规划,搭建一个清晰的数据分析框架。那么对于具体的业务场景问题,就要靠具体的分析方法来支撑了,下面小编就介绍几种常用的数据分析思路。1、趋势分析最简单、最常见的数据分析方法,一般用于核心指标的长期跟踪,比如点击率、GMV、活跃用户数。可以看出数据有那些趋势上的变化,有没有周期性,有没有拐点等,继而分..

2021-06-26 23:55:06 593

原创 数据分析 - references 之 资源门户link market

1.资源门户2.干货文章知乎:数据分析方法论是什么? Stack OverflowIT技术问答网站

2021-06-26 23:22:57 112

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第一节:分析方法论(2)

参考:https://www.zhihu.com/question/25949022 上篇介绍了 基于营销管理理论 的分析方法,本篇将介绍 基于数理统计学 的分析方法,而该种方法又分成三类:描述性数据分析方法、数理统计分析方法、数据挖掘分析方法。1.描述性数据分析方法 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大...

2021-06-26 23:11:56 1707

原创 数据分析 - 基础原理 之 第一章:数据分析理论方法 - 第一节:分析方法论(1)

参考:https://blog.csdn.net/weixin_42575020/article/details/89913740数据分析的方法论很多,可大致分成两大块:一是基于营销管理经验的方法论,二是基于统计学与机器学习的方法论。基于营销管理经验的方法论中,以下几种比较常见:SWOT、4P、PEST、SMART、5W2H等等1.SWOT分析法SWOT分析法也叫态势分析法,S (strengths)是优势、W (weaknesses)是劣势,O (opportunities)是机会、T

2021-06-26 22:03:02 432 1

原创 数据分析 - 基础原理 之 第三章:数据质量管理 - 第四节:数据核查方法

1.Data Cleaning Method(1)data file general clearning 基本信息:行数、列数 、各列数值类型、sheet页数 异常值:检查各列的值类型及范围,找出异常值,方法:按值排序、按值长度排序 特殊字符:非英语言、单双引号、其他标点符号、表情符号、乱码 处理缺失值:NULL/NAN/None/\N等都转换成空值 重复值:对关键字段/唯一值字段 检查重复值 (2)excel / csv clearning featu

2021-06-22 00:45:03 924

原创 数据分析 - 数据项目 之 第一章:理念与经验 - 第一节:数据理念与规范

1.数据理念(1)没有100%完美的数据体系: 不完美往往是因 现实资源不足、实施方案难度 及 实现成本 等因素 造成的 (2)把数据做得尽善尽美:在有资源、有条件情况下,我们应把数据做得尽善尽美,有句话“做,就要把它做得最好” (3)没有“一招通吃”的方法,但有通用的处理方式,以及更应考虑“业务需求、实际使用场景”的case by case式处理方案 (4)要做好数据先弄懂业务:因不懂业务,数据仅仅只是一堆数字,没有意义,除此也要弄懂数据定义及生成逻辑等2.数据规范准则(1)数据...

2021-06-22 00:14:41 335

原创 python - 编程优化 之 性能优化

1.多线程 与 多进程多线程: 多进程:

2021-06-19 16:24:12 87

原创 python - references 之 python library market

目录文本处理服务 二进制数据服务 数据类型 数字和数学模块 函数式编程模块 文件和目录访问 数据持久化 数据压缩和存档 文件格式 加密服务 通用操作系统服务 并发执行 contextvars--- 上下文变量 网络和进程间通信 互联网数据处理 结构化标记处理工具 互联网协议和支持 多媒体服务 国际化 程序框架 Tk图形用户界面(GUI) 开发工具 调试和分析 软件打包和分发 Python运行时服务 自定义 Python 解释器 导入模块 Py...

2021-06-09 01:40:04 391

原创 python - 并发执行 之 multiprocessing 多进程

https://docs.python.org/zh-cn/3/library/multiprocessing.htmlhttps://blog.csdn.net/weixin_39734458/article/details/114423710?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242https://blog.csdn.net/weixin_3060...

2021-06-09 01:28:14 1475 2

原创 python - 并发执行 之 threading 多线程(待)

https://docs.python.org/zh-cn/3/library/threading.htmlhttps://blog.csdn.net/briblue/article/details/85101144https://www.jianshu.com/p/ebecd0667aee

2021-06-09 01:25:50 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除