自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 数据标准经验分享

这个可以在项目初期,跟客户沟通,如果客户是明确要求,按照国标、行标、企标整改, 预算充足, 客户通力配合,可以按照最标准的来。【什么是词根, 就比如:“附件”英文名“ATTACHMENT”,可以根据自己的经验和业务系统厂商的原有命名习惯,制定词根为“ATTA”,“附件ID”的字段名就可以命名为“ATTA_ID”, 词根的用处就是统一定义 本公司本项目范围内所有数据内可能用到的表、字段命名单词, 收集定义这些词根, 并将这些词根连接,来具体命名数据范围内所有的表和字段】1. 收集本项目的数据范围内的数据。

2024-02-01 10:02:54 148

原创 需求调研经验 一条:不要设限

让客户畅所欲言, 给他一个由头,让他说足够多的话,给出足够的信息量。不要担心问的太多,不要担心客户透露的太多,那是客户该担心的事情,你只管问。不要担心别人对你评价太低,不要太在意评价,结果为主。在新人时期的我, 做需求调研,总是担心问的太多,会涉及到客户的敏感区, 不愿意透露太多,给客户观感不好。甚至让人误以为我没有经验,批判我能力不足。但这种担心,会限制, 现场的发挥, 会顾虑太多,导致很多应该得到的信息没有得到。所以 :需求调研不要设限, 不要给自己设限。在我记录,我的需求调研经验的其中一项。

2024-02-01 09:45:32 102

原创 流程管理中间件BPS二期项目立项准备工作经验分享

尽可能多的扩展这些需求,发现甲方未发现的问题,未来发展可能出现的需求和问题。在有了前面那么多的铺垫之后,进行现状和发展的对比。(1)这个可以通过平时开所有厂商项目周例会汇报了解,也可以通过收集厂商B在向我司进行求助时候的问题时,每次求助每次了解一些。(2) 跟公司熟悉BPS的同事了解这个产品的使用流程,让他帮忙讲解一下这个产品,能够知道这个产品的细节,和他实施BPS时候的经验。在了解了BPS产品功能, 了解当下解决了哪些问题,再了解未来的发展。(1) 这个在公司内部的白皮书,公司的共享资料库里可以找得到。

2023-04-11 19:37:02 543

原创 数据分析相关问题

数据分析是对数据进行处理和解释的过程,以从数据中提取有用的信息和知识。以下是数据分析的一般步骤:确定数据分析目的:首先需要明确数据分析的目的和需求,确定需要分析的数据类型、范围和粒度等。在这个过程中需要进行数据调研和分析,以便更好地理解数据的特点和结构。数据收集和清洗:在进行数据分析之前,需要对数据进行收集和清洗,以确保数据的质量和准确性。数据清洗包括去除重复数据、去除无效数据、填补缺失数据、处理异常数据等。

2023-04-06 11:37:01 463

原创 如何进行数据集成

需要注意的是,数据集成是一个复杂的过程,需要对数据源和数据集成方案进行全面的分析和评估。进行数据转换和映射:在进行数据集成之前,需要对数据进行转换和映射,以确保不同数据源之间的数据能够被正确匹配和整合。进行数据验证和测试:在完成数据集成后,需要对集成后的数据进行验证和测试,以确保数据的质量和准确性。进行数据集成:根据数据集成方案,使用数据集成工具将数据从不同数据源中提取出来,并进行转换和整合。在进行数据集成的过程中需要注意数据的安全和保密,以及数据集成的效率和性能。

2023-04-06 11:30:56 1098 1

原创 数据治理之主数据

常见主数据包括:供应商、客户、人员、物料、部门、项目。包括: 业务标准(编码标准、分类规则、描述规则等)一、主数据管理标准体系。

2023-04-04 10:40:11 207

原创 数据治理实施过程图

数据治理实施过程图

2022-08-09 14:32:14 479

原创 GXGG数据治理项目前后总结

数据治理项目前因后果概要总结

2022-08-04 11:03:12 293

原创 问题收集录

问题1. 互联网行业遭遇客户退货怎么办?背景描述:公司有数据治理产品, 客户A 通过招投标到公司B ,公司B采购供应商C公司。 采购过程中C与B沟通后采购了数据治理的几款产品。 C公司人员派人出差入场给A公司安装、试运行。并进行定制化开发,总共3人/月。但安装成功、培训、试运行、之后 客户A不满意C家产品。要求退货。此时,这个过程中 A,B,C,都在经历什么,将会付出什么,各有什么样的谈判依据?问题二: 两个人合作创业,成本均摊,利润均摊,但因背景问题,A一人付出多,B一人付出少,怎么办? 付出多那个人应该

2022-06-02 09:43:06 91

原创 vmware16pro 安装虚拟机操作系统centos7

1. 启动虚拟机2. 安装centos73. 设置语言4. 设置配置条件选择上海时间5 .键盘选择英文6 安装位置默认7.选择桌面安装(本人选择是所有,可根据需要安装)选择桌面安装的所有8. 磁盘分区选择分区选择手动分区详细分区具体分区确认 分区9 .设置网络10.确认安装11. 设置用户root 用户和普通用户...

2022-05-20 18:41:39 332

原创 VMware Workstation Pro 16 中linux虚拟机安装部署

一、虚拟机创建1 . 创建新的虚拟机2. 选择“自定义高级配置”3.虚拟机硬件兼容性选择默认4. 选择稍后安装操作系统5. 选择客户机操作系统6. 命名虚拟机7. 处理器配置 按需分配8. 虚拟机内存 按需配置9. 网络类型 选择 桥接模型10。 I/O控制器类型默认11. 磁盘类型默认12 创建新虚拟磁盘13. 指定磁盘容量 按需选择...

2022-05-20 17:48:22 730

原创 centos7.5 自动化安装docker后, 系统无法联网

在centos命令行内,先关闭网络,再开启网络#关闭网络nmcli networking off#开启网络 nmcli networking off

2022-05-20 16:52:39 596

原创 linunx 自动 安装docker 并安装oracle12c

一、docker 自动安装1. 打开终端, 输入自动安装命令curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun2. 启动dockerservice docker start3. 查看docker 运行docker version 二、docker 安装oracker 12c参考链接如下:Docker快速安装Oracle12c_鲁先生.的博客-CSDN博客_docker安装oracle1

2022-05-17 18:30:01 295

原创 Ubuntu18 安装docker

参考:ubuntu18.04上安装Docker - 云+社区 - 腾讯云

2022-03-11 11:30:18 2380

原创 centos7 yum 安装mysql8

1. 下载rpm包https://dev.mysql.com/downloads/repo/yum/mysql80-community-release-el7-5.noarch.rpm2. 安装rpm包[root@py soft]# yum -y install mysql80-community-release-el7-5.noarch.rpm已加载插件:fastestmirror, langpacks正在检查 mysql80-community-release-el7-5.noa

2022-03-11 11:28:54 1034

原创 GXGG产品安装部署

前提条件是 6台服务器, 数据资产目录、元数据、数据标准、数据质量、主数据、数据采集接入服务器操作系统是centos7。1. 6台服务器之间ping通确定服务器之间互相ping通2. 元数据安装...

2022-03-09 19:12:15 719

原创 普元产品安装部署

3、数据标准安装3.1 DSM后端服务部署tar -xvf Primeton_DataStandardCube_7.0LA_Server.tar -C ./dsm/ 将数据库驱动包和待采集的数据库驱动包拷贝到“DSM\lib”目录中。 2. 修改文件 vim DSM\conf\application.yml 默认端口号为:8080 linux 启动: ./startServer.sh linux 关闭: ./stopServe...

2022-02-25 19:27:07 1091

原创 centos7系统卸载mysql5.7 安装mysql8

1. 检查系统版本: cat /etc/system-release2. 查看位uname -a3. 检查是否安装了mysqlrpm -qa mysql* yum list mysql*4.卸载mysqlyum remove mysql* #检查mysql是否卸载rpm -e mysql* #检查系统是否存在mariadb ,要卸载,否则可能与mysql产生冲突。 rpm -qa|grep maria...

2022-02-24 18:55:00 537

原创 py产品安装

1.集成环境所需的第三方软件的安装配置1.1 Redis 源码安装<1 >下载redis-5.0.12.tar.gz,上传到Linux服务器,并解压(edis下载地址:Index of /releases/)#wget http://download.redis.io/releases/redis-5.0.12.tar.gz #tar -zxvf redis-5.0.12.tar.gz -C /opt/<2>预编译(实际上是检查编译环境的过程)# 进入

2022-02-24 18:26:26 710

原创 linux centos7系统使用 yum安装mysql

1.查看系统是否安装mysqlrpm -qa|grep mysql显示为空,则没有安装2. 获取mysql资源到本底 rpm -ivh http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm3 .检测是否成功安装rpm源yum repolist enabled|grep "mysql.*-community.*"4. yum 安装mysql yum install mysq...

2022-02-24 10:47:20 892

原创 数据清洗规范和数据质量校验

数据清洗规范1.空值处理:一般使用默认值1)汇总类指标的空值:空值处理,填充为零。 2)维度属性值为空:在汇总到对应维度上时,对于无法对应的统计事实,记录行会填 充为null。 3)空串例如“ ”,且不是汇总类指标置为null。数据格式内容清洗:例:yyyy-MM-dd数据源存在问题,如果是由人工收集或用户填写而来,很大可能性在格式和内容上存在问题,格式内容问题存在以下几类:1)时间、日期、...

2022-01-27 11:10:08 4161

原创 VMware Workstation 15 Player虚拟机CentOS-7-x86_64-DVD-2009 系统卸载openjdk 安装 jdk-8u321-linux-x64.tar.gz

1.1 查看现有版本查看系统中是否安装jdk:java -version看到当前系统包含 openjdk 1.8 .1.2 查询所有与java相关的安装的rpm包rpm -qa|grep java1.3 删除除了noarch 结尾的所有文件rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.312.b07-1.el7_9.x86_64rpm -e --nodeps java-1.8.0-openjdk-1.8.0.3

2022-01-25 20:30:44 2080

原创 专题图分析方案

一、换表任务专题图方案方案描述: 对水务公司周检换表任务进行跟踪,统计各分公司周检换表任务完成情况,并进行对比分析。1、按换表任务生成时间段提取换表记录。2、统计各分公司对应时间段时任务数、完工数和完工率。3、同时以饼状图展示各分公司任务数占比4、并在地图区域中展示各分公司周检任务完成度,完成度越高颜色越蓝,越低越红5、单击选中某一分公司区域,可跳转至大地图中显示具体换表用户所在位置,并用蓝色和红色分别表示已完工和未完成情况。6、鼠标指向某个点可以展示如下信息...

2022-01-25 14:38:45 255

原创 关于数据湖的建立

问题1:碎片化数据已经形成数据孤岛数据小组的工作范围主要涵盖财务,供应链,业务运营三类部门。财务要求精准的进出库数量,时间,金额。用于支持对账和结算。 供应链要求物料和库存的周转,有一定的供应链预测需求,主要用于物控。 业务要求看商品和客户维度的数据,用于发现异常和拓客。有爬虫需求。 运营要求线上的用户的所有行为数据。 微服务架构下,数据存储零散,每个库的设计的基本没有考虑到对未来数据工作的考虑。导致同一个库的数据口径不一致,不同库间更是如此。...

2022-01-25 14:27:39 2390

原创 如何增加网站访问量

如何增加网站访问量?以下是你可以考虑采用17个方法。其中,你或许已经采用了一些,有的方法你可能忘了采用,还有一些是你从来没有听说过的。总之,在这里你可以了结到当前各种有效的网站推广方法。首先你要了解,网站推广是一个长期而且系统的过程,需要制定明确的目标和计划,并做好相应的准备。 以网站最重要的关键词在主要搜索引擎中排名领先,这是搜索引擎推广中最重要的策略。搜索引擎的搜索机器人会自动搜索网页内容,因此搜索引擎策略从优化网页开始。

2021-11-16 18:26:29 703

原创 hql 依据正则表达式regexp_extract的结果进行分组group by

使用的正则表达式是regexp_extract。目的是保留中文地址,查看所使用数据地址脏乱的格式后,选择不要数字,只保留全是中文的部分。(本文sql语句中文表名和字段名是写本文章为了读者更明白而变更的中文)select "地址", regexp_extract("地址",'([^0-9]+)') from "地址表" where substring("日期",1,4)=2021 查看正则表达式后的地址结果相对来说可以接受,下一步想要对正则表达式后的结果进行分组。select r...

2021-11-05 16:35:55 638

原创 centos7 中postgresql 安装

一 . 安装postgresqlcentos7 中原有安装包中自带该软件安装好centos7 后进行安装包更新 : yum update安装postgresql : yum install -y postgresql-sersver postgresql安装成功后可以看到目录 /var/lib/pgsql/ 包括文件夹: backups 和data...

2019-12-30 16:06:52 592

原创 不合理的事情

还是觉得这个世界太落后了。在我满满了解到我所身处这个世界之后。现在我所表达并不是我想象的很远的未来的世界。而是简简单单的能够解决我的现有问题的世界。1. 所有的排队等待都是最不合理的事情。买奶茶排队。 买票排队。做火车排队。只要是用钱可以买到的东西,应该都能够花钱就买到。用时甚短,不用排队。可以提高效率,节省人们的时间。2.。一定要去一个地点上班是不合理的事情。每...

2019-10-09 09:57:03 443

转载 centos7 安装项目管理软件Taiga

环境: 2核处理器,4G内存,30G存储条件: python3.5, postgreSql9.5安装必要的组件:yum -y install gcc gcc-c++ make openssl-devel binutils autoconf flex bison libjpeg-devel freetype-devel zlib-devel perl-ZMQ-LibZMQ3 gdbm...

2019-05-24 19:58:49 839

原创 我的想象个人消费统计分析系统

现在的记账统计分析系统还是不够完善,这是事实。我想说的是消费系统。这里并不考虑该记账系统垄断之类的商业行为,只是从我个人的需求方面考虑。我想知道我的每一笔钱,是每一笔钱,就算是一毛钱,我也想记录下来。。(哈哈。有些夸张,不过可以表达我的需求)。我所有的想象,并不是基于手机,电脑。这样需要携带硬件,需要我长时间低头,需要选择特定的软件,需要某些特定的条件。而是随时随地我需要的时候,点...

2019-03-12 16:23:48 623

原创 linux python 2.7 pip 修改镜像源,并安装keras ,tensorflow

在linux python2.7的环境下,彻底修改pip安装镜像源步骤:  1.cd /root  下  mkdir .pip  2. vi pip.conf  并输入:   [global]   timeout = 6000   index-url = http://pypi.douban.com/simple   trusted-host=pypi.douban.c

2017-11-14 11:44:02 1527

转载 python 数据分析与挖掘实战

第六章对数据进行拉格朗日差值:>>> import pandas as pd>>> from scipy.interpolate  import lagrange >>> miss=pd.read_excel('/home/yao/data/chapter6/demo/data/missing_data.xls',>>> def p(s,n,k=5):...

2017-11-14 10:58:54 1587

原创 python groupby

>>> import pandas as pd >>> df = pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})>>> df      data1     da

2017-11-11 14:28:28 651

原创 python 实现矩阵中每行最大的前x个值所在的位置

#选择矩阵中每行最大的前x个值所在的位置。import pandas as pdfrom pandas import DataFrame,Seriesimport numpy as nparr=np.array([[3,1,4],[5,4,3],[3,4,5]])data=DataFrame(arr,columns=['l1','l2','l3'],index=['u1

2017-11-10 18:14:12 4830 1

原创 协同过滤算法实现

用户物品推荐import pandas as pd import numpy as npa = pd.DataFrame({'u1':{'l1':10,'l3':3},'u2':{'l2':3},'u3':{'l1':5,'l2':4}})b=a.fillna(0)c= b.T#求出用户相似度from sklearn.metrics.pairwise import pa

2017-11-10 16:15:52 377

原创 11.3工作笔记

pandas : get_dummies  使用:  1.           df = pd.DataFrame([['green','m','10.1','class1'],['red','l','13.5','class2'],['blue','xl','15.3','class1']])>> > size_mapping={'xl':3,'l':2,'m':'1

2017-11-02 16:50:26 196

原创 11.2工作笔记

使用终端远程连接服务器: ssh root @192.168.*.*                                                 password:使用python 过程中:                               1.  polt.show() 不能图形显示

2017-11-01 11:33:47 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除