创无意-CSDN博客

原创数据标准经验分享

这个可以在项目初期，跟客户沟通，如果客户是明确要求，按照国标、行标、企标整改，预算充足，客户通力配合，可以按照最标准的来。【什么是词根，就比如：“附件”英文名“ATTACHMENT”,可以根据自己的经验和业务系统厂商的原有命名习惯，制定词根为“ATTA”，“附件ID”的字段名就可以命名为“ATTA_ID”, 词根的用处就是统一定义本公司本项目范围内所有数据内可能用到的表、字段命名单词，收集定义这些词根，并将这些词根连接，来具体命名数据范围内所有的表和字段】1. 收集本项目的数据范围内的数据。

2024-02-01 10:02:54 148

原创需求调研经验一条：不要设限

让客户畅所欲言，给他一个由头，让他说足够多的话，给出足够的信息量。不要担心问的太多，不要担心客户透露的太多，那是客户该担心的事情，你只管问。不要担心别人对你评价太低，不要太在意评价，结果为主。在新人时期的我，做需求调研，总是担心问的太多，会涉及到客户的敏感区，不愿意透露太多，给客户观感不好。甚至让人误以为我没有经验，批判我能力不足。但这种担心，会限制，现场的发挥，会顾虑太多，导致很多应该得到的信息没有得到。所以：需求调研不要设限，不要给自己设限。在我记录，我的需求调研经验的其中一项。

2024-02-01 09:45:32 102

原创流程管理中间件BPS二期项目立项准备工作经验分享

尽可能多的扩展这些需求，发现甲方未发现的问题，未来发展可能出现的需求和问题。在有了前面那么多的铺垫之后，进行现状和发展的对比。（1）这个可以通过平时开所有厂商项目周例会汇报了解，也可以通过收集厂商B在向我司进行求助时候的问题时，每次求助每次了解一些。（2）跟公司熟悉BPS的同事了解这个产品的使用流程，让他帮忙讲解一下这个产品，能够知道这个产品的细节，和他实施BPS时候的经验。在了解了BPS产品功能，了解当下解决了哪些问题，再了解未来的发展。（1）这个在公司内部的白皮书，公司的共享资料库里可以找得到。

2023-04-11 19:37:02 543

原创数据分析相关问题

数据分析是对数据进行处理和解释的过程，以从数据中提取有用的信息和知识。以下是数据分析的一般步骤：确定数据分析目的：首先需要明确数据分析的目的和需求，确定需要分析的数据类型、范围和粒度等。在这个过程中需要进行数据调研和分析，以便更好地理解数据的特点和结构。数据收集和清洗：在进行数据分析之前，需要对数据进行收集和清洗，以确保数据的质量和准确性。数据清洗包括去除重复数据、去除无效数据、填补缺失数据、处理异常数据等。

2023-04-06 11:37:01 463

原创如何进行数据集成

需要注意的是，数据集成是一个复杂的过程，需要对数据源和数据集成方案进行全面的分析和评估。进行数据转换和映射：在进行数据集成之前，需要对数据进行转换和映射，以确保不同数据源之间的数据能够被正确匹配和整合。进行数据验证和测试：在完成数据集成后，需要对集成后的数据进行验证和测试，以确保数据的质量和准确性。进行数据集成：根据数据集成方案，使用数据集成工具将数据从不同数据源中提取出来，并进行转换和整合。在进行数据集成的过程中需要注意数据的安全和保密，以及数据集成的效率和性能。

2023-04-06 11:30:56 1098 1

原创数据治理之主数据

常见主数据包括：供应商、客户、人员、物料、部门、项目。包括：业务标准（编码标准、分类规则、描述规则等）一、主数据管理标准体系。

2023-04-04 10:40:11 207

原创数据治理实施过程图

数据治理实施过程图

2022-08-09 14:32:14 479

原创 GXGG数据治理项目前后总结

数据治理项目前因后果概要总结

2022-08-04 11:03:12 293

原创问题收集录

问题1. 互联网行业遭遇客户退货怎么办？背景描述：公司有数据治理产品，客户A 通过招投标到公司B ，公司B采购供应商C公司。采购过程中C与B沟通后采购了数据治理的几款产品。 C公司人员派人出差入场给A公司安装、试运行。并进行定制化开发，总共3人/月。但安装成功、培训、试运行、之后客户A不满意C家产品。要求退货。此时，这个过程中 A,B,C,都在经历什么，将会付出什么，各有什么样的谈判依据？问题二：两个人合作创业，成本均摊，利润均摊，但因背景问题，A一人付出多，B一人付出少，怎么办？付出多那个人应该

2022-06-02 09:43:06 91

原创 vmware16pro 安装虚拟机操作系统centos7

1. 启动虚拟机2. 安装centos73. 设置语言4. 设置配置条件选择上海时间5 .键盘选择英文6 安装位置默认7.选择桌面安装（本人选择是所有，可根据需要安装）选择桌面安装的所有8. 磁盘分区选择分区选择手动分区详细分区具体分区确认分区9 .设置网络10.确认安装11. 设置用户root 用户和普通用户...

2022-05-20 18:41:39 332

原创 VMware Workstation Pro 16 中linux虚拟机安装部署

一、虚拟机创建1 . 创建新的虚拟机2. 选择“自定义高级配置”3.虚拟机硬件兼容性选择默认4. 选择稍后安装操作系统5. 选择客户机操作系统6. 命名虚拟机7. 处理器配置按需分配8. 虚拟机内存按需配置9. 网络类型选择桥接模型10。 I/O控制器类型默认11. 磁盘类型默认12 创建新虚拟磁盘13. 指定磁盘容量按需选择...

2022-05-20 17:48:22 730

原创 centos7.5 自动化安装docker后，系统无法联网

在centos命令行内，先关闭网络，再开启网络#关闭网络nmcli networking off#开启网络 nmcli networking off

2022-05-20 16:52:39 596

原创 linunx 自动安装docker 并安装oracle12c

一、docker 自动安装1. 打开终端，输入自动安装命令curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun2. 启动dockerservice docker start3. 查看docker 运行docker version 二、docker 安装oracker 12c参考链接如下：Docker快速安装Oracle12c_鲁先生.的博客-CSDN博客_docker安装oracle1

2022-05-17 18:30:01 295

原创 Ubuntu18 安装docker

参考：ubuntu18.04上安装Docker - 云+社区 - 腾讯云

2022-03-11 11:30:18 2380

原创 centos7 yum 安装mysql8

1. 下载rpm包https://dev.mysql.com/downloads/repo/yum/mysql80-community-release-el7-5.noarch.rpm2. 安装rpm包[root@py soft]# yum -y install mysql80-community-release-el7-5.noarch.rpm已加载插件：fastestmirror, langpacks正在检查 mysql80-community-release-el7-5.noa

2022-03-11 11:28:54 1034

原创 GXGG产品安装部署

前提条件是 6台服务器，数据资产目录、元数据、数据标准、数据质量、主数据、数据采集接入服务器操作系统是centos7。1. 6台服务器之间ping通确定服务器之间互相ping通2. 元数据安装...

2022-03-09 19:12:15 719

原创普元产品安装部署

3、数据标准安装3.1 DSM后端服务部署tar -xvf Primeton_DataStandardCube_7.0LA_Server.tar -C ./dsm/ 将数据库驱动包和待采集的数据库驱动包拷贝到“DSM\lib”目录中。 2. 修改文件 vim DSM\conf\application.yml 默认端口号为：8080 linux 启动： ./startServer.sh linux 关闭： ./stopServe...

2022-02-25 19:27:07 1091

原创 centos7系统卸载mysql5.7 安装mysql8

1. 检查系统版本： cat /etc/system-release2. 查看位uname -a3. 检查是否安装了mysqlrpm -qa mysql* yum list mysql*4.卸载mysqlyum remove mysql* #检查mysql是否卸载rpm -e mysql* #检查系统是否存在mariadb ,要卸载，否则可能与mysql产生冲突。 rpm -qa|grep maria...

2022-02-24 18:55:00 537

原创 py产品安装

1.集成环境所需的第三方软件的安装配置1.1 Redis 源码安装<1 >下载redis-5.0.12.tar.gz，上传到Linux服务器，并解压（edis下载地址：Index of /releases/）#wget http://download.redis.io/releases/redis-5.0.12.tar.gz #tar -zxvf redis-5.0.12.tar.gz -C /opt/<2>预编译（实际上是检查编译环境的过程）# 进入

2022-02-24 18:26:26 710

原创 linux centos7系统使用 yum安装mysql

1.查看系统是否安装mysqlrpm -qa|grep mysql显示为空，则没有安装2. 获取mysql资源到本底 rpm -ivh http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm3 .检测是否成功安装rpm源yum repolist enabled|grep "mysql.*-community.*"4. yum 安装mysql yum install mysq...

2022-02-24 10:47:20 892

原创数据清洗规范和数据质量校验

数据清洗规范1.空值处理：一般使用默认值1）汇总类指标的空值：空值处理，填充为零。 2）维度属性值为空：在汇总到对应维度上时，对于无法对应的统计事实，记录行会填充为null。 3）空串例如“ ”，且不是汇总类指标置为null。数据格式内容清洗：例：yyyy-MM-dd数据源存在问题，如果是由人工收集或用户填写而来，很大可能性在格式和内容上存在问题，格式内容问题存在以下几类：1）时间、日期、...

2022-01-27 11:10:08 4161

原创 VMware Workstation 15 Player虚拟机CentOS-7-x86_64-DVD-2009 系统卸载openjdk 安装 jdk-8u321-linux-x64.tar.gz

1.1 查看现有版本查看系统中是否安装jdk：java -version看到当前系统包含 openjdk 1.8 .1.2 查询所有与java相关的安装的rpm包rpm -qa|grep java1.3 删除除了noarch 结尾的所有文件rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.312.b07-1.el7_9.x86_64rpm -e --nodeps java-1.8.0-openjdk-1.8.0.3

2022-01-25 20:30:44 2080

原创专题图分析方案

一、换表任务专题图方案方案描述：对水务公司周检换表任务进行跟踪，统计各分公司周检换表任务完成情况，并进行对比分析。1、按换表任务生成时间段提取换表记录。2、统计各分公司对应时间段时任务数、完工数和完工率。3、同时以饼状图展示各分公司任务数占比4、并在地图区域中展示各分公司周检任务完成度，完成度越高颜色越蓝，越低越红5、单击选中某一分公司区域，可跳转至大地图中显示具体换表用户所在位置，并用蓝色和红色分别表示已完工和未完成情况。6、鼠标指向某个点可以展示如下信息...

2022-01-25 14:38:45 255

原创关于数据湖的建立

问题1：碎片化数据已经形成数据孤岛数据小组的工作范围主要涵盖财务，供应链，业务运营三类部门。财务要求精准的进出库数量，时间，金额。用于支持对账和结算。供应链要求物料和库存的周转，有一定的供应链预测需求，主要用于物控。业务要求看商品和客户维度的数据，用于发现异常和拓客。有爬虫需求。运营要求线上的用户的所有行为数据。微服务架构下，数据存储零散，每个库的设计的基本没有考虑到对未来数据工作的考虑。导致同一个库的数据口径不一致，不同库间更是如此。...

2022-01-25 14:27:39 2390

原创如何增加网站访问量

如何增加网站访问量？以下是你可以考虑采用17个方法。其中，你或许已经采用了一些，有的方法你可能忘了采用，还有一些是你从来没有听说过的。总之，在这里你可以了结到当前各种有效的网站推广方法。首先你要了解，网站推广是一个长期而且系统的过程，需要制定明确的目标和计划，并做好相应的准备。以网站最重要的关键词在主要搜索引擎中排名领先，这是搜索引擎推广中最重要的策略。搜索引擎的搜索机器人会自动搜索网页内容，因此搜索引擎策略从优化网页开始。

2021-11-16 18:26:29 703

原创 hql 依据正则表达式regexp_extract的结果进行分组group by

使用的正则表达式是regexp_extract。目的是保留中文地址，查看所使用数据地址脏乱的格式后，选择不要数字，只保留全是中文的部分。（本文sql语句中文表名和字段名是写本文章为了读者更明白而变更的中文）select "地址", regexp_extract("地址",'([^0-9]+)') from "地址表" where substring("日期",1,4)=2021 查看正则表达式后的地址结果相对来说可以接受，下一步想要对正则表达式后的结果进行分组。select r...

2021-11-05 16:35:55 638

原创 centos7 中postgresql 安装

一 . 安装postgresqlcentos7 中原有安装包中自带该软件安装好centos7 后进行安装包更新： yum update安装postgresql : yum install -y postgresql-sersver postgresql安装成功后可以看到目录 /var/lib/pgsql/ 包括文件夹： backups 和data...

2019-12-30 16:06:52 592

原创不合理的事情

还是觉得这个世界太落后了。在我满满了解到我所身处这个世界之后。现在我所表达并不是我想象的很远的未来的世界。而是简简单单的能够解决我的现有问题的世界。1. 所有的排队等待都是最不合理的事情。买奶茶排队。买票排队。做火车排队。只要是用钱可以买到的东西，应该都能够花钱就买到。用时甚短，不用排队。可以提高效率，节省人们的时间。2.。一定要去一个地点上班是不合理的事情。每...

2019-10-09 09:57:03 443

转载 centos7　安装项目管理软件Taiga

环境： 2核处理器，4G内存，30G存储条件： python3.5, postgreSql9.5安装必要的组件：yum -y install gcc gcc-c++ make openssl-devel binutils autoconf flex bison libjpeg-devel freetype-devel zlib-devel perl-ZMQ-LibZMQ3 gdbm...

2019-05-24 19:58:49 839

原创我的想象个人消费统计分析系统

现在的记账统计分析系统还是不够完善，这是事实。我想说的是消费系统。这里并不考虑该记账系统垄断之类的商业行为，只是从我个人的需求方面考虑。我想知道我的每一笔钱，是每一笔钱，就算是一毛钱，我也想记录下来。。（哈哈。有些夸张，不过可以表达我的需求）。我所有的想象，并不是基于手机，电脑。这样需要携带硬件，需要我长时间低头，需要选择特定的软件，需要某些特定的条件。而是随时随地我需要的时候，点...

2019-03-12 16:23:48 623

原创 linux python 2.7 pip 修改镜像源，并安装keras ,tensorflow

在linux python2.7的环境下，彻底修改pip安装镜像源步骤： 1.cd /root 下 mkdir .pip 2. vi pip.conf 并输入： [global] timeout = 6000 index-url = http://pypi.douban.com/simple trusted-host=pypi.douban.c

2017-11-14 11:44:02 1527

转载 python 数据分析与挖掘实战

第六章对数据进行拉格朗日差值：>>> import pandas as pd>>> from scipy.interpolate import lagrange >>> miss=pd.read_excel('/home/yao/data/chapter6/demo/data/missing_data.xls',>>> def p(s,n,k=5):...

2017-11-14 10:58:54 1587

原创 python groupby

>>> import pandas as pd >>> df = pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})>>> df data1 da

2017-11-11 14:28:28 651

原创 python 实现矩阵中每行最大的前x个值所在的位置

#选择矩阵中每行最大的前x个值所在的位置。import pandas as pdfrom pandas import DataFrame,Seriesimport numpy as nparr=np.array([[3,1,4],[5,4,3],[3,4,5]])data=DataFrame(arr,columns=['l1','l2','l3'],index=['u1

2017-11-10 18:14:12 4830 1

原创协同过滤算法实现

用户物品推荐import pandas as pd import numpy as npa = pd.DataFrame({'u1':{'l1':10,'l3':3},'u2':{'l2':3},'u3':{'l1':5,'l2':4}})b=a.fillna(0)c= b.T#求出用户相似度from sklearn.metrics.pairwise import pa

2017-11-10 16:15:52 377

原创 11.3工作笔记

pandas : get_dummies 使用： 1. df = pd.DataFrame([['green','m','10.1','class1'],['red','l','13.5','class2'],['blue','xl','15.3','class1']])>> > size_mapping={'xl':3,'l':2,'m':'1

2017-11-02 16:50:26 196

原创 11.2工作笔记

使用终端远程连接服务器： ssh root @192.168.*.* password:使用python 过程中： 1. polt.show() 不能图形显示

2017-11-01 11:33:47 198

Cecilia_l的博客