- 博客(113)
- 资源 (7)
- 收藏
- 关注
原创 通用的文本相似度计算
最长公共子序列(Longest Common Subsequence,LCS)是指两个或多个序列中共同出现的一段连续序列,它在多个序列中都保持相同的顺序和连续性。在计算机科学中,寻找最长公共子序列是一个经典问题,通常通过动态规划算法解决。二、Jaccard相似度(Jaccard Similarity)通过计算两个文本向量在空间中的夹角余弦值来评估它们的相似度。通常与词袋模型(BOW)或TF-IDF结合使用。基于集合的交集与并集的比值来计算相似度。适用于短文本或关键词列表的比较。
2024-04-19 11:23:40 41
原创 windows 11 打包python镜像相关操作
运行中可能会报有我们在本地python环境下不会报的错误,如果遇到缺少依赖包的问题,就在requirements.txt中添加之后重新打包,当然网络不好的时候也会报错。在powershell中cd到程序所在目录,然后执行打包命令,等待打包完成,打包过程会联网请求依赖,打包时间长短取决于网速以及电脑性能。打包好的镜像在本机的docker上,如果想要部署到其他机器上,可以将镜像打包成tar包,实现镜像的迁移。打包完成之后,执行docker images命令,即可以看到生成的镜像。
2024-04-16 18:11:30 124 1
原创 乔迁新居发言
一个家庭想要在这个社会上生存和发展,就如同一艘小船在生活的汪洋大海上航行,有的人负责掌舵,有的人负责划桨,每个人都有属于自己的使命和职责,只有大家能够明确自己的分工,履行好自己的职责,并能够完美的配合才能确保家庭的小船能够在生活的汪洋大海上平稳的运行。尤其是遇到狂风巨浪和暗礁的时候能否顺利脱离危险,这就更加考验每个家庭人员随机应变的聪明才智、宽广的胸怀和格局、光明磊落的心境以及优秀的团队意识, 因为在危险的面前,我们愿意给他人一束光也是在照亮自己前行的路。因为身体是我们最核心的资本。亲爱的家人们,大家好!
2024-01-24 16:18:37 429
原创 python读取含有多个sheet的xlsx文件,并将解析各个sheet页的数据进行融合
【代码】python读取含有多个sheet的xlsx文件,并将解析各个sheet页的数据进行融合。
2023-06-16 14:34:41 1139
原创 argmap 导出数据到excel
step2: 选择2处的 tools.tbx\excel\table to excel。step1: 点击1处的serch按钮;step3: 把想要导出的数据拖拽到3。step4: 设置导出文件位置。
2023-05-18 09:59:19 149
原创 数据挖掘之特征工程
人们观测或者收集到的数据样本是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维“嵌入”。且在高维情形下出现的数据样本稀疏、距离计算困难等问题是所有机器学习方法共同面临的严重障碍,因此特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。不仅减少过拟合、减少特征数量(降维)、提高模型泛化能力,而且还可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快模型的训练速度,还会获得更好的性能。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限,因此工程的..
2022-05-03 20:59:45 1329
原创 数据预处理-下
1分类型变量变换类型的数值编码当训练模型时,数据集中的字段包含符号字段(分类字段)时,而且该字段也需要被用来参与建模,并且该模型算法需要使用所有记录的数值来进行算法计算。这种情况下就对符号字段提出了挑战。一般的做法是将该符号字段编码为一组数值字段,该组数值字段的个数等于该符号字段的分类个数,一个分类对应一个数值字段。对于该符号字段的每一个取值,对应于该值的那个数值字段的值均被设置为1,其他数值字段的值均被设置为0。这组数值字段(衍生字段)被称为indicator(指示)字段,或者dummy(虚拟)
2022-05-03 18:33:07 351
原创 ORACLE表空间创建及资源使用情况分析
1 查询某个用户下所有表占用空间select segment_name, bytes/1024/1024/1024 from dba_segments where owner = user_name2 查询表空间文件及表空间-- 查询表空间select * from dba_tablespace;-- 查询表空间文件select * from dba_data_files where tablespace = spaceName; -- spaceName 自己指定 -- 查询表中单条
2022-05-03 18:13:13 672
原创 数据预处理-上
数据挖掘数据预处理是对原始数据进行处理,消除噪声和缺失值,建立数据仓库的过程即是数据预处理的过程。数据的重要性在大多数情况下都超过了算法的重要性,质量欠佳的数据很难得到有用的分析结果,因此数据预处理是数据分析过程中至关重要的环节。数据预处理的完整工作应当包括数据清洗、数据集成、数据变换和数据归约处理。在数据挖掘的整个运作过程中,数据预处理是最重要的一个步骤,通常分析人员会花费60%-80%的经历在数据预处理上。数据预处理是否得当,对后续数据挖掘过程是否有效和质量的好坏有重要的影响,只有高质量的数据,才能有
2022-05-03 17:33:40 665
原创 大数据探索
数据挖掘数据探索是数据分析过程中必不可少的一个环节,数据探索可以有2个层面的理解:一是利用工具,对数据特征进行查看;二是根据数据特征,感知数据价值,以决定是否需要对各个字段进行探索,或者决定如何加工这些字段以发挥数据分析的价值。在进行数据分析时,需要明确每个字段的数据类型,数据类型代表了数据的业务含义,分为3个类型:区间型数据(Interval)数值型数据的取值都是数值型,其大小代表了对象的状态,比如,年收入的取值,其大小代表了其收入状态。分类型数据(Categorical)分类型数据的每一个
2022-05-03 09:58:40 1024
原创 总论:认识大数据挖掘
数据挖掘有人说,大数据是新时代的黄金和石油,掌握了它,就掌握了新经济的命脉;用好了它,就拥有了新战略型资源。数据挖掘,就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们实事先不知道的,但又是潜在有用的信息和知识的过程。大数据研发的目的是利用大数据技术去发现大数据的价值并将其应用到相关领域,通过大数据的处理相关问题促进社会的发展。数据挖掘的内容集中在几个方面上,即关联、回归、分类、聚类、预测、诊断六个方面。接下来将介绍这六个方面的数据挖掘内容及技术。关联:若两个或多个
2022-05-03 09:36:44 270
原创 python 解析XML文件,并将解析后的数据存放到指定的目录下
-- XML文件的结果为<Message> <Head> <BizMsgID>xxxx</BizMsgID></Head> <Data> <TABLE_1 列名1="B4" 列名2="63" 列名3="2022-02-09T15:29:53" /> <TABLE_2 列名1="B4" 列名2="65" 列名3="xxx" 列名4="1" /> <TABLE_3
2022-04-23 18:04:06 648
原创 ORACLE 查询指定时间之内的日、月及其他汇总
– 连续日期的记录SELECT (TO_DATE('20211001', 'YYYYMMDD' )+ ROWNUM - 1)FROM DUALCONNECT BY ROWNUM <= TO_DATE('20211007', 'yyyymmdd') - TO_DATE('20211001', 'yyyymmdd') + 1;– 连续月份的记录SELECT TO_CHAR( ADD_MONTHS( (TO_DATE('202101', 'YYYYMM' )+ ROWNUM - 1) ,
2022-04-19 12:49:46 869
原创 oracle数据库查询某个用户下表的记录数的2种表达方式
– 方法1 select * from ( -- 查询指定用户下所有的表数据量 select table_name, to_number(extractvalue(xmltype(dbms_xmlgen.getxml('select count(*) cnt from ' || owner || '.' ||
2022-04-15 19:09:27 1103
原创 数据库处理指定字符串的分割方法
– 1 oracle 处理 带有下划线(陕西省_汉中市_宁强县)这种规律的字符串的分割方法SELECT STR_NAME , SUBSTR( Y.STR_NAME , 1, INSTR(Y.STR_NAME , '_', 1,1)-1 ) AS FIRST_KEYWORD, SUBSTR( Y.STR_NAME , INSTR(Y.STR_NAME , '_', 1,1)+1 , INSTR(Y.STR_NAME
2022-03-30 16:50:35 1247
原创 oracle 查询某个用户下的表名、表注释、字段名和注释的代码
select t.table_name as 表名称, c1.comments as 表备注, c2.column_name as 字段名称, c2.data_type as 字段类型, c2.data_length as 字段长度, c3.comments as 字段备注 from -- 查询指定用户下的表名称 (select table_name from all_all_tables where owner =
2022-03-24 10:13:43 2566
原创 从oracle数据库操作dmp文件
从oracle数据库导出dmp文件导出示例exp system/chensq2020@ORCL file=d:\daochu.dmp owner=(system)导入示例imp usename/password@SID full=y file= d:\data\xxxx.dmp ignore=y将数据库中system用户与sys用户的表导出exp system/manager@TEST file=d:\daochu.dmp owner=(system,sys)将数据库中的表table1 、t
2022-03-02 14:43:16 888
原创 py读取文件夹中的excel文件,并将多个文件的内容进行融合
# 多个文件夹名称dist_code = ['X1市',X2市','X3市','X4市','X5市','X6市','X7市','X8市','X9市','X10市' ]import osimport pandas as pdfile_path = 'D:/job/work/'# 按照指定结构创建一个空DataFrameres = pd.DataFrame({ '字段1' :[], '字段2' :[] ,
2022-02-28 20:56:39 198
原创 Mysql表信息查询
参考博客:https://www.cnblogs.com/sumlen/p/11101315.htmlselect * from dike_register.tb_area;-- 查询所有的表名和列名SELECT TABLE_NAME ,column_name FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_SCHEMA = SCHEMA_NAME;-- 查询表的字段、列名和字段类型select TABLE_NAME , TABLE_COMMENT
2022-02-25 16:45:34 1788
原创 优秀的分析报告遵循的原则
先说说写一份好的数据分析报告的重要性,很简单,因为分析报告的输出是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,既然这么重要那当然要写好它了。架构清晰,主次分明一个好的框架,跟盖房子一样,好的分析肯定是有基础有层次,有基础坚实,并且层次明了才能让阅读者一目了然,架构清晰、主次分明才能让别人容易读懂,这样才让人有读下去的欲望。结论明确每个分析都有结论,而且结论一定要明确,如果没有明确的结论那分析就不叫分析了,也失去了它本身的意义,因为你本来就是要去寻
2022-02-22 14:57:02 136
原创 python向excel中写数据涉及的相关知识(先按照地市编码建文件夹,再按照区县创建excel文件)
参考博客1: https://blog.csdn.net/weixin_44333889/article/details/118487220参考博客2:https://blog.csdn.net/xihen7/article/details/119540825import ospath = r'文件路径' for dist_code , dist_name in zip(data_code,data_path) : #print (dist_code , dist_name) o
2022-02-21 18:34:31 458
原创 py按照某个字段取值访问数据,并将结果存放到excel的不同sheet中
按照区县编码写进excel中,并把不同区县编码的信息写入到不同的sheet中# 访问数据,获取所有的区分信息bhpt_fail = visitOracle(address , "select * From bhpt_fail")dist_base_bhpt_fail = pd.DataFrame(bhpt_fail['区县编码'].value_counts()).index# 需要在指定路径下创建xlsx文件writer = pd.ExcelWriter('按区县编码存放.xlsx',mode=
2022-02-18 10:34:05 506
原创 python 访问mysql数据库代码封装
python访问mysql数据库,并返回DataFrame类型的数据import pymysql.cursorsimport pandas as pdimport numpy as npdef pyvisitMysql(params ,sql_text): ## 数据库参数信息 conn=pymysql.Connection(host = params.get('ip'), port = params.get('port')
2022-02-12 20:36:14 934
原创 在linux文件下执行.kjb文件和trans文件
先找到kitchen.sh文件所在的位置新建一个sh文件(runKjbScript.sh),在文件中添加如下代码:kitchen.sh路径/kitchen.sh -file= 文件路径/kjb文件名称.kjb -log=日志名称.log可以配置成定时任务:例如每天下午17:30运行就可以写成:30 17 * * * cd /runKjbScript文件路径 && ./runKjbScript.shreload 生效:/etc/init.d/crond/reload参考博客:htt
2021-11-30 17:33:51 5084
查询一个数据库中所有表中的数据量、表中的数据是否有状态区分字段,如果有根据不同的状态区分字段计算表中有效信息、无效信息的数量
2022-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人