自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 问答 (5)
  • 收藏
  • 关注

原创 2024-04-09(CSS移动Web+JS进阶)

keyframes 动画name{from {}to {}//方式2@keyframes 动画name{0% {}10%{}......100% {}使用动画,animation:动画名称 花费动画时长。

2024-04-09 17:37:35 345

原创 2024-04-08(CSS,JS)

例如:浮动布局需要编程者自己计算同一行块元素的外边距,而Flex布局只需要设置好属性就自动帮编程者计算,并排布好同一行的块元素。侧轴对齐方式:align-items:弹性容器内所有弹性盒子侧轴对齐。也称弹性布局,是浏览器提倡的布局模型,适合结构化布局,并且不会产生浮动布局中脱标的现象。指的是标签在页面中默认的排布规则,例如块元素独占一行,行内元素可以一行显示多个。虽然浮动可以解决多个块元素共存一行的问题,但是也会有非常不好的影响。设置方式:给父元素display:flex,子元素可以自动挤压或者拉伸。

2024-04-08 17:29:14 753

原创 2024-04-07(复盘前端)

通配符选择器:(*),用于把页面的所有标签设置为相同的样式,一般用于清除标签的默认样式,如标签默认的外边距,内边距。标签选择器:使用标签名作为选择器,选中同名标签就设置为相同的样式,所以无法差异化的设置同名标签的显示效果。定义列表:dl嵌套dt和dd,dt是定义列表的标题,dd是定义列表的描述/详情。类选择器:通过类名来查找标签,可以差异化的设置标签的显示效果(.类名的方式)特点:一行可以显示多个,设置宽高属性生效,宽高尺寸也可以由内容撑开。特点:一行可以显示多个,设置宽高属性不生效,宽高尺寸由内容撑开。

2024-04-07 18:10:03 364

原创 2024-04-02(js)

1.将函数A作为参数传递给函数B,称A为回调函数2.插件:就是别人写好的一些代码,我们只需要复制对应的代码,就可以直接实现对应的效果3.js是一种单线程语言,同一时间只能做一件事4.js先执行完所有的同步任务,然后再按照顺序读取任务队列中的异步任务5.本地存储:基于网页的应用越来越普遍,同时也变得越来越复杂,为了满足各种需求,会经常性的在本地存储大量的数据,H5提出解决方案:1.数据存储在用户的浏览器中;2、设置读取方便,甚至刷新页面也不会丢失数据,3.容量也比较可以,sessionSto

2024-04-02 16:42:56 227

原创 2024-3-13,14(CSS)

通配符选择器 < 标签选择器 < 类选择器 < id选择器 < 行内选择器 子代选择器 {CSS属性},父子之间用>隔开。优先级:当一个标签使用了多种选择器时,基于不同种类的选择器的匹配规则。写法:父选择器 子选择器 {CSS属性},父子之间用空格隔开。相同的属性会覆盖:后面的CSS属性覆盖前面的CSS属性。:选中某个元素的子代元素(最近的儿子):选中某个元素的所有后代元素。

2024-03-14 09:26:19 480

原创 2024-03-11,12(HTML,CSS)

标签:dl嵌套dt和dd,dl是定义列表,dt是定义列表的标题,dd是定义列表的描述或者详情。dl里面只能由dt和dd,dt和dd里面可以有任何东西层叠样式表(Cascading Style Sheets,缩写为CSS),是一种样式表语言,用来描述HTML文档的呈现(美化内容)书写位置:title标签下方添加style双标签,style标签里面书写CSS代码CSS引入方式:内部样式表:学习使用:CSS代码写在<style>标签里面外部样式表:开发使用CSS代码写在单独的CSS文件中.css。

2024-03-12 17:51:55 852

原创 2024-03-05(反欺诈风控)

缺失值处理方法一般可分为:删除、统计值填充、统一值填充、前后向值填充、插值法填充、建模预测填充和具体分析7种方法。1.一般来说,未经处理的原始数据中通常会存在缺失值、离群值等,因此在。

2024-03-05 10:03:21 377

原创 2024-03-04(反欺诈风控)

当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。8.1)ID3:根据信息增益来得到一棵树,训练得到的是一棵庞大并且深度很浅的树---->不合理,非二叉树,仅分类。8.2)C4.5:根据信息增益率来替代信息增益得到一棵树,非二叉树,仅分类。基础特征构造,数据预处理,特征衍生,特征变换,特征筛选。3)选取合适的样本,并匹配出全部的信息作为特征的来源。

2024-03-04 17:32:06 390

原创 2024-03-01(金融AI行业与大数据生态圈)

逻辑回归:变量乘以系数再经过一个类似于sigmoid的函数。决策树的生成只考虑局部最优,剪枝考虑全局最优。线性回归:变量乘以系数。

2024-03-02 19:55:53 348

原创 2024-02-29(Flink)

on yarn版:每个TaskManager是一个JVM进程,为了控制一个TaskManager(worker)能接收多少task,Flink通过Task slot来进行控制。TaskSlot数量是用来限制一个TaskManager工作进程中可以同时运行多少个工作线程,TaskSlot是一个TaskManager中的最小资源分配单位,一个TaskManager中有多少个TaskSlot就意味着能支持多少并发的Task处理。前面的Task Slot跑完一些线程任务之后,Task Slot可以给其他线程任务使用

2024-02-29 16:46:03 1096

原创 2024-02-28(Kafka,Oozie,Flink)

Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。流处理的特点是无界、实时,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。在 Spark 生态体系中,对于批处理和流处理采用了不同的技术框架,

2024-02-28 17:14:21 912

原创 2024-02-27(Kafka)

安装kafka集群,可以测试如下: 创建一个topic主题(消息都是存放在topic中,类似mysql建表的过程) 基于kafka的内置测试生产者脚本来读取标准输入(键盘输入)的数据,并放入到topic中 基于kafka的内置测试消费者脚本来消费topic中的数据推荐在开发中使用kafka tool 浏览kafka集群节点,多少个topic,多少个分区 创建topic/删除topic 浏览Zookeeper中的数据Kafka

2024-02-27 17:45:21 1222

原创 2024-02-26(金融AI行业概览与大数据生态圈)

大部分的公司都使用的是反欺诈规则,这也是主要提倡的。因为所谓欺诈,就是一些黑产或者个人将自己包装成信用良好的用户,进行借款后失联或者拒不还钱,既然都伪装成了好客户,基于风控人员主观思考建立的统计模型,又怎么可能有好的效果,但是经过一段时间的实验,这一块其实用深度学习反而有意想不到的效果,基本思想可以理解为,简单评分卡解释性强,带来的坏处就是可以被逆向破解,而复杂模型的黑箱操作虽然解释性差,却有一定的安全性,尤其是搭配了在线学习等动态手段之后。这里主要的算法就是催收模型相关的,可能是监督、无监督算法。

2024-02-26 23:50:18 696

原创 2024-02-26(Spark,kafka)

1)SparkSQL和Hive都是用在大规模SQL分布式计算的计算框架,均可以运行在YARN上,在企业中被广泛应用。2)SparkSQL的数据抽象为:SchemaRDD(废弃),DataFrame(Python,R,Java,Scala),DataSet(Java,Scala)3)DataFrame同样是分布式数据集,有分区可以并行计算,和RDD不同的是,DataFrame中存储的数据结构是以表格形式组织的,方便进行SQL运算。

2024-02-26 15:20:54 1356 1

原创 2024-02-24(反欺诈风控场景入门随意了解)

1.第一方欺诈:我就是“我”,恶意骗贷2.第三方欺诈:我不是“我”,身份伪冒,盗用账户,团伙欺诈3.申请欺诈:身份伪冒,中介包装,黑产4.交易欺诈:账户盗用,养卡,套现。

2024-02-24 13:53:59 370

原创 2024-02-23(Spark)

使用场景:有时候一个Executor会处理多个分区数据,这些分区数据是接受相同的数据的,这个时候就不需要数据源一一给这些分区发一份分区数据了,只需要给这个Executor发一份数据就好,其所管辖的分区共享这份相同的数据。可以节约资源,降低IO,节约内存。1.Spark的算子十分丰富,MapReduce算子匮乏(Map和Reduce),MapReduce这个编程模型,很难在一套MR任务中处理复杂的任务,很多复杂的任务,是需要写多个MapReduce进行串联,多个MR串联通过磁盘交互数据。

2024-02-23 17:30:36 1115

原创 2024-02-22(Spark)

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变,可以分区,里面的元素可以并行计算的集合。Dataset:一个数据集合,用于存放数据的(本地集合是本进程集合,RDD是跨越机器的,因此RDD集合是跨进程集合)Distributed:RDD中的数据是分布式存储的,可用于分布式计算。(RDD的数据是跨越机器存储的/跨进程)Resilient:RDD中的数据可以存储在内存中或者磁盘中。

2024-02-22 17:38:54 1084

原创 2024-02-21(Spark)

4040:是一个运行的Application在运行的过程中临时绑定的端口,用以查看当前任务的状态。4040被占用会顺延到4041,4042等。4040是一个临时端口,当前程序运行完成后,4040就会被注销。4040和Driver相关联,一个Driver启动起来,一个4040端口就被绑定起来,并可以查看该程序的运行状态。8080:默认情况是StandAlone下,Master角色(进程)的WEB端口,用以查看当前Master(集群)的状态。(Driver和Master是两个东西,Master进程用于管理集群,

2024-02-21 16:30:58 1072

原创 2024-02-20(DataX,Spark)

Spark对任意的数据类型都能进行自定义的计算,Spark可以计算结构化,半结构化,非结构化等各种类型的数据结构,同时,还支持Python,Java,Scala,R以及SQL语言去开发应用程序计算数据。Spark仅作计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。核心SparkCore,SQL计算(SparkSQL),流计算(SparkStreaming),图计算(GraphX),机器学习(MLlib)

2024-02-20 17:18:08 1065

原创 2024-02-19(Flume,DataX)

DataX是阿里巴巴开源的一个。

2024-02-19 17:11:31 1030

原创 2024-02-08(Flume)

进行以上图片中的数据流向的流程(不同的搭配,组合),只需要在相应组件的配置文件中,配置好入口,出口,相关操作类型。场景:企业中应用程序部署后会将日志写入到文件中,我们可以使用Flume从各个日志文件将日志收集到日志中心以便于查找和分析。(也可以进行多日志文件的监控)可以将多个Flume agent程序连接在一起,其中一个agent的sink将数据发送到另一个agent的source。(我们只需要在对应的Source配置文件中配置好相关需求,组件就可以根据我们配置的内容去达到我们需要的要求)

2024-02-08 14:28:15 979

原创 2024-02-07(Sqoop,Flume)

Flume是一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理并写到各种数据接收方的能力。Flume的设计原理是基于数据流的,能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。Flume能够做到近似实时的推送,并且可以满足数据量是持续并且数量级很大的情况。

2024-02-07 17:43:29 1813

原创 2024-02-06(Sqoop)

在sqoop命令中,就是--query命令参数,实际上就是执行了一个sql语句。如果表的数据比较大,可以并行启动maptask执行导入操作,如果表没有主键,请指定根据哪个字段进行切分。从RDBMS导入到HDFS,表中的每一行视为HDFS的记录,所有的记录都存储为文本文件的文本数据。注意事项:命令携带的参数必须出现在同一行,若换行就意味着自动提交执行,可以通过"\"表示未结束。Sqoop可以理解为:SQL到Hadoop,Hadoop到SQL。Hadoop生态包括:HDFS,Hive,Hbase等。

2024-02-06 17:44:03 1093

原创 2024-02-05(Hive)

简单来说,就是借助BI工具,可以完成复杂的数据分析、数据统计等需求,为公司决策带来巨大的价值。通过ETL操作讲HDFS中的表进行数据清洗和过滤,生成新的表,然后利用BI工具,将新的表进行可视化展示。从一张表查询数据进行数据过滤和转换,并将结果写入到另外一张表中的操作,本质上就是一种简单的ETL行为。num(k|m|g):表示抽取num大小的数据,单位可以是k,m,g表示kb,mb,gb。从A抽取数据(E),进行数据转换过滤(T),将结果加载到B(L),就是ETL。y:表示将表数据随机划分为y份(y个桶)

2024-02-05 17:57:30 738

原创 2024-02-04(hive)

需要insert select触发MapReduce进行hash取模计算,来基于分桶列的值,确定哪一条数据进入到哪一个桶文件中。分区表可以极大的提高特定场景下Hive的操作性能。分区其实就是HDFS上的不同文件夹。分桶表本质上是数据分开在不同的文件中。选择一个字段作为分桶字段。可以选择字段作为表分区。分区和分桶可以同时使用。

2024-02-04 18:00:56 688

原创 2024-02-01(Hive)

外部表:删除数据的时候,仅仅删除元数据(表的信息),保留数据。用于临时链接外部数据用。3.Hive中创建的库和表的数据,存储在HDFS中,默认存放在:hdfs://node1:8020/user/hive/warehouse中。6.外部表:既可以先有数据后有表,又可以先有表后有数据。4.hive的数据库本质上在HDFS中就是一个文件夹,文件夹中存放了数据库中的相关信息,例如表等等。5.Hive中表的类型:内部表,外部表,分区表,分桶表。

2024-02-01 19:41:52 647

原创 2024-01-31(MapReduce,YARN)

资源:服务器的硬件资源,CPU,内存,硬盘,网络等。资源调度:管控服务器的硬件资源,提供更好的利用率。分布式资源调度:管控整个分布式服务器集群的全部资源,整合进行统一调度。

2024-01-31 17:29:02 1095

原创 2024-01-30(Hadoop_HDFS)

狭义(技术思维):使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。广义:大数据是数字化时代,信息化时代的基础(技术)支撑,以数据为生活赋能。大数据的核心工作:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。(海量数据存储、海量数据传输、海量数据计算)NFS就是Network File System的缩写,它最大的功能就是可以通过网络,让不同的机器、不同的操作系统可以共享彼此的文件。(通俗的说NFS服务器可以让PC将网络中的NFS服务器共享的目录挂载。

2024-01-30 16:56:06 1141

原创 2024-01-25(ElasticSearch)

4.ES是分布式的,并且会将数据切分开的存储到不同的服务器上。7.技术都是根据需求来的,业务场景的使用推动技术的发展。原理:服务端将搜索结果中的关键字用标签标记出来,然后在页面中给标签添加CSS样式。自动补全对字段的要求:类型是completion类型,字段值是多词条的数组。3.精确查询的值是不可分割的整体,所以可以采用精确查询来做。度量聚合:用来计算一些值,比如最大值,最小值,平均值等。1.ES中存储不是重要的,搜索查询功能才是ES的核心。,精确查询,地理查询,复合查询。常见的查询类型:查询所有,

2024-01-25 16:23:03 692

原创 2024-01-24(ElasticSearch)

增量修改:POST/索引库名/_update/文档id{"doc":{字段}}数字:long,integer,short,byte,double,float。全量修改:PUT/索引库名/_doc/文档id{json文档}底层是有一个中文字典,这个字典中的中文词汇也是可以拓展的和禁用某些词。创建文档:POST/索引库名/_doc/文档id{json文档}删除文档:DELETE/索引库名/_doc/文档id。查询文档:GET/索引库名/_doc/文档id。字符串:text,keyword。

2024-01-24 17:40:45 605

原创 2024-01-23(MongoDB&&ElasticSearch)

分片集群是一种跨多台机器分布数据的方法,MongoDB使用分片来支持具有非常大的数据集和高吞吐量操作的部署。换句话说:分片是指将数据拆分,将其分散存在不同的机器上的过程。将数据分散到不同机器上,不需要功能强大的大型计算机就可以存储更多的数据,处理更多的负载。

2024-01-23 16:11:30 611

原创 2024-01-22(MongoDB)

字段的数据类型是字符型,它的值除了使用基本的一些类型外,还可以包括其他文档、普通数组和文档数组。(1)单字段索引:MongoDB支持在文档的单个字段上创建用户定义的升序/降序索引,称之为单字段索引。①:admin:从权限的角度来看,这是‘root’数据库。Mongodb是一个开源的,、高性能、无模式的文档型数据库,当初的设计就是用于简化开发和方便扩展,是NoSQL数据库产品中的一种。它支持的数据结构非常松散,是一种类似于JSON的格式,叫BSON,所以它既可以存储比较复杂的数据类型,又很灵活。

2024-01-22 17:40:11 661

原创 2024-01-19(SpringCloud&ThreadLocal)

4.Springboot中Seater的XA模式采用starter做了很好的依赖封装,因此使用的时候只需要引入starter依赖,并在application.yml文件中写好配置(微服务的话在nacos的配置中心中配置),然后在给发起全局事务的入口方法添加。3.XA规范是一种分布式事务处理标准,XA规范描述了全局的TM与局部的RM之间的接口,几乎所有的主流的数据库都对XA规范提供了支持。,AT模式同样是分阶段提交的事务类型,不过弥补了XA模式中资源锁定周期过长的缺陷。get():获取当前线程绑定的变量。

2024-01-19 16:09:33 962 1

原创 2024-01-18(SpringCloud)

为什么要有bootstrap.yml配置文件,因为需要先执行nacos地址(之前写在springboot中的application.yml文件中),拉取了nacos中的配置文件信息后,辅助后续微服务的启动(它们的配置文件放在这的,所以需要bootstrap.yml,视为cloud项目所需要的一个先导文件吧):在分布式微服务系统中,如果一个业务需要多个服务的合作完成,而且每一个服务都有事务的要求,也就是说多个事务都必须同时成功或者失败,那么这样的事务就称之为分布式事务。这就是Sentinel持久化的目的。

2024-01-18 17:21:06 503 1

原创 2024-01-17(SpringCloud)

5.SpringCloud为我们封装好了实现网关功能的组件,不用我们实现网关的功能(身份校验,服务拉取,路由转发,负载均衡等),便于我们直接使用即可。如何做:配置网关过滤器,实现登录校验,网关传递用户,将用户身份认证得到的token放置到路由转发请求的请求头中(其他微服务提供服务时也需要验证用户身份)6.网关的请求转发:微服务向注册中心注册自己的信息,网关服务从注册中心拉取所有微服务的信息,当请求来临时,根据拉取的信息去分发请求到指定的微服务。4.网关:就是网络的关口,负责请求的转发、路由、身份校验。

2024-01-17 17:21:30 405

原创 2024-01-16(SpringCloud&Mybati)

在Springboot强大的自动装配和依赖管理的特性支持下,十分方便的将SpringCloud当中囊括的技术,整合到微服务项目开发当中。创业型项目,先采用单体项目,快速开发,快速试错。已经明确的大型项目,资金充足,目标明确,可以直接选择微服务架构,避免后续拆分的麻烦。来解决服务治理的问题:注册服务,采用何种算法(负载均衡)选择服务,心跳机制检查服务是否存活,推送最新的注册中心存活的服务。5.实际上,实体类一对一,实体类一对多,无外乎就是改变标签中书写的映射规则。

2024-01-16 20:12:59 859 1

原创 2024-01-15(SpringMVC&Mybatis)

但是框架就不一样了,因为框架内部已经写好了很多代码,我们只是在它的基础之上去添加一些代码,去控制框架,指挥框架,因此有一种“我们只写了一两行代码,但是它发挥出来的效果和之前写很多代码的效果一样”的感觉。如果handler中出现了异常,就会调用该方法,我们可以在resolveException方法中进行统一的异常处理。postHandler方法会在Handler方法(controller中的方法/不同url)执行之后进行,我们可以在其中对域中的数据进行修改,也可以修改要跳转的页面。

2024-01-15 17:28:33 910

原创 2024-01-12(SpringMVC)

10.SpringMVC中的类型转换器:虽然我们从请求中获取请求参数已经十分方便了,但是有时候还有一种情况,那就是例如我们想要把请求参数success=1的值赋给一个Boolean类型的变量,那么这个时候就涉及到类型转换了,就可以使用SpringMVC中的类型转换器。② 客户端使用GET,POST,PUT,DELETE4个表示操作方式的动词对服务端资源进行操作:GET用来获取资源,POST用来新建资源,PUT用来更新资源,DELETE用来删除资源。我们可以配置视图解析器,设置跳转路径的前缀和后缀。

2024-01-12 17:43:58 1057 1

原创 2024-01-11(Spring:主要AOP)

随后定义具体的增强方法,并使用@Before/@After/@Around注解告诉Spring容器这是一个具体的增强方法,并在注解中放入切点(表示:在切点所指明的哪些包中的所有方法的前/中/前&后进行某个具体的方法增强)18.事务传播行为(propagation):当事务方法嵌套调用时(例如两个需要事务的sql操作,其中一个成功了,另外一个失败了,但是我们希望失败的进行事务回滚,并且不要影响另外一个成功的sql操作),需要控制是否开启新事务,可以使用事务传播行为来控制。要求被代理(被增强)的类实现了接口。

2024-01-11 17:07:07 759

原创 2024-01-10(Spring注解)

1.Spring注解开发:为了简化xml对bean的配置,Spring也支持使用注解代替xml配置。使用方式:在xml中开启组件扫描。

2024-01-10 19:57:12 399 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除