自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(240)
  • 问答 (1)
  • 收藏
  • 关注

原创 通俗易懂了解大语言模型LLM发展历程

2方面,1方面是面向生命科学,了解和学习人最自然的知识和本性;另一方面是面向行业,例如下面是天猫精灵团队为了让回复更加先得有温度,请了社会,心理专家面对敏感问题打的标签。

2023-09-23 14:58:11 2074

原创 纵观AI-模型发展脑图

2023-09-22 16:37:24 124

原创 计算神经网络内存占用

如果layer.count_params()或者model.summary()权重参数个数为负数的可以参考:彻底解决keras model.summary()或者layer.count_params()权重参数个数为负数问题举两个例子,一张(1024,1024,3)的图片,分别使用VGGNet,DenseNet网络。一.VGGNet内存消耗计算'''Created on 2018年9月3...

2018-10-08 16:34:21 9346 3

原创 深度学习语言模型(3)-word2vec负采样(Negative Sampling) 模型(keras版本)

代码参考了:https://spaces.ac.cn/archives/4515但他采用的是随机采样,我这里采用的是负采样,但还是有一些细节没有去实现,但大体框架就这样# coding=utf-8'''Created on 2018年9月15日@author: admin'''from gensim import corpora, models, similaritiesimp...

2018-09-19 21:17:01 2910

原创 对抗生成网络Gan变体集合 keras版本

1.深度学习Gan学习笔记,keras版 2.深度学习DCGan学习笔记,keras版 3.深度学习ACGan学习笔记,keras版

2018-09-05 18:32:40 1343

原创 faster RCNN(keras版本)代码讲解(1)-概述

faster RCNN(keras版本)代码讲解博客索引: 1.faster RCNN(keras版本)代码讲解(1)-概述 2.faster RCNN(keras版本)代码讲解(2)-数据准备 3.faster RCNN(keras版本)代码讲解(3)-训练流程详情 4.faster RCNN(keras版本)代码讲解(4)-共享卷积层详情 5.faster RCNN(keras版本)...

2018-07-11 17:22:28 10459 10

原创 常见的神经网络模型 AlexNet,VGGNet,GoogleNet,resNet,inceptionV3,Inception-v4,xception等论文下载链接

LeNet 1986 AlexNet 2012 http://pan.baidu.com/s/1NpEG2 VGGNet 2014 https://arxiv.org/pdf/1409.1556.pdf 6.8% test error GoogleNet(inception v1) 2014 http://arxiv.org/pdf/1409.4842v1.pdf Going Deeper ...

2018-05-22 22:12:14 1982 3

原创 神经网络通俗讲,麻瓜变大神(一)-初识神经网络

系列目录: 神经网络通俗讲,麻瓜变大神(一)-初识神经网络 神经网络通俗讲,麻瓜变大神(二)-解释非线性理解神经网络,我们就从一个例子开始吧,该例子输入5个特征,然后输出这个人是美还是丑: 该神经网络结构包含三层,分别为: 1.输入层(input):5个特征,分别表示皮肤颜色,身高,体重,脸型,臀。 2.隐藏层(hidden):100个神经元,w1(5,100),可以理解为有10...

2018-04-07 16:17:35 2186

原创 数据预处理pandas pd.json_normalize占用内存过大优化

从ES下载数据,数据格式为json,然后由pandas进行解析,json中的嵌套字段会进行展开作为列名(由于维度初期无法预测,所以根据数据有啥列就使用啥列,这是最方便的点),变成表格,方面了后续的处理,但在使用过程却发现原本6.xG的数据量在解析,预处理时候会变成60多G,甚至80G的内存占用,资源难以满足。

2023-11-21 10:11:26 318

原创 Flink1.13.x+iceberg环境搭建

1.安装hadooptar -zxvf hadoop-2.10.1.tar.gz配置JDK和Hadoop环境变量vi /etc/profileexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64export PATH=$PATH:$JAVA_HOME/binexport HADOOP_HOME=/home/hadoop-2.10.1export HADOOP_CONF_DIR=/home/ha

2022-05-27 11:20:33 946 2

原创 Java基础编码规范

1.布局1.1顺序(1)在一个类中,布局顺序一次是:变量,构造器,方法,内部类,main(2)类中变量/方法的布局顺序:public static,public,protected.package,private(3)构造器多个时,参数少在前,参数多在后(4)函数重载要集中在一起声明1.2高度(1)每行只有一个句子(2)方法不要超过一屏幕(20-50行)1.3宽度(1)每行不能超过120个字符,对于超过120个字符需要断行缩进(2)方法入参小于5个1.4深度(1)方法圈复杂度小于5

2022-05-27 10:32:28 547

原创 Security Onion安全洋葱2.X-架构概述

1.流量探针如下图为安全洋葱流量探针,Stenographer为全量pcap包获取,Zeek(bro)和Suricata为流量分析,输出meta元数据(flow流信息等)和告警日志2.安全洋葱分析组件(1)soc为安全洋葱的web管理界面(2)Hunt为基于ES的查询界面,支持ES的查询,关联分析也在这里,但是关联分析做得很浅,只是通过Community ID, log.uid, fuid进行关联,相当于flowid关联(3)Kibana基于ES为后端数据库的查询Web界面,提供了很多表盘,性能

2022-03-12 10:29:01 6065

原创 推荐系统模型的实时性

模型的实时性与模型的训练方式紧密相关,模型的实时性由弱到强的训练方式分别是全量更新,增量更新和在线学习。1.全量更新模型在某个时间段内所有训练样本进行训练,全量更新是最常用的训练方式2.增量更新增量更新仅将新加入的样本“喂”给模型进行增量训练,从技术上讲,深度学习模型往往采用随机梯度下降SGD法及其变种进行学习,缺点是增量更新的模型往往无法找到全局最优点,因此在实际的推荐系统中,经常采用增量更新与全局更新结合的方式,在进行了几轮增量更新后,在业务量较小的时间窗口进行全局更新。3.在线学习是进行模

2022-01-26 11:57:11 2933

原创 Embedding在推荐系统中的应用

1.Word2vec经典的Embedding算法2.Item2vec微软于2016年提出计算物品Embedding向量方法Item2vec,先比于利用Word2vec利用“词序列”生成词Embedding,Item2vec利用的“物品序列”,是由特定用户的浏览,购买等行为产生的历史行为记录序列,Item2vec与Word2vec唯一不同在于,Item2vec摒弃了时间窗口的概念,认为序列中任意两个物品都相关。3.GraphEmbeddingItem2vec方法也有局限性,因为只能利用序列型数据,所以

2022-01-25 17:36:54 319

原创 推荐系统的发展历程

1.协同过滤算法(Collaborative Filtering,CF)对于协同过滤的研究可以追溯到1992年,Xerox的研究中心开发了一种基于协同过滤的邮件筛选系统,用以过滤一些用户不感兴趣的无用邮件。协同过滤在互联网大放异彩源于互联网电商巨头Amazon,2003年,Amazon发表论文Amazon.com Recimmenders Item-to-Item Collaborative Filtering.简单描述,目前有一些用户对商品的评价信息,那么如何给用户推荐产品,例如用户D,是否会喜欢商品

2022-01-14 10:42:03 3149

原创 CICFlowMeter工具使用

目前CICFlowMeter主要有3个版本(1)CICFlowMeter-4.0.zip,可执行版本,不要编译等,但提取生成流有问题,比如一个完整的ssh会话应该生成一条流信息,但这个工具却生成了2条流信息,识别fin包的时候存在问题(2)CICFlowMeter-python版本,python setup install后可以使用,使用python3.7和3.8进行尝试运行过程中都存在问题,且生成的流特征中的TCP flag存在问题(3)CICFlowMeter-java版本,这个版本目前没有问题,

2021-10-30 12:09:13 3916 4

原创 Flink教程-安装(一)

一.下载https://flink.apache.org/downloads.html二.解压tar -zxvf flink-1.12.4-bin-scala_2.11.tgz三.配置环境变量vi /etc/profile在末尾填上export FLNK_HOME=/home/flink-1.12.4export PATH=$FLINK_HOME/bin:$PATH四.启动Flinkcd /home/flink-1.12.4/bin./start-cluster.sh启动后使用jp

2021-05-27 20:18:01 1240

原创 Spark教程-Spark安装单机模式(一)

1.下载安装包http://spark.apache.org/downloads.html2.解压缩tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz3.配置mastercp spark-env.sh.template spark-env.shvi spark-env.sh在文件中添加export SPARK_MASTER_HOST=192.168.5.1504.配置slavesslaves现在就主机一台,默认localhost5.配置jdk环境cd s

2021-05-26 15:12:38 699

原创 Hadoop(二)-Hive安装

事先装好Hadoop1.下载Hivehttps://mirrors.bfsu.edu.cn/apache/hive/这里下载apache-hive-2.3.8-bin.tar.gz2.解压安装包tar -xzvf apache-hive-2.3.8-bin.tar.gz3.配置环境变量vi /etc/profileexport JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64export PATH

2021-05-07 17:05:30 338

原创 Hadoop(一)-hadoop安装

1.下载二进制安装包https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz2.下载后解压tar -zxvf hadoop-2.10.1.tar.gz3.配置JDK和Hadoop环境变量vi /etc/profile,新增以下:export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.232.b09-0.el7_7.x86_64

2021-05-07 16:51:35 208

原创 orientdb教程(9)-LinkList object使用索引

LinkList object索引使用方式如下表结构如下:

2021-04-20 19:34:01 212

原创 orientdb教程(8)-embedded object使用索引

版本3.0.30,在版本3.1.x使用这种方式后台会异常在Orientdb中使用的字段属性使用embedded类型并link class,如下:如果需要对link class中的字段使用索引,在当前class上需要添加额外的字段,比如class info中有title,time两个字段,则:然后再创建传统索引:但是使用explain来看查询的时候,发现并没有使用索引,是个bug,但通过查询index的key的时候发现其实已经构建了索引,但又没有像mysql一样可以使用force index(x

2021-04-08 10:20:31 316

原创 kafka按照时间查询记录

本质是重新开始消费,逐条按时间比较–from-beginning //表示重头开始读–property print.timestamp=true //表示显示入kafka时间使用awk对消费出来的记录进行筛选过滤,比如以下表示对每条消费记录按照“CreateTime:“或者”\t“进行分割,$0表示原始的记录,$1表示分割后的第1个字符串,以下$2为分割后的第二字符串,为入kafka的时间./kafka-console-consumer.sh --topic com.zte.asset.collec

2021-03-09 09:27:02 6436

原创 java 解决tar.gz压缩中文乱码

使用以下包进行tar打包的时候,如果被压缩的文件包含中文,那么压缩后会出现中文乱码import org.apache.commons.compress.archivers.tar.TarArchiveEntry;import org.apache.commons.compress.archivers.tar.TarArchiveOutputStream;import org.apache.commons.compress.utils.IOUtils;解决方法,使用ant:import org.a

2021-01-29 16:40:59 2837

原创 orientdb教程(7)-springboot+mybatis使用

和一般mysql只需改动以下即可,其它mybatis,mapper,dao等都照旧pom.xml<dependency> <groupId>com.orientechnologies</groupId> <artifactId>orientdb-jdbc</artifactId> <version>3.0.30</version></dependency><dependency> &l

2020-11-14 16:44:07 503

原创 orientdb教程(6)-JDBC使用

pom.xml<dependency> <groupId>com.orientechnologies</groupId> <artifactId>orientdb-jdbc</artifactId> <version>3.0.30</version></dependency>例子:import java.sql.Connection;import java.sql.DriverManager;

2020-11-14 16:37:06 339

原创 orientdb教程(5)-Object API使用

import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;import java.util.Map;import java.util.Random;import org.apache.commons.lang.RandomStringUtils;import org.springframework.beans.factory.annotation.Autowired;import co.

2020-11-14 16:15:34 237

原创 orientdb教程(4)-Tinkerpop-gremlin-java简单应用

参考:https://github.com/orientechnologies/orientdb-gremlin/tree/3.0.x/server/src/test/java/com/orientechnologies/tinkerpoporientdb会基于gremlin框架风格进行功能扩展开发,但是这并不能用在移植上,所以一般应该会有使用纯gremlin开发和orintdb-gremlin两种。一.构建图使用orientdb-gremlinimport org.apache.tinkerpop

2020-10-29 19:21:45 1118

原创 orientdb教程(3)-Tinkerpop支持

一.Tinkerpop基本概念Apache TinkerPop是一个由Apache软件基金会维护的独立于具体图数据库厂商的开源图计算框架。TinkerPop框架的核心是Gremlin图遍历语言,也就是如果图数据库支持tinkerpop框架,那么就可以直接使用Gremlin进行查询遍历,从而达到一种语言通吃所有图数据库。http://tinkerpop.apache.org/docs/current/reference/二.Tinkerpop版本目前Tinkerpop3主要由2.x和3.x版本,而且两

2020-10-29 19:07:11 527

原创 orientdb教程(2)-orientdb基本概念

文档地址:http://www.orientdb.org/docs/2.0/orientdb.wiki/Tutorial-Record-ID.html1.数据库orintdb支持4种数据类型,并且都有它们独有的引擎,而不是简单的封装一层接口API。支持的创建数据库类型:(1)图数据库(2)文档数据库(3)键值数据库(4)对象数据库2.表与字段在关系数据库mysql中,数据库下来后是表,在orientdb使用classes(类)来代替表,classes的属性就是字段.例如Student表,字

2020-10-29 19:06:12 1522

原创 orientdb教程(1)-orientdb安装

1.下载地址http://www.orientdb.org/2.安装orientdb(1)解压安装包tar -zxvf orientdb-3.0.15.tar.gz(2)进入bin目录,运行server.shcd orientdb-3.0.15/bin./server.sh第一次运行会需要设置密码,设置密码后就可以了,开启后访问http://192.168.1.110:2480...

2020-10-16 14:53:21 726 2

原创 Spring boot2.0 入门(十二)-xlsx表格下载与上传(导入)

xlsx工具包用JavaPOI导出Excel时,需要考虑Excel版本及数据量的问题。针对不同的Excel版本,要采用不同的工具类,否则出现错误信息。**HSSFWorkbook:**操作Excel2003以前(包括2003)的版本,扩展名是.xls,行最多65536。**XSSFWorkbook:**操作Excel2007的版本,扩展名是.xlsx,行最多104万行**SXSSFWorkbook:**从POI 3.8版本开始,提供了一种基于XSSF的低内存占用的SXSSF方式。pom.xml&

2020-05-24 21:21:38 469

原创 Spring boot2.0 入门(十一)-RestTemplate使用https访问

package com.zte.apt.ZXAPTDS_Agent.utils;import java.io.IOException;import java.net.HttpURLConnection;import java.net.InetAddress;import java.net.Socket;import java.security.cert.X509Certificate;...

2020-03-24 10:45:50 1024 1

原创 Spring boot2.0 入门(十)-定时器

springboot定时器用起来很简单,都是自带的,直接上代码,看就会,这里介绍常用的:1.在配置中设置好定时器的参数,启动后无法修改2.自由(动态)对定时器启停和控制定时参数1.在配置中设置好定时器的参数,启动后无法修改先在application.yml文件中配置定时时间:commom1:每分钟执行一次comcom2:每天凌晨1点执行cron: commom1: 0 0...

2020-03-23 20:06:24 263

原创 ES,Kibana 定时汇聚rollup使用

数据:https://blog.csdn.net/u011311291/article/details/103336692设置定时任务每30秒执行一次,按1年汇聚,并按sex进行group by,求合和最大值,最后将结果存放到rollup_class这个index中PUT _rollup/job/rollupclass{ "index_pattern": "class*", ...

2020-03-22 16:11:59 2435

原创 java 使用shell top命令查看指定进程CPU和内存使用情况

注意:1.如果pro.waitFor()返回1,j即使根据java文档,是operation not permited,但其实基本就是写的shell命令有问题,有时候在linux上可以执行,但放到了java shell中还不是不能执行,比如top命令,要多加个-b才能执行。2.有时候对于不太活跃的进程进行top命令,会经常得到CPU使用率0,其实可以多次top后再平均。import java...

2020-03-19 18:45:51 1755

原创 解决kibana 7.x Visiable Vega多次聚合显示问题

Vega可以使用以下链接进行调试:https://vega.github.io/editor/#/edited数据{ "$schema": "https://vega.github.io/schema/vega-lite/v4.json", "data": { "values": [ {"buckets":[ {"key": "2012-11-01...

2020-03-09 22:51:50 802

原创 kibana 7.x Visiable Vega使用

一.数据https://blog.csdn.net/u011311291/article/details/104762380二.使用Vega构建视图统计男人各个年龄段的人数{ "$schema": "https://vega.github.io/schema/vega-lite/v2.json", "title": "Event counts from all indexes",...

2020-03-09 22:39:36 1211

原创 kibana 7.x Visiable使用

一.数据:PUT class_01{ "mappings": { "students": { "properties": { "age": { "type": "long" }, "birthday": { "type": "date" ...

2020-03-09 22:21:47 686

原创 Suricata高性能配置

一.Suricata对包的规则检测1.为了高性能,将规则按照一定算法分很多组(例如如果出现带有UDP协议的数据包,则不需要TCP协议的所有签名)2.更多的分组有用更高的性能,但占用更多的内存,默认配置选项detect: profile: medium custom-values: toclient-groups: 2 toserver-groups: 25 sgh...

2020-03-05 10:21:50 6056 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除