草棚-CSDN博客

原创 spark环境搭建下---Spark集群搭建

本文接着上一篇的博客“spark环境搭建上---Hadoop集群搭建”进行。本文主要介绍scala以及spark的安装与搭建。七.scala安装1.下载我的安装的scala为scala-2.12.8https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.tgz2.安装参考scala安装在/opt目录下https...

2019-07-30 12:55:39 269

本文介绍的是在虚拟机中搭建的一个spark集群，该集群有三台虚拟机组成，一个主节点，两个从节点。主要涉及到的主要环节分为：VMware® Workstation 14 Pro安装、centos7安装、主机之间免密登录、java安装、hadoop安装、scala安装、spark安装。这里面主要介绍主机之间免密登录、java安装、hadoop安装、scala安装、spark安装。一.VMware®...

2019-07-21 15:38:56 550

原创联邦学习（Federated Learning）

联邦学习简介联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等...

2019-04-27 10:38:47 220977 11

原创 postgis常用函数实践

参照：https://note.youdao.com/share/index.html?id=baa8fff3251212023a179f2e85faacef&type=note#/PostGIS中的常用函数:https://www.w3cschool.cn/wqf_database/wqf_database-ip53284h.html官方文档：https://postgis.ne...

2018-07-14 12:18:15 4543

转载基于Milvus向量数据库的增删改查

MILVUS增删改查

2023-11-05 20:50:22 1651

转载大语言模型构建本地知识库用于问答

基于langchain+milvus+llm对本地知识库进行问答

2023-11-05 19:59:33 667

原创 windows安装向量数据库milvus

本篇文章介绍了向量数据库milvus安装，以及milvus图形化管理界面的安装

2023-09-05 23:18:55 4830 3

原创向量数据库 Milvus：实现高效向量搜索的技术解析

Milvus 作为一个开源的向量相似性搜索引擎，通过多种技术和策略实现了高效、灵活的向量搜索，已经在许多 AI 和机器学习应用中发挥着重要作用。

2023-08-23 22:27:56 2208

原创 python3打包成so

此博客是演示如何将python代码打包成so，防止python源码泄露，保证代码安全。以helloworld.py为例，将python打包成so。1.在/opt/目录下编写需要被编译的代码helloworld.py#!/usr/bin/env python# encoding: utf-8def hello(name): print("Hello %s!" % name)...

2019-11-03 11:34:43 6064 1

原创人工智能安全标准规范制定情况

人工智能安全、伦理、隐私保护等的安全相关标准，大多仍处于研究阶段。1.国外 IEEE正在开发人工智能伦理道德标准，规范人工智能安全设计。2017 年 3 月， IEEE 在《IEEE 机器人与自动化》杂志发表了名为“旨在推进人工智能和自治系统的伦理设计的 IEEE 全球倡议书”，倡议通过基于伦理的设计原则和标准帮助人们避免对人工智能技术的恐惧和盲目崇拜，从而推动人工智能技...

2019-11-03 10:37:19 507

原创 python日志组件

代码请见本人github：https://github.com/pengcao/medical_chatbot_kg/tree/master/utilimport loggingimport sys,osfrom logging.handlers import TimedRotatingFileHandlerclass Logger(object): """ 日志类...

2019-08-19 18:43:54 816

原创 neo4j---"10038; '在一个非套接字上尝试了一个操作。'; None; 10038; None"

在使用py2neo连接操作neo4j数据库的时候报出了如下的错误：AttributeError: 'NoneType' object has no attribute 'split'Failed to write data to connection ('127.0.0.1', 7687) (Address(host='127.0.0.1', port=7687)); ("10038; '...

2019-08-17 15:32:02 1244

原创差分隐私及应用

差分攻击差分攻击是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法的。差分攻击是针对对称分组加密算法提出的攻击方法，看起来是最有效的攻击DES的方法（之所以说看起来，是因为差分攻击需要很大的空间复杂度，实际上可能不如野蛮攻击具有可操作性）。2000年以前，差分攻击就被证明对MD5的一次循环是有效的，但对全部4次循环似乎难以奏效。但是随着对MD5研究的进展，情况...

2019-08-11 14:35:30 4365 2

原创 HE-Transformer（一种允许AI模型对加密数据进行操作的工具）

在加拿大蒙特利尔召开的NeurIPS 2018会议上，英特尔宣布推出开源HE-Transformer，这是一种允许AI系统对敏感数据进行操作的工具。它是nGraph，英特尔神经网络编译器的后端，基于简单加密算法库（SEAL），这是一个加密库，微软研究院开源软件。 HE允许对加密数据进行计算，允许用户获得有价值的见解，而不会有暴露底层数据的风险。使用HE，数据由用户控制，...

2019-08-11 11:16:30 1266

原创 WGS84、GCJ-02、BD-09、图吧坐标简介及坐标转换实现（java版）

1.定位系统及如何定位现在全球有四个卫星定位系统：美国的全球定位系统GPS（Global Positioning System）,俄罗斯的格洛纳斯GIONASS, 欧盟的伽利略系统，我国的北斗。每个系统都有几个部分：星载部分、控制部分、以及用户部分。每个卫星在运行中，发送电磁波信息、包含时间、位置等等，用户部分根据定位装置接收信号，然后进行方程解算，由于要更多...

2019-08-10 17:44:22 2524 3

转载深度学习中的隐私保护技术综述

摘要：如今机器学习以及深度学习在各个领域广泛应用，包括医疗领域、金融领域、网络安全领域等等。深度学习的首要任务在于数据收集，然而在数据收集的过程中就可能产生隐私泄露的风险，而隐私泄露将导致用户不再信任人工智能，将不利于人工智能的发展。本文总结了目前在深度学习中常见的隐私保护方法及研究现状，包括基于同态加密的隐私保护技术、差分隐私保护技术等等。1 研究背景1.1 隐私泄露风险 ...

2019-07-21 20:28:05 17044

原创虚拟机中安装好的centos不能上网

本文从问题的现状以及解决过程中问题查找以及问题解决进行描述，如下所示：1.ping www.baidu.com上网失败2.将虚拟机中安装好的centos网络设置成NAT3.重启网络发现重启失败报错有：“正在打开接口 ens33：错误：激活连接失败：No suitable device found for this connection”以及“Failed to start L...

2019-07-21 15:50:15 644

原创 MongoDB 地理索引

查询区域内的点db.<collection>.find( { <location field> : { $geoWithin : { $geometry : { type : "Polygon" , ...

2019-07-15 11:28:59 153

原创数据仓库-逻辑模型设计（粗讲）

逻辑建模能直接反映出业务部门的需求，同时对系统的物理实施有着重要的指导作用，它的作用在于可以通过实体和关系勾勒出企业的数据蓝图。数据仓库逻辑建模的内容主要有： 1.分析主题域　　在概念模型设计中，我们确定了几个基本的主题域，但是，数据仓库的设计方法是一个逐步求精的过程，在进行设计时，一般是一次一个主题或一次若干个主题地逐步完成的。所以，我们必须对概念模型设计步骤中确定的几个基...

2019-07-09 18:51:04 5380 1

翻译 XAI-可解释的人工智能

机器学习的巨大成功导致了大量的人工智能（AI）应用程序。持续的进步有望产生能够自我感知，学习，决定和行动的自主系统。然而，这些系统的有效性受到机器当前无法向人类用户解释其决策和行动的限制（上图）。国防部（DoD）面临着需要更智能，自主和共生系统的挑战。如果未来的战士能够理解，适当地信任并有效地管理新一代的人工智能机器合作伙伴，那么可解释的人工智能 - 特别是可解释的机器学...

2019-07-08 23:17:24 7830

转载 GyoiThon-基于机器学习的渗透测试工具

GyoiThon是一款基于机器学习的渗透测试工具。GyoiThon根据学习数据识别安装在Web服务器上的软件（操作系统，中间件，框架，CMS等）。之后，GyoiThon为已识别的软件执行有效的攻击。最终，GyoiThon会自动生成扫描结果报告。上述处理均由GyoiThon自动执行。流程如下所示：第1步：收集HTTP响应 GyoiThon在抓取时会收集目标网站的...

2019-07-07 14:58:48 914

原创数据仓库-建模方法

目前业界较为流行的数据仓库的建模方法非常多，每一种建模方法其实代表了哲学上的一个观点，代表了一种归纳，概括世界的一种方法。这里主要介绍范式建模法，维度建模法，实体建模法等几种方法，每种方法其实从本质上讲就是从不同的角度看我们业务中的问题。1. 范式建模法（Third Normal Form，3NF）范式建模法其实是我们在构建数据模型常用的一个方法，该方法的主要由...

2019-07-07 14:45:33 2357

原创数据仓库-物理模型设计

数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的实现模式。其中包括了逻辑模型中各种实体表的具体化，例如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。在进行物理模型的设计实现时，所考虑的因素有：I/O存取时间、空间利用率及维护的代价。为确定数据仓库的物理模型，设计人员必须做这样几方面工作：首先要全面了解所选用的数据库管理系统，特别是存储结构和存取方法；其...

2019-07-07 13:13:01 6980

原创数据仓库-建模详解和建模技巧

构建企业级数据仓库五步法1.确定主题　　即确定数据分析或前端展现的主题。例如：我们希望分析某年某月某一地区的啤酒销售情况，这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系，确定主题时要综合考虑。　　我们可以形象的将一个主题想象为一颗星星：统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合，来考察...

2019-07-07 13:06:03 1976

原创数据仓库-数据模型

一.什么是数据模型数据模型是抽象描述现实世界的一种工具和方法，是通过抽象的实体及实体之间联系的形式，来表示现实世界中事务的相互关系的一种映射。在这里，数据模型表现的抽象的是实体和实体之间的关系，通过对实体和实体之间关系的定义和描述，来表达实际的业务中具体的业务关系。数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型，一般的来说，我们数据仓库模...

2019-07-07 12:55:44 312

翻译自动化系统问题：算法偏差

关于自动驾驶汽车的担忧列表变得越来越长。除了担心他们是多么安全，他们如何处理道路上棘手的道德权衡，以及他们如何使交通变得更糟，我们还需要担心他们如何伤害有色人种。根据乔治亚理工学院的一项新研究，如果你是一个皮肤黝黑的人，你可能比白人朋友更容易受到自动驾驶汽车的打击。这是因为自动车辆可以更好地检测出肤色较浅的行人。该研究的作者首先提出了一个简单的问题...

2019-07-07 10:02:41 1879

翻译联邦学习如何在隐藏隐私的世界中塑造人工智能的未来

联邦学习不是从用户那里收集数据来训练数据集，而是大批量地在移动设备上训练AI模型，然后将这些学习转移回全局模型，而不需要数据离开设备。作为Facebook上个月流行的深度学习框架PyTorch的最新版本的一部分，该公司的AI研究小组推出了Secure and Private AI，这是一个免费的为期两个月的Udacity课程，讲授使用加密计算，差异隐私和联邦...

2019-07-07 09:54:10 520

转载以漫画的形式描述联邦学习

本文转载的是来自于Google联邦学习官方网站上的一个关于联邦学习的漫画，旨在共享和探讨联邦学习，故而转载该文。不足之处请大家指出，Thanks!由于图片显示不出来，故而附上原始的链接：https://federated.withgoogle.com/#top...

2019-06-30 11:21:44 1267

翻译对抗攻击的防御技术

目前针对对抗攻击的防御技术主要分三个方向：改训练过程/ 输入数据、修改网络、使用附加网络。一改训练过程/ 输入数据1.1 蛮力对抗训练通过不断输入新类型的对抗样本并执行对抗训练，从而不断提升网络的鲁棒性。为了保证有效性，该方法需要使用高强度的对抗样本，并且网络架构要有充足的表达能力。这种方法需要大量的训练数据，因而被称为蛮力对抗训练。很多文献中提到这种蛮力...

2019-06-30 11:14:16 3769

翻译 When deep learning meets security

深度学习是一个新兴的研究领域，已经证明了它在部署更多方面的有效性高效的智能系统。另一方面，安全是现代信息化建设中最重要的问题之一。最近很多论文都表明使用深度学习模型可以实现应用于安全领域。现对这些研究成果进行总结，本文总结了其中的9个应用如下所示：（1）Tobiyama提出一种基于进程行为进行恶意进程检测到方法，研究人员利用LSTM（Long Short-Term Me...

2019-06-30 10:39:08 427

原创人工智能安全标准规范制定情况

人工智能安全、伦理、隐私保护等的安全相关标准，大多仍处于研究阶段。国外 IEEE正在开发人工智能伦理道德标准，规范人工智能安全设计。2017 年 3 月， IEEE 在《IEEE 机器人与自动化》杂志发表了名为“旨在推进人工智能和自治系统的伦理设计的 IEEE 全球倡议书”，倡议通过基于伦理的设计原则和标准帮助人们避免对人工智能技术的恐惧和盲目崇拜，从而推动人...

2019-06-30 10:25:09 2396 1

原创 Python使用numpy的np.c_和np.r_实现数组转换成矩阵或数组之间进行连接

(1)创建2个数组a和b(2)使用np.c_实现按行转换成矩阵（在行上拼接）（3）使用np.r_实现按列转换成矩阵（两个数组进行堆叠）

2019-06-30 10:08:33 533

原创 AI安全---对抗攻击防御措施

目前，在对抗攻击防御上存在三个主要方向：1）在学习过程中修改训练过程或者修改的输入样本。2）修改网络，比如：添加更多层/子网络、改变损失/激活函数等。3）当分类未见过的样本时，用外部模型作为附加网络。1.改训练过程/ 输入数据1 蛮力对抗训练通过不断输入新类型的对抗样本并执行对抗训练，从而不断提升网络的鲁棒性。为了保证有效性，该方法需要使用高强度的对抗样本，并且网络架构要有充足的...

2019-06-02 14:33:06 3683

原创 Gradle 相同jar的不同版本存在于同一个项目中出错解决方案

错误如下图所示，httpclient与httpcore存在不同的版本，导致用到该jar的功能模块报错，主要的错误是，不能够识别到底该用哪一版本的class的方法图1解决方案【解决方案1】删除httpclient-4.2.3.jar删除httpclient-4.2.2.jar为什么删除这个版本的，主要是根据模块的jar需要用到哪一版本（当时是由于用阿里云的OSS）【...

2019-05-12 17:33:30 3487

原创 intellij +gradle构建web工程

准备工作本机安装好gradle 安装好java环境和IDEA 14 准备好tomcat 源代码：新建项目File->New->Project 选Gradle,再选中java,web Libraries,填写groupid等。再选择gradle路径（推荐的是wrapper），填好项目名字和路径新建项目的目录结构如下，点击View->...

2019-05-12 17:11:41 862

原创 osm转换shp

本文提供的方法是通过ArcGIS将osm文件转换成shp文件。1.前期准备1.1安装ArcGis下载链接：https://pan.baidu.com/s/1hyCRbm4hAjoxUSN2wdsDvw密码：af4h解压密码：malagis.com安装教程：https://malagis.com/arcgis-desktop-10-5-full-installation-t...

2018-07-21 23:43:30 16422 7

原创获取OSM数据，并通过osm2pgsql导入postgreSQL数据库

第一步.工具准备1.数据库postgreSQL去官网https://www.enterprisedb.com/downloads/postgres-postgresql-downloads下载　　　postgreSQL安装版，选择需要安装的版本，点击download now（有些较老的版本开发已经不再支持，建议尽量选取较高版本吧）2.安装数据库postgreSQL　 postg...

2018-07-04 22:31:56 9342 5

原创数据集成-Mule database insert数据乱码

如下所示添加参数：characterEncoding=utf8

2018-06-24 17:44:57 608

原创图像篇---Ubuntu下安装tesseract-ocr

linux 安装Tesseract-OCR1.安装对应的lib (install the libs)sudo apt-get install libpng12-devsudo apt-get install libjpeg62-devsudo apt-get install libtiff4-dev 其实本来还应该装这些的，只不过有些电脑自带有这些，还是装一下安全，反正如果装有的，会跳过的sud...

2018-06-24 17:38:07 2339

原创 react项目构建及入门实例

1.安装nodeJs2.安装Sublime Text3.在doc命令窗口下运行：npminstall-gcnpm--registry=https://registry.npm.taobao.org4.从git上下载***-source.rar5.在目录C:\develop\code\dss\Html\下创建项目的目录***6.进入***项目目录C:\develop\...

2018-06-24 17:28:01 720

基于数字信封应用的公文流转系统

从安全的角度，综合运用数字信封和数字签名，截取他们的优点，实现以下功能：1、应用USB-KEY进行身份的识别及防止钓鱼网站，这样在登陆的时候实现了身份的双重认证；2、每次文件地发送，都能随机生成一个会话会话密钥对需要发送的文件进行加密；3、能够实现群组发送文件；4、用证书对生成的会话密钥进行加解封；5、对文件进行签名，实现不可抵赖性；6、对文件生成消息摘要从而保证文件的完整性。从而保证了公文流转的效率及公文的信息完整性、不可窜改性、机密性和不可抵赖性

2023-08-23

mondrian源码分析报告

Mondrian是一个开放源代码的Rolap服务器，使用java开发的。它实现了xmla和jolap规范，而且自定义了一种使用mdx语言的客户端接口。Mondrian是olap服务器，而不是数据仓库服务器，因此Mondrian的元数据主要包括olap建模的元数据，不包括从外部数据源到数据库转换的元数据。也就是说Mondria的元数据仅仅包括了多维逻辑模型，从关系型数据库到多维逻辑模型的映射，存取权限等信息。在功能上，Mondrian支持共享维和成员计算，支持星型模型和雪花模型的功能。

2023-08-23