- 博客(85)
- 资源 (2)
- 收藏
- 关注
原创 数据挖掘概念与技术(第三版)课后答案——第五章
5.6在计算(a)每个基本单元生成个聚合单元。(例如,我们减去1,因为(a1,a2,a3,...,a100)不是聚合单元,是基本单元。)因此,两个基本单元生成个聚合单元,但是,这些单元中有4个是记录2次。这四个单元分别是(a1,a2,∗,...,∗),(a1,∗,...,∗),(∗,a2,∗,...,∗)和(∗,∗,.. 。,∗)。 因此,产生的非空聚集单元总数为个。(b)总共4个,分别为:{(a1,a2,∗,...,∗), (a1,∗,∗,...,∗), (∗,a2,∗,...,∗), (∗,∗
2020-07-10 19:40:05 9269 20
原创 数据挖掘概念与技术(第三版)课后答案——第四章
=============需要原版答案请留言!!==============4.1 试述多个异构信息源的集成,为什么许多公司更喜欢更新驱动的方法(构造和使用数据仓库),而不是查询驱动的方法(适用包装器和集成器)。 描述查询驱动的方法比更新驱动的方法更可取的情况。对于决策查询和经常问到的查询,更新驱动的方法更为可取。这是因为昂贵的数据集成和聚合计算是在查询处理时间之前完成的。为了将在多个异构数据库中收集的数据用于决策过程,必须分析和解决多个数据库之间的任何语义异构问题,以便可以对数据进行集成和汇总。
2020-07-08 15:45:27 17946 235
原创 数据挖掘概念与技术(第三版)课后答案——第三章
=============需要原版答案请留言!!==============3.1 数据质量可以从多方面评估,包括准确性、完整性、一致性问题。提出其他两个方面的数据质量。准确性:对于一些需要进行精准营销的商品,比如蛋糕店的生日蛋糕、孕妇必备物品等,以上这些商品则需要数据的准确性。完整性:如果要对某宝、某东或者某宁的买家信息进行一个数据挖掘,从而用来营销其他东西,比如要对地址进行挖掘,此时详细、完整的地址数据则是一个必备的特性。一致性问题:由于某些不可抗因素而导致的数据不一致,比如技术问题.
2020-07-03 23:30:30 30551 222
原创 数据挖掘概念与技术(第三版)课后答案——第二章
=============================需要原版答案请留言!!!======================================2.1 再给三个用于数据散布特征的常用统计量(即未在本章讨论过的),并讨论如何在大型数据库中有效的计算它们。1.异众比率(variation ratio):用Vr表示,其定义为:,其中∑fi表示变量值的总频数,∑fm表示众数组的频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比越大,说明非众数组的频数占总频数的比重越大,众数的代
2020-06-28 16:30:50 22678 34
原创 数据挖掘概念与技术(第三版)课后答案——第一章
1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一种广告宣传吗?(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。答:数据挖掘不是一种广告宣传,它是一个应用驱动的领域,数据挖掘吸纳了诸如统计学习、机器学
2020-06-24 15:27:57 10433 19
原创 连接HBase:Caused by: java.net.UnknownHostException: node101
Caused by: java.net.UnknownHostException: node101
2022-06-21 15:54:36 395
原创 hbase连接报错:java.lang.NoClassDefFoundError: org/htrace/Trace
hbase连接报错:java.lang.NoClassDefFoundError: org/htrace/Trace
2022-06-21 15:51:09 306
原创 自回归语言模型(Autoregressive LM)& 自编码语言模型(Autoencoder LM)
自回归语言模型(Autoregressive LM)简单的说,Autoregressive 就是根据上文预测下文或者根据下文预测上文,典型的代表:GPT ,其他代表ELMO等。缺点:只能利用上文或者下文的信息,不能同时利用上文和下文的信息自编码语言模型(Autoencoder LM)Autoencoder 是根据上下文语境来进行预测,典型的代表:BERT。缺点:输入时引入[Mask]标记,导致Train阶段和Fine-tuning阶段不一致的问题。...
2021-09-09 09:14:26 2290
原创 Python操作Excel
1. openpyxl操作xlsx文件 def excel_with_openpyxl(self, file_path): # 读取excel文件对象 read_workbook = openpyxl.load_workbook(file_path) read_worksheet = read_workbook.worksheets[0] # 写入excel文件对象 write_workbook = openpyxl.W
2021-08-23 09:40:42 275
原创 如何区分Recurrent Neural Network(循环神经网络)和Recursive Neural Network(递归神经网络)
Recurrent networks (Elman, 1990) are designed to model sequences, while recursive networks (Goller & Küchler, 1996) are generalizations of recurrent networks that can handle trees.—Yoav Goldberg 《A Primer on Neural Network Models for Natural Language.
2021-08-16 11:17:22 588
原创 Pycharm上登陆GItHub报错:“invalid authentication data. 404 Not Found”
在浏览器登陆GitHub,依次点击【头像】-【setting】-【Developer settings】-【Personal access token】-【填写”New personal access token“页面信息】-【Generate token】-【复制token】-【在pycharm上使用token方式登陆】最终操作完成界面,如下图。...
2021-08-05 10:13:31 2760 1
原创 ImportError: cannot import name ‘SAVE_STATE_WARNING‘ from ‘torch.optim.lr_sc
在使用LTP4时安装遇到的问题,问题描述:ImportError: cannot import name 'SAVE_STATE_WARNING' from 'torch.optim.lr_sc解决方法:默认安装的torch版本是1.8版本,降低torch的版本为1.7.1即可。
2021-05-23 14:07:09 3864 2
原创 python代码查看GPU
1.安装pynvmlpip install nvidia-ml-py2.输入下面代码import pynvmlpynvml.nvmlInit()handle = pynvml.nvmlDeviceGetHandleByIndex(0)# 这里的0是GPU idmeminfo = pynvml.nvmlDeviceGetMemoryInfo(handle)print(meminfo.total/1024/1024) print(meminfo.used/1024/1024)prin
2021-04-14 07:54:07 1251 1
原创 module ‘tensorflow‘ has no attribute ‘optimizers‘
问题描述module 'tensorflow' has no attribute 'optimizers'解决方法将tensorflow.optimizers.xx改为tensorflow.keras.optimizers.xxx
2021-04-11 22:36:02 3153
原创 运行BERT时llegalFlagValueError: flag --data_dir=None: Flag --data_dir must have a value other than None
问题描述llegalFlagValueError: flag --data_dir=None: Flag --data_dir must have a value other than None解决方法复制官方给的命令行参数时,不需要后面的"\",在PyCharm中配置运行参数格式如下
2021-04-11 21:46:23 1538 1
原创 AttributeError: partially initialized module ‘jieba‘ has no attribute ‘cut‘
问题描述:AttributeError: partially initialized module 'jieba' has no attribute 'cut' (most likely due to a circular import)出现原因:py文件或者模块名以“jieba” 进行命名了。解决方法:修改文件名和模块名
2021-04-01 19:28:08 2204 1
原创 iterations、epochs & batch_size 那点事
Batch_Size:representing the number of consecutive elements of this dataset to combine in a single batch.表示每次需要训练数据的个数。epochs:An epoch is an iteration over the entire `x` and `y` data provided.表示数据集需要被训练的次数。设:数据集总数为Totaliterations:一次epoch需要迭.
2021-03-09 20:04:24 150
原创 深度学习里的ablation experiment?
术语解释:“消融研究”通常用于神经网络,尤其是复杂的神经网络,如R-CNN。我们的想法是通过删除部分网络并研究网络的性能来了解网络。通俗的理解:你朋友说你今天的样子很帅,你想知道发型、上衣和裤子分别起了多大的作用,于是你换了几个发型,你朋友说还是挺帅的,你又换了件上衣,你朋友说不帅了,看来这件衣服还挺重要的。...
2021-01-19 10:06:36 372
原创 CNN中的Receptive Field
通俗的说,感受野就是输入图像对这一层输出的神经元的影响有多大。形象的说,就是你的曾曾曾曾曾爷爷对他的后代们有多少影响这么一个概念。所以影响大不一定好,也许会带来用不着的糟粕。影响小也会阻碍后代学习传统知识。第一层的Receptive Field为Kernel Size第二层开始计算公式:RF = Kernel Size + Stride * (pre_RF - 1),其中RF当前层的Receptive Field,pre_RF是前一层Receptive Field,Kernel Size为...
2021-01-17 16:31:39 188
原创 end-to-end training
stage-wise manner:传统的图像识别问题往往通过分治法将其分解为预处理,特征提取和选择,分类器设计等若干步骤。分治法的动机是将图像识别的母问题分解为简单、可控且清晰的若干小的子问题。不过分步解决子问题时,尽管可以在子问题上得到最优解,但子问题上的最优解并不意味着就能得到全局问题的最后解。end-to-end training:深度学习提供了一种端到端的学习范式,整个学习的流程并不进行人为的子问题划分,而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。 ...
2021-01-17 14:17:40 561
原创 关于迁移学习(Transfer Learning)&&Pre-trained Convolutional Neural Network那点事
Why?在生活中,大部分数据或任务是存在相关性的,所以通过迁移学习可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率,而不用像大多数网络那样从零学习,毕竟日常从零开始训练网络花销太大。什么是微调(Fine Tuned)?如何选择?...
2021-01-13 23:11:57 350
原创 下载顶刊的期刊的那点事
链接: DBLP操作如下图,点击【browse】选择【journals】,接着可以按照首字母检索,例如【TPAMI】,点击进去【1981-2021】都在里面了计算机各个领域的顶会和顶刊领域 顶会 顶刊 计算机视觉 CVPR: International Conference on Computer Vision and Pattern Recognition TPAMI: IEEE Trans on Pattern Analysis and Machine..
2021-01-10 23:07:57 457
原创 关于expand_dims()那点事
常用作用:向单个元素添加外部“批处理”维度。 对齐轴以进行广播。 向标量张量添加内部向量长度轴。实例:如果您有一个形状为“[height, width, channels]”的图像:(注:channels为通道个数)image = tf.zeros([10,10,3])(注:在深度学习中,轴,指的就是张量的层级,一般通过参数axis/dim来设定。) >>> tf.expand_dims(image, axis=1).shape.as_list()..
2021-01-09 11:49:48 650
原创 RuntimeError: `loss` passed to Optimizer.compute_gradients should be a funct
问题描述:在使用tensorflow时,RuntimeError: `loss` passed to Optimizer.compute_gradients should be a funct原来代码:train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)改正代码:train = tf.compat.v1.train.GradientDescentOptimizer(0.01).minimize(cost)..
2020-12-17 10:06:30 2642
原创 windows无法访问Linux的端口
1.关闭防火墙 || 永久关闭防火墙systemctl stop firewalld.service || systemctl disable firewalld``2.关闭SELinux```bashvi /etc/selinux/configSELINUX=disabled # 此处将SELINUX=enforcing改为SELINUX=disabled注:关闭SELinux需要重启生效...
2020-12-08 20:33:02 1601 2
原创 大数据之旅——CentOS安装JDK(压缩文件版本)
1.使用WinScp软件将JDK压缩包上传至Linux中;2.解压命令如下tar -zxvf 【文件名.tar.gz】# 注:其他解压命令tar -xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2 //解压 tar.bz2tar -xZvf file.tar.Z //解压tar.Zunrar e file.rar //解压rarunzip file.zip
2020-12-07 12:24:35 93
原创 hadoop集群运行WordCount案例
1.在Hadoop根目录创建目录hdfs dfs -mkdir -p /cpm/input2.上传文件到/cpm/inputhdfs dfs -put [文件目录,如./test.txt] /cpm/input/3. 在Hadoop根目录运行Word Count程序hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar wordcount [刚刚上传的文件路径,如/cpm/test.txt] [输
2020-11-17 19:31:00 415
原创 MatlabR2018b安装菲尔德遗传算法工具箱(sheffield)详细教程
1.下载工具箱链接:https://pan.baidu.com/s/1w21B8592qoBXEkLVfiPsMQ提取码:mibi复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V5的分享2.打开matlab, 按照图片中箭头指向操作即可:主页》》设置路径》》添加文件》》保存》》关闭。3.测试,输入:v= ver("gatbx")显示如下:v = 包含以下字段的 struct: Name: 'Genetic Algorithm...
2020-10-28 08:45:58 4000 15
原创 MatLab之@
举个栗子:fplot(@(t)cos(t),[0,10],'b')fplot():精确绘图函数@(t):起到匿名函数声明的作用,在这个例子中说明该匿名函数有一个函数变量,及声明cos(t)匿名函数函数哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈.
2020-10-19 14:03:17 721 2
原创 机器学习——python之matplotlib的使用——①
1.安装matplotlib 库pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple//2.折线图2.1折线图的绘制from matplotlib import pyplot as plt# x轴的位置x = range(1, 8) # y轴的位置y = [17, 17, 18, 15, 11, 11, 13]# 传入x和y, 通过plot画折线图plt.plot(x, y) # 显示plt.
2020-09-15 22:25:22 300
原创 得到目标数组的最少函数调用次数
题目描述:给你一个与 nums 大小相同且初始值全为 0 的数组 arr ,请你调用以上函数得到整数数组 nums 。请你返回将 arr 变成 nums 的最少函数调用次数。答案保证在 32 位有符号整数以内。示例 1:输入:nums = [1,5]输出:5解释:给第二个数加 1 :[0, 0] 变成 [0, 1] (1 次操作)。将所有数字乘以 2 :[0, 1] -> [0, 2] -> [0, 4] (2 次操作)。给两个数字都加 1 :[0, 4] -&
2020-08-23 19:23:57 243
原创 [HY000][1418] This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration
Mysql在创建函数时报如下错误:[HY000][1418] This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you *might* want to use the less safe log_bin_trust_function_creators variable)解决方法:set global log
2020-08-05 22:25:49 576
原创 数据结构与算法常规操作(栈3)8——旋转数组的最小数字
问题描述:把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个递增排序的数组的一个旋转,输出旋转数组的最小元素。例如,数组 [3,4,5,1,2] 为 [1,2,3,4,5] 的一个旋转,该数组的最小值为1。示例 1:输入:[3,4,5,1,2]输出:1示例 2:输入:[2,2,2,0,1]输出:0上代码:class Solution { public int minArray(int[] numbers) { int temp .
2020-07-22 09:48:47 154
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人