origami林-CSDN博客

原创使用医学数据集MIMIC，常见的问题记录

还看到关于自己电脑名称在报错信息中出现了乱码，猜测可能是不识别的问题，原始电脑名称：jelly‘brain，修改为JellyBrain；以及电脑的用户名也改成了全英文。可以找到报错信息中的…/appdata/temp/这个文件夹，把里面的东西都删除了；把电脑原来有的sql软件全卸载了。

2023-12-09 22:04:05 201

原创判断补码加法是否溢出

补码加法的溢出有两种情况：正溢出，负溢出

2022-06-06 16:32:53 704

前面的基本操作参考同专栏其他文章1.import java.io.IOException;2.import java.util.*; 3.import org.apache.hadoop.conf.Configuration; 4.import org.apache.hadoop.fs.Path; 5.import org.apache.hadoop.io.Text; 6.import org.apache.hadoop.fs.FileSystem;7.import org.apache..

2022-06-04 20:43:13 333

原创相似图片去重--余弦相似度和sift算法

----------------题目-------------------摄影师小刘爱好摄影，有许多照片（不同格式，不同分辨率），有的是自己拍摄的，有的是朋友的相机帮忙拍到的。但他很苦恼，因为有很多照片是类似的（比如，稍微偏了一点角度），请用程序帮他把类似的图片挑选出来。1.准备数据准备了120张图片，格式有png，jpg各占一半，且有三种大小1：1，4：3，full 均分。2.实验设计思路（1）统一图片格式，方便下一步的比较——300*300的png格式。（2）计算两张图片之间的距离，判定图

2022-05-10 15:55:47 3275 1

原创 CNN实现文本分类

先给出代码框架（data在最后有链接）utils.py#读取数据集的函数，这里有两个数据集 MR & TRECfrom sklearn.utils import shuffleimport pickledef read_TREC(): data = {} def read(mode): #'train' 'test' x, y = [], [] with open("data/TREC/TREC_" + mode +

2022-05-08 21:15:43 1658 3

原创 Hadoop3.2.2实现倒排索引

本文是使用MapReduce并行分布式计算框架进行编程，实现倒排索引建立；1.倒排索引的介绍“倒排索引”是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。2.样例输入如下1）file1MapReduce is simple2）file2MapReduce is p

2022-05-08 20:51:25 1838

原创 2.81-编写C表达式产生如下位模式，其中a^k表示符号a重复k次。

接题目：假设一个w位的数据类型。代码可以包含对参数j和k的引用，它们分别表示j和k的值，但是不能使用表示w的参数。开始作答官方答案（已验证）这里应该是利用全1的移位A.-1 << kB.~(-1 << k) << j#include <stdio.h>#include <assert.h>/* Assume 0 <= k < w */ int A(int k) { return -1 << k;

2022-05-05 21:49:39 153

原创计算时间python

import datetimeimport time# 方法一：datetime.datetime.now() 时间和日期的结合 eg: 2021-10-15 14:19:27.875779start_dt = datetime.datetime.now()print("start_datetime:", start_dt)time.sleep(2)for i in range(10000): i += 1end_dt = datetime.datetime.now()print

2022-05-05 10:45:47 429

原创 2.80-写出函数threefourths的代码。

接题目：对于整数参数x，计算3/4x的值，向零舍人。它不会溢出。函数应该遵循位级整数编码规则。开始作答官方答案（已验证）#include <stdio.h>#include <assert.h>#include <limits.h>/** calculate 3/4x, no overflow, round to zero ** no overflow means divide 4 first, then multiple 3, diffrent

2022-05-04 10:50:31 276

原创 2.79-写出函数mul3div4的代码

接题目：对于整数参数x，计算3x/4,但是要遵循位级整数编码规则。你的代码计算3x也会产生溢出。开始作答官方答案（已验证）#include <stdio.h>#include <assert.h>#include <limits.h>/*Divide by power of 2.Assume0<=k<w-1 */int divide_power2(int x, int k) { int is_neg = x & INT_MIN

2022-05-04 10:44:40 291

原创 2.78-写出具有如下原型的函数的代码:

接题目：/*Divide by power of 2.Assume0<=k<w-1 */int divide_power2(int x,int k);该函数要用正确的舍入方式计算x/(2^k)，并且应该遵循位级整数编码规则。开始作答官方答案（已验证）#include <stdio.h>#include <assert.h>#include <limits.h>/*Divide by power of 2.Assume0<=k&l

2022-05-04 10:40:17 182

原创 2.77-假设我们有一个任务:生成一段代码，将整数变量x乘以不同的常数因子K。

接题目：为了提高效率，我们想只使用+、-和<<运算。对于下列K的值，写出执行乘法运算的C表达式，每个表达式中最多使用3个运算。A. K=17B. K=- 7C. K= 60D. K=-112开始作答官方答案（已验证）#include <stdio.h>#include <assert.h>/* K = 17 */ int A(int x) { return (x << 4) + x; }/* K = -7 */ int B

2022-05-04 10:35:25 417

原创 2.76-库函数calloc有如下声明:

接题目：void *calloc(size_t nmemb, size_t size);根据库文档:“函数calloc为一个数组分配内存，该数组有nmemb 个元素，每个元素为size字节。内存设置为0。如果nmemb或size为0，则calloc返回NULL。"编写calloc的实现，通过调用malloc执行分配，调用memset将内存设置为0。你的代码应该没有任何由算术溢出引起的漏洞，且无论数据类型size_ t用多少位表示，代码都应该正常工作。作为参考，函数malloc和memset声明如下

2022-05-04 10:30:27 226

原创 2.75-假设我们想要计算x*y的完整的2w位表示

接题目：其中，x和y都是无符号数，并且运行在数据类型unsigned是w位的机器上。乘积的低w位能够用表达式x*y计算，所以，我们只需要一个具有下列原型的函数:unsigned unsigned_high_prod(unsigned x, unsigned y);这个函数计算无符号变量x*y的高w位。我们使用一个具有下面原型的库函数:int signed_high_prod(int x,int y);它计算在x和y采用补码形式的情况下，xy的高w位。编写代码调用这个过程，以实现用无符号数为参数

2022-05-04 10:21:03 819 2

原创 2.74-写出具有如下原型的函数的代码:

接题目：/* Determine whether arguments can be subtracted without overflow */int tsub_ok(int x,int y);如果计算x-y不溢出，这个函数就返回1。开始作答官方答案（已验证）#include <stdio.h>#include <assert.h>#include <limits.h>/* Determine whether arguments can be su

2022-05-04 10:05:32 317

原创 2.73-写出具有如下原型的函数的代码:

接题目：/* Addition that saturates to TMin or TMax */int saturating_add(int x,int y);同正常的补码加法溢出的方式不同，当正溢出时，饱和加法返回TMax,负溢出时，返回TMin。饱和运算常常用在执行数字信号处理的程序中。函数应该遵循位级整数编码规则。开始作答官方答案（已验证）#include <stdio.h>#include <assert.h>#include <limits.h

2022-05-04 09:54:07 292

原创 2.72-给你一个任务，写一个函数，将整数val复制到缓冲区buf中，但是只有当缓冲区中有足够可用的空间时，才执行复制。

接题目：你写的代码如下:/* Copy integer into buffer if space is available *//* WARNING: The following code is buggy */void copy_int(int val, void* buf, int maxbytes) { if (maxbytes - sizeof(val) >= 0) memcpy(buf, (void*)&val, sizeof(val));}这段代码使用了库函数m

2022-05-04 09:24:06 657 1

原创 2.71-你刚刚开始在一家公司工作，他们要实现一组过程来操作一个数据结构，要将4个有符号字节封装成一个32位unsigned。一个字中的字节从0(最低有效字节)编号到3(最高有效字节)。

分配给你的任务是:为一个使用补码运算和算术右移的机器编写一个具有如下原型的函数:接题目：/* Declaration of data type where 4 bytes are packedinto an unsigned */typedef unsigned packed_t;/* Extract byte from word. Return as signed integer */int xbyte(packed_t word, int bytenum);也就是说，函数会抽取出指定的字

2022-05-04 09:11:18 1071 1

原创 2.70-写出具有如下原型的函数的代码:

接题目：/** Return 1 when x can be represented as an n-bit, 2' s-complement* number; 0 otherwise*Assume1<=n<=w*/int fits_ bits(int x，int n);函数应该遵循位级整数编码规则。开始作答官方答案（已验证）就是要做循环左移，这个n指的是位数。#include <stdio.h>#include <assert.h>int

2022-05-03 22:12:39 363

原创 2.69-写出具有如下原型的函数的代码:

接题目：/** Do rotating left shift.Assume0<=n<w* Examples when x = 0x12345678 and w = 32:*n=4 -> 0x23456781, n=20 -> 0x67812345*/unsigned rotate_left (unsigned x,int n);函数应该遵循位级整数编码规则。要注意n=0的情况。开始作答官方答案（已验证）就是要做循环左移，这个n指的是位数。#include

2022-05-03 21:59:57 207

原创 2.68-写出具有如下原型的函数的代码:

接题目：/* Mask with least signficant n bits set to 1* Examples: n = 6 --> 0x3F，n = 17 --> 0x1FFFF !* Assume 1 <=n<= w*/int lower_one_mask(int n) ; 函数应该遵循位级整数编码规则。要注意n= w的情况。开始作答官方答案（已验证）就是通过给出的n，从最低位开始连续的n个1，输出这个位级表示的十六进制值。无符号数的算数右移。

2022-05-03 21:50:58 399

原创 2.67-给你一个任务，编写一个过程int_ size_ is_ 32()，当在一个int是32位的机器上运行时，该程序产生1，而其他情况则产生0。不允许使用sizeof运算符。下面是开始时的尝试:

接题目：/* The following code does not run properly on some machines */int bad_int_size_is_32() { /* Set most significant bit (msb) of 32-bit machine */ int set_msb = 1 << 31; /* Shift past msb of 32-bit word */ int beyond_msb = 1 << 32; /*

2022-05-03 21:36:14 752

原创 2.66-写出代码实现如下函数

接题目/*Generate mask indicating leftmost 1 in x. Assume w =32 For example,0xFF00 -> 0x8000,and 0x6600 --> 0x4000.If x = 0.then return 0.*/int leftmost_one(unsigned x);就是要得到最高位为1的那一个比特的值官方答案（已验证）#include <stdio.h>#include <assert.h&gt

2022-05-03 20:52:07 432

原创 2.65-写出代码实现如下函数

接上题目/*Return 1 when x contains an odd bit of 1s;0 otherwise.Assume w =32 */int odd_ones(unsigned x);题目的意思是，如果x含有奇数个1，就返回1，否则就返回0。官方答案（已验证）#include <stdio.h>#include <assert.h>int odd_ones(unsigned x) { //有奇数个1就必定有奇数个0，对折异或最终得1 x ^=

2022-05-03 16:11:08 320

原创 2.64-写出代码实现如下函数-无符号数x至少有一奇数位为1

接题目：/*Return 1 when any odd bit of x equals 1;0 otherwise.Assume w =32 */int any_odd_one(unsigned x);开始作答题目的意思是当无符号数x的任一奇数位都为1时，返回1，否则就返回0。

2022-05-03 14:39:35 426 1

原创使用Hadoop以及Eclipse平台，创建Hadoop项目——编写简单MapReduce程序，运行MapReduce词频统计程序，查看词频统计程序的结果。

打开eclipse平台在eclipse中创建项目点击finish。为项目添加需要用到的JAR包(1)“/opt/module/hadoop-3.2.2/share/hadoop/common/”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar；（2）“ /opt/module/hadoop-3.2.2/share/hadoop/common/lib”目录下的所有JAR包；（3）“/opt/module/hadoop-3.2.2/share/

2022-04-29 21:40:43 5973

原创 2.63-将下面的C函数代码补充完整。函数srl用算术右移（由值xsra给出）来完成逻辑右移，后面的其他操作不包括右移或者除法。

接题目：函数sra用逻辑右移（由值xsrl给出）来完成算术右移，后面的其他操作不包括右移或者除法。可以通过计算8*sizeof(int)来确定数据类型int中的位数w。位移量k的取值范围为0~w-1。unsigned srl(unsigned x, int k) { /* Perform shift arithmatically */ unsigned xsra = (int)x >> k; . . .}int sra(int x, int k) { /* Perform

2022-04-28 09:22:43 662 2

原创 2.62-编写一个函数int_shifts_are_arithmetic(),在对int类型的数使用算数右移的机器上运行时这个函数生成1，而其他情况下生成0.

接上题目你的代码应该可以运行在任何字长的机器上。在几种机器上测试你的代码。#include <stdio.h>int int_shifts_are_arithmetic() { //生成全 1 int类型数 int testnum = ~0; //最高位为1的右移，这里是保留最低有效字节的右移 int shftnum = testnum >> ((sizeof(int) - 1) << 3); return shftnum == testnum;}

2022-04-27 17:38:49 492 1

原创 2.61-写一个C表达式，在下列描述的条件下产生1，而在其他情况下得到0。假设x是int类型。

题目A：x的任何位都等于1B：x的任何位都等于0C：x的最低有效字节中的位都等于1D：x的最高有效字节中的位都等于0解答#include <stdio.h>#include <stdbool.h>bool A(int x) { bool ans = !(~x); return ans;}bool B(int x) { bool ans = !x; return ans;}bool C(int x) { bool ans = !((x &amp

2022-04-27 17:08:26 1888 1

原创利用16个特征对N幅图像(N＞=1000)分别用欧氏距离和马氏进行识别。并计算准确率

作业记录代码框架：Get16FeaturesMA.py##Get16FeaturesMA.py### 用4*4格子分割28*28的MNIST数据集图片，得到16个手写特征，# 任务一：# 编写程序利用16个特征对N幅图像(N>=1000)分别用欧氏距离和马氏进行识别。并计算准确率import numpy as npimport mathimport cv2import scipy.io as scio#load train_datadef read_train_MNIST

2022-04-25 18:48:05 270

原创调用word2vec，Bert做词嵌入来计算句子的相似度

先给出框架：（data+models在文章末都有链接）word2vec##W2vSenTest.py###Call the word2vec function for word embedding# 深度学习模型框架from gensim.models import word2vec# 分词常用工具import jieba# 深度学习框架包含许多库函数以及基础模型import torchfrom torch.nn.functional import cosine_similarity

2022-04-24 19:12:41 1512 3

原创连续词袋模型（CBOW）计算句子相似度（余弦相似度和欧氏距离）

相关了解可以参考下面的博客：https://blog.csdn.net/weixin_40771521/article/details/103893982提出问题：如何计算中文句子的相似度本文使用的是CBOW模型，通过负采样减少计算量1.先给出框架2.对数据做预处理运行pre_process.py文件##pre_process.py###1.生成样本数据:每一句有效词w2v_words.pkl 2.词表（词：序号）w2v_vocab.pklimport jiebaimpor

2022-04-23 23:36:00 1141

原创基于简单的BP神经网络实现中文分词

1.BP神经网络BP神经网络可以分为两个部分，BP和神经网络，BP是 Back Propagation 的简写，意思是反向传播。而神经网络，可以说是一类相对复杂的计算网络。正向传播就是让信息从输入层进入网络，依次经过每一层的计算，得到最终输出层结果的过程。反向传播的信息是误差，也就是输出层的结果与输入信息x对应的真实结果之间的差距。通过一次正向传播，和一次反向传播，我们就可以将网络的参数更新一次，所谓训练网络，就是让正向传播和反向传播不断的往复进行，不断地更新网络的参数，最终使网络能够逼近真实的关

2022-04-22 22:20:13 2055

空空如也

空空如也