自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(100)
  • 资源 (3094)
  • 收藏
  • 关注

原创 基于Python实现心脏病数据可视化DEA+预测【500010103.1】

该心脏病数据集是通过组合 5 个已经独立可用但以前未合并的流行心脏病数据集来策划的。在这个数据集中,5 个心脏数据集结合了 11 个共同特征,使其成为迄今为止可用于研究目的的最大心脏病数据集。该数据集由 1190 个实例和 11 个特征组成。这些数据集被收集并组合在一个地方,以帮助推进与CAD相关的机器学习和数据挖掘算法的研究,并希望最终推进临床诊断和早期治疗。

2024-04-25 16:49:48 274

原创 Python代码片段之SQL操作

包含:连接 PostgreSQL、单表导出数据、使用 WHERE 语句过滤、使用 HAVING 语句过滤、取出前N条数据、多表导出数据、使用聚合函数、使用 Subquery、使用 WITH 语句、通用条件表达式、查看数据库中所有表名、窗口函数、查看表内字段类型、

2024-02-21 09:37:57 60

原创 基于Python实现中美地区经济发展对比与预测分析(商业大数据分析)【500010072】

目标1:对比分析 2022 年美国各州与中国主要城市的经济 目标2:分析中国 1997-2018 年县域社会经济主要指标的变化趋势,探索经济发展的地域差异目标3:对比分析中国主要城市与美国各州在不同产业(如第一产业、第二产业、第三产业)的GDP增加值,揭示两国产业结构的差异目标4:基于历史数据,预测未来五年中美两国的经济发展趋势目标5:探索影响中美两国经济发展的主要因素(产业结构) 目标6:再探中美两国经济发展下的产业结构

2024-02-21 08:58:54 1156

原创 基于K-Means聚类与RFM模型分析顾客消费情况【500010102】

实现基于Python K-Means聚类与RFM模型分析顾客消费情况1、数据处理1.1、Python库导入1.2、数据导入1.3、数据预览1.4、数据逻辑性检查1.5、数据处理2、数据分析2.1、订单数据趋势分析2.2、订单特征分析2.3、消费者反馈分析2.4、时间序列分析2.4.1、销售额时序图2.4.2、时间序列分解结果2.4.3、建立SARIMA模型2.4.4、预测未来七天的销售额2.5、基于聚类分析构建用户画像2.5.1、数据处理2.5.2、确定聚类数2.5.3

2024-01-16 16:28:49 536

原创 基于K-Means聚类算法与随机森林模型评估信贷风险客户【500010101】

实现基于Python K-Means聚类算法与随机森林模型评估信贷风险客户1、数据处理1.1、Python库导入1.2、数据导入1.3、数据预览1.4、数据处理2、数据分析2.1、客户基本情况分析2.2、客户经济情况分析2.3、客户贷款情况分析2.4、客户贷款风险评估分析2.4.1、划分高风险客户和低风险客户2.4.2、基本情况对比2.4.3、经济情况对比2.4.4、贷款情况对比2.5、用户画像分析2.5.1、确定聚类数2.5.2、建立k均值聚类模型2.5.3、四类客户之

2024-01-12 15:02:20 1051

原创 基于Python实现二手房整体情况可视化分析+房价预测【500010099】

1、数据处理1.1、导入模块1.2、获取数据1.3、数据分析处理1.4、数据清洗2、数据可视化2.1、箱线图分析2.2、单价、数量、总价和行政区域之间的关系2.3、面积和总价的关系2.4、朝向和总价的关系2.5、装修和总价的关系2.6、楼层和总价的关系2.7、电梯和总价的关系2.8、学区房和总价的关系2.9、建筑年代情况分析以及和总价的关系2.10、产权性质、住宅类别、建筑结构、建筑类别与总价的关系2.11、户型和总价的关系3、模型建立及预测3.1、删除所有缺失值

2024-01-04 16:38:02 606

原创 基于C++实现水仙花数

实际上,可以穷举 0~9 这 10 个数字出现的次数(每个数字都可能出现 0~5 次),当所有数字出现次数之和等于 5 时,说明这时数字的组合有可能为 5 位花朵数,进而求出每个数字的 5 次方分别乘以其出现的次数的和值 sum,再判断 sum 内各个数字出现的次数是否与穷举各个数字时每个数字出现的次数分别相同,若相同,则 sum 就是一个 5 位花朵数。借用这个概念,在程序设计实践中,我们设计了一个程序后,可以在这个程序的基础上,再进行优化和扩展,看能否采用另外的、更好的方法来解决这个问题。

2023-11-27 11:07:52 2771

原创 基于C#实现梳排序

下面我们看看具体思想,梳排序有这样一个 1.3 的比率值,每趟比较完后,都会用这个 1.3 去递减 gap,直到 gap=1 时变成冒泡排序,这种算法比冒泡排序的效率要高效的多,时间复杂度为 O(N2/2p) 这里的 p 为增量,是不是跟希尔排序有点点神似。冒泡排序上我们的选择是相邻的两个数做比较,就是他们的 gap 为 1,其实梳排序提出了不同的观点,如果将这里的 gap 设置为一定的大小,效率反而必 gap=1 要高效的多。

2023-11-27 11:06:49 603

原创 基于C#实现十字链表

上一篇我们看了矩阵的顺序存储,这篇我们再看看一种链式存储方法“十字链表”,当然目的都是一样,压缩空间。

2023-11-27 11:06:09 788

原创 基于C#实现奇偶排序

这篇就从简单一点的一个“奇偶排序”说起吧,不过这个排序还是蛮有意思的,严格来说复杂度是 O(N2),不过在多核的情况下,可以做到 N2 /(m/2)的效率,这里的 m 就是待排序的个数,当 m=100,复杂度为 N2 /50,还行把,比冒泡要好点,因为重点是解决问题的奇思妙想。下面我们看看这个算法是怎么描述的,既然是奇偶,肯定跟位数有关了先将待排序数组的所有奇数位与自己身后相邻的偶数位相比较,如果前者大于后者,则进行交换,直到这一趟结束。然后将偶数位与自己身后相邻的奇数位相比较,如果前者大于后者,则

2023-11-27 11:05:29 559

原创 基于C#实现块状链表

这个比较简单,我们在每个链表节点中定义一个 头指针,尾指针和一个数组节点。/// 指向前一个节点的指针/// 指向后一个节点的指针/// 链表中的数组。

2023-11-27 11:04:54 1083

原创 基于C#实现鸡尾酒排序(双向冒泡排序)

从结果上面看,我们会发现,当数组有序的时候,我们还会继续往下排,知道完成 length/2 次,这个就跟没优化之前的冒泡排序一样,此时我们可以加上一个标志位 IsSorted 来判断是否已经没有交换了,如果没有,提前退出循环。冒泡是一个单向的从小到大或者从大到小的交换排序,而鸡尾酒排序是双向的,从一端进行从小到大排序,从另一端进行从大到小排序。从图中可以看到,第一次正向比较,我们找到了最大值 9.第一次反向比较,我们找到了最小值1.第二次正向比较,我们找到了次大值8.第二次反向比较,我们找到了次小值2。

2023-11-27 11:04:10 742

原创 基于C#实现外排序

我们知道内存队列存放的只是小文件的 topN 条记录,当内存队列为空时,我们需要再次从小文件中读取下一批的 TopN 条数据,然后放入中转站继续进行比较。在这种场景下,我们决定每个文件放 1000 条,也就有 33 个小文件,也就有 33 个内存队列,每个队列取 Top100 条,Batch=500 时刷新。根据实际情况我们来决定到底要分成多少个小文件,并且小文件的数据必须是有序的,小文件的个数也对应这内存中有多少个优先队列。这个基本没什么好说的,采用随机数生成 n 条记录。内存存放量:1200。

2023-11-25 11:29:07 807

原创 基于C#实现双端队列

通常情况下,队列的内部都是采用数组来实现,而且带有两个指针 head 和 tail 来指向数组的区间段,为了充分利用数组空间,我们也会用 % 来实现逻辑上的循环数组,如下图。这里有一个注意的细节就是“size 字段“,它是为了方便统计队列是否为满或者队列是否为空。

2023-11-25 11:28:35 707

原创 基于C#实现三元组

我们知道矩阵是一个非常强大的数据结构,在动态规划以及各种图论算法上都有广泛的应用,当然矩阵有着不足的地方就是空间和时间复杂度都维持在 N2 上,比如 1w 个数字建立一个矩阵,在内存中会占用 1w*1w=1 亿的类型空间,这时就会遇到 outofmemory。。。那么面临的一个问题就是如何来压缩矩阵,当然压缩的方式有很多种,这里就介绍一个顺序表的压缩方式:三元组。

2023-11-25 11:27:37 698

原创 基于C#实现并查集

region 树节点/// 树节点/// 父节点/// 节点的秩#endregion。

2023-11-24 10:57:43 650

原创 基于C#实现Kruskal算法

这篇我们看看第二种生成树的 Kruskal 算法,这个算法的魅力在于我们可以打一下算法和数据结构的组合拳,很有意思的。

2023-11-24 10:57:08 671

原创 基于C#实现Dijkstra算法

或许在生活中,经常会碰到针对某一个问题,在众多的限制条件下,如何去寻找一个最优解?可能大家想到了很多诸如“线性规划”,“动态规划”这些经典策略,当然有的问题我们可以用贪心来寻求整体最优解,在图论中一个典型的贪心法求最优解的例子就莫过于“最短路径”的问题。

2023-11-24 10:56:34 760

原创 基于C#实现线段树

从图中我们可以清楚的看到[0-10]被划分成线段的在树中的分布情况,针对区间[0-N],最多有 2N 个节点,由于是平衡二叉树的形式也可以像堆那样用数组来玩,不过更加耗费空间,为最多 4N 个节点,在针对 RMQ 的问题上,我们常常在每个节点上增加一些 sum,max,min 等变量来记录求得的累加值,当然你可以理解成动态规划的思想,由于拥有 logN 的时间,所以在 RMQ 问题上比数组更加优美。前面我也说了,构建有两种方法,数组的形式或者链的形式,各有特点,我就采用后者,时间为 O(N)。

2023-11-23 16:18:58 436

原创 基于C#实现赫夫曼树

赫夫曼树又称最优二叉树,也就是带权路径最短的树,对于赫夫曼树,我想大家对它是非常的熟悉,也知道它的应用场景,但是有没有自己亲手写过,这个我就不清楚了,不管以前写没写,这一篇我们来玩一把。

2023-11-23 16:18:28 394

原创 基于C#实现Prim算法

Console.WriteLine("最小生成树为:");Console.WriteLine("最小生成树为:");/// 定义矩阵节点/// 顶点个数/// 边的条数/// 顶点个数/// 边的个数#region 矩阵的构建/// 矩阵的构建//顶点数//边数//构建二维数组i++)//顶点j++)#endregion#region 边的信息。

2023-11-23 16:17:58 404

原创 基于Python实现汽车销售数据可视化+预测【500010086.1】

1、获取数据2、数据分析处理3、数据可视化及预测3.1、销量分析3.1.1、波动性分析(汽车月销量时间序列图、计算月销量的标准差、滚动标准差图)3.1.2、同比增长分析(汽车销量同比增长率图)3.1.3、时间序列分析3.1.4、预测未来销量(汽车销量时间序列图、ACF、PACF、SARIMA预测)3.2、厂商分析3.2.1、厂商销量分析(计算各厂商的总销量和平均月销量、Top 5 厂商的年度销量趋势图)3.2.2、市场份额分析(市场份额排名前10的厂商、Top 5 厂商的市场份额趋势图)

2023-11-23 11:33:26 2812 1

原创 基于C#实现优先队列

我们在每个节点上定义一个level,表示该节点的优先级,也是构建堆时采取的依据。

2023-11-22 14:25:51 423

原创 基于C#实现树状数组

有一种数据结构是神奇的,神秘的,它展现了位运算与数组结合的神奇魅力,太牛逼的,它就是树状数组,这种数据结构不是神人是发现不了的。

2023-11-22 14:25:20 446

原创 基于C#实现Bitmap算法

在所有具有性能优化的数据结构中,我想大家使用最多的就是 hash 表,是的,在具有定位查找上具有 O(1)的常量时间,多么的简洁优美,但是在特定的场合下:①:对 10 亿个不重复的整数进行排序。②:找出 10 亿个数字中重复的数字。当然我只有普通的服务器,就算 2G 的内存吧,在这种场景下,我们该如何更好的挑选数据结构和算法呢?

2023-11-22 14:24:49 561

原创 基于C#实现协同推荐 SlopeOne 算法

// 评分实体类/// 记录差值set;/// 记录评分人数,方便公式中的 m 和 n 的值set;/// 记录打分用户的ID/// 平均值/// 产品类set;set;/// 对产品的打分set;

2023-11-21 17:04:19 854 1

原创 基于C#实现KMP算法

这句话的意思也就是说,在模式 P 中,前 k 个字符与 j 个字符之前的 k 个字符相同,比如说:“abad”的最大前缀真子串为“aba",最大后缀真子串为“bad”,当然这里是不相等,这里的 0<k<j,我们希望 k 接近于 j,那么我们滑动的距离将会最小,好吧,现在我们用 next[j]来记录失配时模式串应该用哪一个字符于 Si 进行比较。= Pj 的时候,我们可以看到满足如下关系式 Si-jSi-j+1…Sn-1=P0P1…若 Pj=Pk2, 则 next[j+1]=k2+1=next[k]+1。

2023-11-21 17:03:25 271

原创 基于C#实现AC自动机算法

我要检查一篇文章中是否有某些敏感词,这其实就是多模式匹配的问题。当然你也可以用 KMP 算法求出,那么它的时间复杂度为 O(c*(m+n)),c:为模式串的个数。m:为模式串的长度,n:为正文的长度,那么这个复杂度就不再是线性了,我们学算法就是希望能把要解决的问题优化到极致,这不,AC 自动机就派上用场了。其实 AC 自动机就是 Trie 树的一个活用,活用点就是灌输了 kmp 的思想,从而再次把时间复杂度优化到线性的 O(N),刚好我前面的文章已经说过了 Trie 树和 KMP,这里还是默认大家都懂。

2023-11-21 17:02:42 290

原创 基于Python(Pandas+Pyecharts)实现全国热门旅游景点数据可视化【500010037】

实现基于Python(Pandas+Pyecharts)实现全国热门旅游景点数据可视化1、数据处理1.1、读取数据1.2、查看索引、数据类型和内存信息1.3、查看数值型列汇总统计1.4、去除销量为0的行数据1.5、将缺失值用‘未知’填充1.6、按销量排序2、数据可视化2.1、销量前20热门景点数据2.2、假期出行数据全国地图分布2.3、各省市4A-5A景区数量柱状图2.4、各省市4A-5A景区数量玫瑰图2.5、各省市4A-5A景区数量阴影散点图2.6、各省市4A-5A景区地图分布

2023-11-21 16:17:53 1250 1

原创 基于C++实现循环赛日程表(分治算法)

递归地用这种一分为二的策略对选手进行划分,直到只剩下两个选手时,比赛日程表的制定就变得很简单。据此,将左上角小块中的所有数字按其相对位置抄到右下角,又将左下角小块中的所有数字按其相对位置抄到右上角,这样我们就分别安排好了选手1至选手4和选手5至选手8在后4天的比赛日程。以此类推,我们不难发现,我们可以用分治的方法实现,现自顶向下分解,直到分解到最简单的情况,即人数为2人,这时就可以两两比赛,表的填充为对角填充的方式,然后再自底向上填充表格,具体的看上面的k=1,k=2,k=3时形成的循环表就很好理解了。

2023-11-20 11:08:35 496

原创 基于C#实现最长公共子序列

这种方法是最简单,也是最容易想到的,当然时间复杂度也是龟速的,我们可以分析一下,刚才也说过了cnblogs的子序列个数有27个 ,延伸一下:一个长度为N的字符串,其子序列有2N个,每个子序列要在第二个长度为N的字符串中去匹配,匹配一次需要O(N)的时间,总共也就是O(N*2N),可以看出,时间复杂度为指数级,恐怖的令人窒息。不知道大家看懂了没?图大家可以自己画一画,代码完全是根据上面的公式照搬过来的,长度的问题我们已经解决了,这次要解决输出最长子序列的问题,我们采用一个标记函数 Flag[i,j],当。

2023-11-20 11:07:43 327

原创 基于C#实现字符串相似度

ABA”和“BBA”的编辑距离为 1,仔细发现我们可以得出如下结论,”ABA“是由 23 个子序列与”BBA“字符串求的的编辑距离集合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的问题,我在求子序列”AB“和”BBA"的编辑距离时,我是由子序列”A“和”BBA“与”B“和”BBA“之间的编辑距离中选出一个最小值,然而序列 A 和序列 B 早之前我已经计算过了,这种重复计算的问题有点像”斐波那契”,正好满足“动态规划”中的最优子结构和重叠子问题,所以我们决定采用动态规划来解决。

2023-11-20 11:06:59 355

原创 基于Python实现大型家用电器和电子产品在线商店购买数据分析【500010098】

1、进行用户消费趋势分析(按月)1.1、每月的消费总金额 1.2、每月的消费人数 2、进行品牌消费情况分析2.1、各品牌产品消费总金额2.2、各品牌用户数量3、用户个体消费分析3.1、用户消费金额、消费次数的描述性统计3.2、用户消费次数、消费金额散点图3.3、用户消费金额分布图3.4、用户消费次数分布图3.5、用户累计消费金额占比4、用户消费行为4.1、用户第一次消费4.2、用户最后一次消费4.3、新老客消费占比4.4、用户分层(RFM)5、用户生命周期(第一次和最后

2023-11-18 13:44:22 166 2

原创 基于C#实现五家共井

意思就是说五家人共用一口井,甲家的绳子用两条不够,还要再用乙家的绳子一条才能打到井水;丙家的绳子用四条不够,还要再用丁家的绳子一条才能打到井水;丁家的绳子用五条不够,还要再用戊家的绳子一条才能打到井水;上面的公式也就表明了 c 和 h 的比例关系,我们令 h=721k,则 c=148k,将其代入 ⑥,⑦,⑧,⑨,⑩ 可得如下方程组。我们再来看看文艺青年的想法,他们的想法是找 a,b,c,d,e 中的某个数与 h 的对应关系。首先我们看下普通青年的想法,他们的想法是找 a,b,c,d,e 之间的对应关系。

2023-11-16 14:22:42 132

原创 基于C#实现猴子偷桃

尾递归中在每次向下递归的过程中,都会将当前层的结果计算出来后向下一层传递,从理论上说,传到下一层后,上一层的参数值已经没有存在的必要了,可以清除上一层中的变量占用的栈空间,那么最终达到的效果就是永远不会出现 StackOverflowException 了,但实际上是否真有这个效果,得要看编译程序是否真的给你优化了。当我们玩转递归的时候,老师说线性递归会将“变量,参数,返回值”在“递”的过程中压栈,如果迟迟“递”不到头的话,栈就会越积越多,最后就爆掉了,window 中系统默认的堆栈空间是 1M。

2023-11-16 14:22:11 143

原创 基于C#实现百钱买百鸡

百钱买百鸡的问题算是一套非常经典的不定方程的问题,题目很简单:公鸡5文钱一只,母鸡3文钱一只,小鸡3只一文钱,用 100 文钱买一百只鸡,其中公鸡,母鸡,小鸡都必须要有,问公鸡,母鸡,小鸡要买多少只刚好凑足 100 文钱。由于只有100文钱,则5x<100 => 0<x<20, 同理 0<y<33,那么z=100-x-y,好,我们已经分析清楚了,下面就可以编码了。分析:估计现在小学生都能手工推算这套题,只不过我们用计算机来推算,我们可以设公鸡为 x,母鸡为 y,小鸡为 z,那么我们。令 ②x3-① 可得。

2023-11-16 14:21:40 104

原创 基于Python实现连锁咖啡店经营情况EDA分析【500010097】

从统计数据可以看到,销售额和利润前三的城市是:南京,徐州和苏州;平均销售额和平均利润最高的是上海。该连锁咖啡店目前共有100家店铺,716万的销售额,利润总额为383万,员工总数为1084人。普洱市的门店均价是最高的,为159.333元/平方米。平均利润率排名前三城市为:哈尔滨市,大庆市,广州市。

2023-11-15 15:44:03 376

原创 Java多线程入门

*Java线程有六个状态:**NEW(新建)、RUNNABLE(可运行)、BLOCKED(阻塞)、TIMED_WAITING(指定时间等待)、TERMINATED(终止)**进程:**每个进程都有独立的代码和数据空间(进程上下文),进程间的切换会有较大的开销,一个进程包含1–n个线程。**线程:**同一类线程共享代码和数据空间,每个线程有独立的运行栈和程序计数器(PC),线程切换开销小。注:括号代表重写的方法,方法名可省略,括号内部可传参数类型,大括号中是重写的方法内容,大括号外可传参数的值。

2023-11-15 10:58:38 43

原创 基于C++实现二叉排序树数据结构

二叉排序树或者是一棵空树,或者是具有如下特性的二叉树:若它的左子树不空,则左子树上所有结点的值均小于根结点的值若它的右子树不空,则右子树上所有结点的值均大于根结点的值它的左、右子树也都分别是二叉排序树。注:只要有一个结点不满足就不是二叉排序树通常,取二叉链表作为二叉排序树的存储结构// 左右孩子指针。

2023-11-15 10:53:41 188

原创 C++可以动态联编的虚拟函数

对于C++语言来说,程序在执行类成员函数时(跳转到相应的函数地址),有两种方式,一种是静态联编(static binding),意思就是程序在编译时就知道该函数的地址;另一种是动态联编(dynamic binding),意思是就算代码在编译后,程序还是不知道相应的函数地址,得到程序执行到这个地方,程序才能得到正确的函数地址。那么为什么需要动态联编呢?考虑这样的情况:比方说有一种类叫做宠物,狗、猫、兔子、金鱼、乌龟等都是它的子类,那么当我们定义宠物类的时候,应该定义一个吃饭的功能,因为宠物都应该吃饭。

2023-11-15 10:53:09 49

用于目标检测的水果图像数据集 JPG(300 张图像)

包含标记的水果图像以训练目标检测系统 用于对象检测的不同数据集。train文件夹中有 240 张图像。test文件夹中有 60 张图像。

2024-04-15

0-18岁面部情绪识别数据集 JPG+CSV(8 种不同情绪 152张图像)

人们表现出八种不同情绪的图像,面部数据集 该数据集由捕捉人们表现出 8 种不同情绪(愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶等)的图像组成。数据集中的每张图像都代表了这些特定情绪中的一种。.csv文件,包含数据集中有关人员的信息(id,性别、年龄、国家地区)。

2024-04-15

交通标志分类数据集 PNG+CSV(58类 6.9K+张图像)

这是用于对不同类别的交通标志进行分类的数据集。大约有 58 个分类,每个分类大约有 120 张图像。labels.csv文件具有交通标志类的相应说明。 类型包含:限速 (5km/h)、限速(15km/h)、限速(30km/h)、限速(40km/h)、限速(50km/h)、限速(60km/h)、限速(70km/h)、限速(80km/h)、不要直行或向左走、不要直行或右行、不要直走、不要向左走、不要向左或向右走、不要向右走、不要从左边超车、没有Uturn、没有车、没有喇叭、直行或右行、直走、向左走、向左或向右走、向右走、保持左边、保持正确、环形交叉路口是强制性的、当心汽车、角、自行车过马路、Uturn(乌图恩)、道路分隔线、交通信号灯、前方危险、斑马线、儿童过马路、向左的危险曲线、向右的危险弯道、向右或直行、向左或直行、之字形曲线、火车道口、正在施工中、围栏、重型车辆事故、让路、不停歇、不得进入

2024-04-15

蝴蝶图像分类数据集 JPG+CSV( 75种类型 1000+张标注图像)

该数据集包含 75 种不同类别的蝴蝶。数据集包含约1000+张标注图像,包括验证图像。每张图片只属于一个蝴蝶类别。 每个图像的标签都保存在Training_set.csv中。

2024-04-15

动物面孔数据集 JPG(3类1.6W+张图像)

该数据集由 16,130 张分辨率为 512×512 的高质量图像组成。类型包含猫、狗、野生生物,每个域提供大约 5000 个图像。

2024-04-11

面部表情图像数据集 YOLO 格式( 40 万张手动标记的图像)

该数据集是一个大型面部表情数据集,其中包含大约 40 万张手动标记的图像,用于显示八种面部表情(中性、快乐、愤怒、悲伤、恐惧、惊讶、厌恶、蔑视)以及效价和唤醒的强度。它根据面部表情对对手的影响对面部表情进行分类。

2024-04-11

息肉检测的内窥镜结肠镜检查框架数据集 PNG+TIF+CSV(2.4K+张图像)

是一个从结肠镜检查视频中提取的帧数据库。该数据集包含几个息肉帧示例以及它们的相应地面事实。图像由一个掩码组成,该掩码对应于图像中息肉覆盖的区域。 数据库由两种不同类型的图像组成:原始图像:原始/frame_number.tiff;息肉掩模:地面实况/frame_number.tiff。

2024-04-11

自然景观图片数据集 JPG(7类 4.3K+张图像)

自然景观图片数据集,包含7 类:风景(900张图片);Landscapes Montain (900 图片);风景 沙漠 (100 图片);风景 海 (500 图片);风景海滩(500张图片);风景岛(500张);日本风景(900张图片)

2024-04-11

美国手语数据集 JPEG(2.5K+张图像)

用于图像分类的美国手语数据集

2024-04-11

花卉数据集 JPG+CSV(5类 3.6K+张图像)

训练 - 包含用于训练模型的所有图像。在此文件夹中,您将找到五个文件夹,即“雏菊”、“蒲公英”、“玫瑰”、“向日葵”和“郁金香”,其中包含相应花朵的图像 测试 - 包含 924 张花卉图像。对于这些图像,您需要根据各自的花名进行预测 - “雏菊”、“蒲公英”、“玫瑰”、“向日葵”和“郁金香” Testing_set_flower.csv - 这是要在平台上提交的每张图像的预测顺序。确保您下载的预测图像的文件名与此文件中给出的顺序相同。 sample_submission:这是一个 csv 文件,其中包含数据冲刺 (sprint) 的示例提交。

2024-04-11

(2010-2023)电力生产(发电)数据集 CSV(48 个国家地区 12.1W+记录)

该数据集全面概述了 2010 年至 2023 年横跨 48 个国家/地区的全球电力生产数据。它为指定时间范围内不同地区发电的平衡、生产和价值提供了宝贵的见解。该数据集以电力生产为重点,有助于能源分析师、政策制定者和研究人员了解全球能源趋势、确定模式并制定可持续能源生产和消费战略。 该数据集包含国家名称、日期、余额、产品、价值和单位等基本列,可以对电力生产动态进行全面分析

2024-04-02

药物消费分类数据集 CSV(1885 名受访者的记录)

数据库包含 1885 名受访者的记录。对于每个受访者,已知 12 个属性:人格测量,包括 NEO-FFI-R(神经质、外向性、对经验的开放性、宜人性和责任心)、BIS-11(冲动)和 ImpSS(寻求感觉)、教育水平、年龄、性别、居住国和种族。所有输入属性最初都是分类的,并且是量化的。量化后,所有输入特征的值都可以视为实值值。此外,还询问了参与者使用18种合法和非法药物(酒精、苯丙胺、亚硝酸戊酯、苯二氮卓类药物、大麻、巧克力、可卡因、咖啡因、快克、摇头丸、海洛因、氯胺酮、合法兴奋剂、LSD、美沙酮、蘑菇、尼古丁和挥发性物质滥用以及一种虚构药物(Semeron),该药物被引入以识别过度索赔者。对于每种药物,他们必须选择一个答案:从未使用过该药物,十多年前使用过,或在过去十年,年,月,周或日内使用过。数据库包含 18 个分类问题。每个独立标签变量都包含七个类:“从未使用”、“十多年前使用”、“过去十年使用”、“去年使用”、“上个月使用”、“上周使用”和“最后一天使用”。

2024-04-02

世界空气质量数据集 CSV( 65 个国家地区的 8469 个地点的空气质量测量值)

从 65 个国家/地区的 8,469 个地点收集了 231,965,688 次空气质量测量值。数据汇总自 105 个政府级和研究级来源。

2024-04-02

必胜客评分和评论数据集 CSV(4000 记录)

必胜客评论和评级数据来自斯里兰卡先锋分店之一的见解,数据集包括对科伦坡联合广场必胜客分店的客户反馈的详细汇编。这家分店是必胜客在斯里兰卡的首家分店之一。该数据集的结构旨在通过评级和文本评论来封装各种客户体验。 列描述符: title:指定所审查的必胜客位置,此处为科伦坡的联合广场。 星级:客户提供的评分,评分范围从 1(最低)到 5(最高)。 text:客户的书面评论,提供对其体验的更深入见解。

2024-04-02

2012-2022年联合国全球水资源数据集 CSV(3.6W+记录)

2012-2022年联合国全球水数据”数据集汇编了全球水资源获取和卫生指标,突出了十年来的变化。可用于水资源获取和公共卫生部门的预测建模、地理分析和趋势可视化。进一步的数据将需要清理以删除空列等。 列描述符: DATAFLOW:数据收集框架 REF_AREA:覆盖的地理区域 指标:测量的特定指标 性别:性别细分(如适用) TIME_PERIOD:数据收集年份 OBS_VALUE:观测值或测量值 UNIT_MEASURE:使用的计量单位 其他列包括有关数据源、观测状态和方法注释的详细信息。

2024-04-02

骑手头盔检测 车牌识别数据集 JPG(120张图像)

该数据集包含大约 120 张包含完整骑手信息的图像,包括骑手、头盔存在和可见的车牌并对其进行注释。 该数据集旨在通过解决两个关键方面来加强道路安全;头盔违规检测和捕获自行车编号

2024-03-29

黑色素瘤癌症图像数据集 JPG( 13900 张高分辨率图像)

该数据集包含 13,900 张精心策划的图像,是推动皮肤病学和计算机辅助诊断领域的宝贵资源。潜入黑色素瘤的复杂世界,每个像素都有可能重新定义早期检测。这些图像的大小统一为 224 x 224 像素,提供了黑色素瘤不同表现的全面视图。

2024-03-29

真人与假人脸的数据集 CSV+JPG(10K+图像)

该文件夹包含训练集中的所有图像,总计 7000 个图像。在这些图像中,3500 张是真实的,3500 张是假的。该文件包含每个图像的元数据。traintrain.csv 该文件夹包含验证集中的所有图像,总共有 3000 个图像。在这些图像中,1500 张是真实的,1500 张是假的。该文件包含每个图像的元数据。validvalid.csv

2024-03-29

番茄叶病检测数据集(700+图像 )YOLOv5 PyTorch 格式注释

数据包含 :细菌斑点、早期枯萎病、健康、晚疫病、叶霉、目标点、黑点 叶病以 YOLO v5 PyTorch 格式注释。 对每个图像应用了以下预处理: 像素数据的自动取向(使用 EXIF 取向剥离) 调整大小为 640x640(拉伸)

2024-03-29

PC 零件图像数据集 JPG(3K+图像)

该数据集每个类都有自己的文件夹,其中包含相应的图像。图像的分辨率为 256x256 像素,共计3279张。

2024-03-29

基于Python实现心脏病数据可视化DEA+预测【500010103.1】

该数据集由 1190 个实例和 11 个特征组成。 实现功能: 1、类别统计 2、分类参数对心脏病诊断的影响 3、配对图显示诊断标记的患者之间的数值数据分布 4、显示心脏病患者和非心脏病患者数值均值的条形图 5、显示心脏病患者和非心脏病患者的数值分布和异常值的箱线图 6、Kdeplots、条形图、箱线图显示无心脏病患者的数值分布 7、缩放值并拆分为训练和测试批次 8、模型 9、评估预测

2024-04-25

心脏病数据集(1190 个实例和 11 个特征)【500010103】

该心脏病数据集是通过组合 5 个已经独立可用但以前未合并的流行心脏病数据集来策划的。在这个数据集中,5 个心脏数据集结合了 11 个共同特征,使其成为迄今为止可用于研究目的的最大心脏病数据集。 该数据集由 1190 个实例和 11 个特征组成。这些数据集被收集并组合在一个地方,以帮助推进与CAD相关的机器学习和数据挖掘算法的研究,并希望最终推进临床诊断和早期治疗。

2024-04-25

俄亥俄州公立大学高等教育员工工资数据集 CSV 93W+记录(University Employee Salaries)

大学雇员工资(2011年至今)了解俄亥俄州公立大学高等教育员工自 2011 年以来的工资。 该数据集提供了对多个机构中各种职位收益的见解。请注意,福利不包括在报告的工资中。

2024-04-17

房价数据集 CSV 2.1W+记录(Housing Price Dataset)

房价数据集提供了全面的房产列表集合,包括各种属性,例如卧室、浴室的数量、居住面积、地块大小和位置详细信息。该数据集对于广泛的数据分析和机器学习应用非常宝贵。例如,它可以用于预测建模,根据位置、便利设施和状况等特征预测房地产价格。此外,它还可以帮助识别房地产市场的趋势和模式,帮助投资者、房地产经纪人和政策制定者做出明智的决策。此外,该数据集可以作为为购房者开发推荐系统的基础,引导他们选择符合他们偏好和要求的房产。总体而言,房价数据集为利用数据驱动的方法来有效理解和驾驭住房市场提供了丰富的见解和机会。

2024-04-17

美国成人人口普查收入数据集 CSV 3.2W+记录(Adult Census Income)

成人人口普查收入数据集是了解影响收入水平的社会经济因素的丰富资源。它包含来自美国人口普查局的人口统计和就业信息,包括年龄、工作阶级、教育水平、婚姻状况、职业、关系、种族、性别、每周工作时间和原籍国。该数据集还包括一个“收入”列,指示个人的收入是否超过每年 50K。该数据集通常用于机器学习中的分类任务,其目标是根据其他属性预测个人的收入是否超过 50K。请注意,本数据集中的所有个人数据均已匿名化,以保护隐私。祝您探索愉快!

2024-04-17

酒精对学生影响数据集 CSV 407条记录(Effects of Alcohol on Student Performance)

该项目的主要目的是使用基于 2023 年学生信息提到的预测变量构建的多线性回归模型来预测学生的学业成绩(成绩)

2024-04-17

肥胖水平数据集 CSV 2.1K+记录(Obesity Levels)

该数据集包括根据墨西哥、秘鲁和哥伦比亚国家的饮食习惯和身体状况估计个人肥胖水平的数据。数据包含 17 个属性和 2111 条记录,这些记录用类变量 NObesity(肥胖水平)标记,允许使用体重不足、正常体重、超重 I 级、超重 II 级、肥胖 I 型、肥胖 II 型和肥胖 III 型的值对数据进行分类。77%的数据是使用Weka工具和SMOTE过滤器合成生成的,23%的数据是通过网络平台直接从用户那里收集的。

2024-04-17

客户购买行为数据集 CSV 10W条记录(Customer Purchases Behaviour Dataset)

该数据集包含表示客户购买行为的模拟数据。它包括各种功能,例如年龄、性别、收入、教育程度、地区、忠诚度状态、购买频率、购买金额、产品类别、促销使用情况和满意度分数。

2024-04-17

学生的态度和行为数据集 CSV 263条记录(Student Attitude and Behavior)

该数据集包含通过 Google 表单从大学生那里收集的信息。它包括认证课程、性别、部门、身高(厘米)、体重(公斤)、10 年级和 12 年级的分数、大学成绩、爱好、日常学习时间、首选学习环境、薪水期望、对学位的满意度、从事与学位相关的职业的意愿、社交媒体和视频使用情况、旅行时间、压力水平和财务状况。该数据集旨在提供对学生行为的见解,可用于分析和研究目的。

2024-04-17

在线食品数据集 CSV 389条记录(Online Food Dataset)

数据集包含一段时间内从在线订餐平台收集的信息。它包含与职业、家庭规模、反馈等相关的各种属性。 人口统计信息:年龄、性别、婚姻状况、职业、月收入、学历、家庭规模、位置信息(纬度、经度)、PIN 码。

2024-04-17

学生学习表现数据集 CSV 1000条记录(Student Study Performance)

该项目了解学生的表现(考试成绩)如何受到其他变量的影响,例如性别、种族、父母的教育水平、午餐和考试准备课程。 该数据集由学生在各个科目中获得的分数组成。 性别:学生性别->(男/女) 种族/民族:学生的民族->(A、B、C、D、E组) 父母的教育程度:父母的最终教育->(学士,部分大学,硕士学位,副学士学位,- 高中) 午餐:考试前吃午饭(标准或免费/减价) 备考课程:考试前完成或未完成 数学成绩 阅读分数 写作分数

2024-04-17

23-24赛季所有英超球员的射门统计数据集 CSV 583条记录(EPL Player Shooting)

该数据集包含英超联赛中球员的射门统计数据。它包括进球数、射门次数、射门精度、预期进球数 (xG) 等指标。数据来源于FBRef,涵盖了最新的英超赛季。

2024-04-17

医学影像数据集 JPG 4K+张图像(4种胃肠道疾病)

该数据集提供了来自胃肠道内窥镜手术的一系列全面的医学图像和视频。在这个数据集中,我们精心捕捉了广泛的胃肠道疾病,包括息肉、溃疡、出血、炎症和正常的解剖学特征。病理学的这种多样性为研究人员和开发人员提供了广泛的基础,用于进行分析和开发旨在提高胃肠道医学诊断能力的算法。

2024-04-15

100种体育图像分类数据集 JPG(13493 训练,500 测试,500 验证图像 )

涵盖 100 种不同运动的体育图像集合。图片为 224,224,3 jpg 格式。数据分为训练目录、测试目录和有效目录。此外,还包括一个 csv 文件,供那些希望使用它来创建自己的训练、测试和验证数据集的人使用。

2024-04-15

金钱植物病害分类任务数据集 JPG(1.5W 张图像)

该数据集总共由 15,000 张图像组成,每个疾病类别包含 5,000 张图像。该数据集是描述金钱植物叶子各种健康状况的综合图像集合,主要关注两种流行的疾病:细菌性枯萎病和锰毒性。此外,我们还包含一个文件夹,其中包含健康金钱植物叶子的图像以供比较。

2024-04-15

玉米或玉米叶病数据集 JPG(4K+张图像)

0: Common Rust - 1306 张图片 1: Gray Leaf Spot - 574 图像 2: 枯萎病 -1146 图像 3: 健康 - 1162 图像

2024-04-15

索科托考文垂指纹数据集 BMP(600人 6W 张指纹图像)

索科托考文垂指纹数据集(SOCOFing)是一个生物识别指纹数据库,专为学术研究目的而设计。SOCOFing 由来自 600 名非洲受试者的 6,000 张指纹图像组成,并包含独特的属性,例如性别标签、手和手指名称以及具有三种不同程度的改变的合成改变版本,分别是湮灭、中心旋转和 z 形切割。

2024-04-15

疟疾寄生虫数据集 JPG(655 张薄涂片图像)

该数据库收集了 655 张薄涂片图像,每张图像都包含寄生虫周围的边界框,为训练和测试机器学习算法提供了各种示例。

2024-04-15

用于息肉检测的内窥镜结肠镜检查框架数据集 PNG+TIFF+CSV(2K+张图像)

该数据集是一个从结肠镜检查视频中提取的帧数据库。该数据集包含几个息肉帧示例以及它们的相应地面事实。Ground Truth 图像由一个掩码组成,该掩码对应于图像中息肉覆盖的区域。

2024-04-15

肿瘤数据集JPG+CSV(4.5K+张X射线图像)

该数据集由诊断为脑肿瘤的患者的大脑扫描图像组成。训练和测试数据的分离文件,具有分离的特征和标签。

2024-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除