自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 《数据结构》阶段性测试1

6-1 十进制转二进制(顺序栈设计和应用)7-1 两个有序序列的中位数

2022-04-12 13:35:24 3302 1

原创 1.Python版本以及软件安装

anaconda安装教程pycharm安装运行教程

2022-03-24 02:22:20 1130

原创 数据挖掘——分类模型评估

分类模型的评估1)混淆矩阵(confusion matrix) 类 Buys_c = yes Buys_c = no 合计 识别率(%) Buys_c = yes Buys_c = no 6954 412 46 2588 7000 3000 99.34 8.

2020-11-08 17:02:07 593

原创 数据挖掘——分类算法

分类算法目录分类算法ID3算法使用增益率C4.5算法Gini指标 CART算法CART算法(C&R算法)采用一种二分(划重点)递归分割的方法CHAID(Chi-square Automatic Interaction Detection,卡方自动交互检测)算法使用贝叶斯定理支持向量机SVMBagging(装袋)Boosting(提升法)C5.0算法中引入Boosting技术以提高模型准确率。ID3算法信息熵:。在构造决策树的过程中,熵.

2020-11-08 16:52:01 1848

原创 数据挖掘概述

数据挖掘数据驱动的决策支持决策需要数据分析的支持非客观的决策在管理上有重大作用基于数据分析的决策,成为当前时代的话题数据挖掘Data Ming数据挖掘:通过分析每个数据,从大量数据中找到其规律的技术目标原理:了解数据挖掘概念,理解挖掘流程方法:清楚常用算法原理,能在具体场合使用算法,并对算法进行评估和调优工具:SPSS Modeler等数据分析工具...

2020-11-08 14:54:03 1400

原创 信息检索——索引压缩

索引压缩目录索引压缩为什么需要压缩?两种压缩方式:信息检索中词项的统计特性Heaps定律Zipf定律词典压缩用定长数组来存储词典中的词项。将词典看成单一字符串的压缩方法按块存储前端编码倒排记录表的压缩可变字节编码VB编码gamma 编码索引压缩:对词典和倒排记录表这两个数据结构进行压缩。为什么需要压缩?使用更少的磁盘空间节省资金在内存中存放更多信息提高速度提高数据从磁盘传输到内存的速度读取压缩数据|解压缩 ...

2020-11-07 21:01:44 1727

原创 二进制

二进制计算机为什么采用二进制?二进制仅使用0和1两个数,相对应实际生活中具有两种明显稳定状态的元件。 二进制的四则运算规则非常简单 在电子计算机中使用二进制,可以节省设备 “1”和“0” 正好对应 “对” 和“错”十进制转换为二进制对十进制数进行除数为2的短除 直至最后商为0 最后记录下每次的余数,从下到上排列举例:将十进制125转换为二进制二进制为:1111101二进制转换为十进制从右到左递增乘以2的几次方举例:将二进制11...

2020-11-07 20:08:20 385

原创 信息检索——索引构建

索引构建本章内容:硬件基础 语料库 大规模倒排索引构建 基于块的索引构建BSBI 内存式单遍扫描索引构建SPIMI分布式索引MapReduce 动态索引目录索引构建硬件基础语料库大规模倒排索引构建基于块的排序索引BSBI内存式单遍扫描索引SPIMI分布式索引MapReduce动态索引索引构建:建立倒排索引的过程index construction索引器:构建...

2020-11-07 13:42:42 1358

原创 信息检索——词典及容错式检索

词典及容错式检索目录词典及容错式检索词典搜索的数据结构词典的数据结构中存储了 词项词汇表,文档频率,每个倒排记录表的指针....哈希表树二叉搜索树B树B+树数据结构通配符查询*轮排索引(一般的通配符查询)支持通配符查询的K-gram索引(双联词索引)处理通配符查询拼写校正词项独立校正编辑距离k-gram重合度方法基于发音的校正技术本章内容:词典搜索的数据结构(哈希表和树) 通配符查询(轮排索引/k-gra...

2020-11-06 22:36:04 924

原创 信息检索——词项词典及倒排记录表

词项词典及倒排记录表本章内容收集词项词典的预处理收集文档 词条化 应该把哪些词放入索引?倒排记录表快速处理:跳表 含位置信息的倒排记录表和短语查询分析文档需要处理每一个文档的格式及语言 格式:PDF/excel/word/HTML... 语言 字符集:utf-8/gbk/gb2312....索引粒度可取的做法是将每章或每段看成一个微型文档来建立索引,匹配单位的粒度越小,用户就越容易在文档中找到相关的段落。索引粒度太小,...

2020-11-06 17:01:01 788

原创 信息检索——倒排索引和布尔查询

线性扫描 词项-文档关联 倒排索引 查询处理AND 布尔查询 自由文本查询 查询优化举例:查找《莎士比亚》中的人名1 AND 2 but NOT 3线性扫描grepping:从头到尾阅读该全集,对每部剧本都留心是否包含1和2不包含3缺点:太慢不灵活无法排序词项-文档关联缺点:太大了而且99.8%的元素都为0更好的方法是只记录原始矩阵中1的位置行:文档向量列:词项向量1或0:1表示存在...

2020-11-06 14:37:10 1822

原创 信息检索——概述

**信息检索:是一门不断发展并和其他领域、技术不断融合的学科。基于语言建模的的信息检索模型、基于机器学习的检索结果排序方式、检索结果的Snippet生成、聚类标签生成、XML检索、搜索广告、网页作弊等等。信息检索information retrieval 简称IR信息获取信息检索是从 大规模 非结构化数据的集合中找出满足用户信息需求的资料的过程。非结构化数据(通常是文本)集合(通常保存在计算机上)满足用户信息需求的资料(通常是文档)信息检索规模的分类Web搜索——大规模个人信息检索—

2020-11-06 14:25:25 868

课程设计学生管理系统设计与实现

课程报告、演示视频、项目源码、sql脚本文件都已包含

2022-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除