我是一个小小代码搬运工-CSDN博客

原创一起学python-3发现群组-皮尔逊相关系数

这一章，我想了很久，其实我的认知也还是比较肤浅，本文权当抛砖引玉。前三篇文章里面我们分别抓取了url数据、文章内容、分词生成bigtable，没有解释为什么我们要生成bigtable，而这个是本章需要说明的事情，而介绍人工智能、数据挖掘为什么用矩阵数据，这是一个大坑，就这点目前确实需要一起学习共进，尽量以通俗的语言阐述高深的数据理论知识。先丢几篇前辈孟岩“矩阵三论”镇一下楼。https...

2019-05-08 15:02:11 627

原创一起学python-3发现群组-分词bigtable生成

在前面文章我们已经抓取好了全部的文章内容（一起学python-数据抓取、一起学python-文章抓取过滤格式）我们的目标是自动计算出相关性，为了计算相关性，我们的想法用比较常用的方法来实现，即对文章出现词汇的频率来判断文章的相关性，但是对于词语的频率来说，有很多高频词，但是没有实际意义，比如“的”，“逗号”，“句号”，“你”，“我”，“他”等，对于这些高频词汇，我们需要过滤掉，在本文中我们将1...

2018-07-23 17:58:05 211

原创一起学python-2发现群组-文章抓取过滤格式

接到上页 https://blog.csdn.net/naner3344/article/details/81146518 我们已经把文章清单列表抓取了，接下来我们就是逐一抓取文章抓取文章内容比上页还要简单些，但是一抓下来发现里面混了很多html标签这个里面大部分都是html标签，比较麻烦，尝试了很多种方法去除都不是很好，最后看见别人用正则表达式，试了一下效果很好 patter...

2018-07-23 11:47:47 224

原创一起学python-1发现群组-数据抓取

最近在学习群组的发现，如何通过python 代码实现，说下我们的目标，捕获公司内网的5000多篇技术精英大赛的文章，然后对文章进行分词，最后计算出相关性，通过图的形式输出结果，在输出结果前，我们是无法知道文章的相似性，围绕这一目标进行学习。本次主要是数据的抓取。目标网站数据源如图大致有5100篇文章，但是一页只有30多篇的样子，然后继续下拉，有个浏览更多...

2018-07-21 17:29:55 316