- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 一起学python-3发现群组-皮尔逊相关系数
这一章,我想了很久,其实我的认知也还是比较肤浅,本文权当抛砖引玉。前三篇文章里面我们分别抓取了url数据、文章内容、分词生成bigtable,没有解释为什么我们要生成bigtable,而这个是本章需要说明的事情,而介绍人工智能、数据挖掘为什么用矩阵数据,这是一个大坑,就这点目前确实需要一起学习共进,尽量以通俗的语言阐述高深的数据理论知识。先丢几篇前辈孟岩“矩阵三论”镇一下楼。https...
2019-05-08 15:02:11 627
原创 一起学python-3发现群组-分词bigtable生成
在前面文章我们已经抓取好了全部的文章内容(一起学python-数据抓取 、一起学python-文章抓取过滤格式 )我们的目标是自动计算出相关性,为了计算相关性,我们的想法用比较常用的方法来实现,即对文章出现词汇的频率来判断文章的相关性,但是对于词语的频率来说,有很多高频词,但是没有实际意义,比如“的”,“逗号”,“句号”,“你”,“我”,“他”等,对于这些高频词汇,我们需要过滤掉,在本文中我们将1...
2018-07-23 17:58:05 211
原创 一起学python-2发现群组-文章抓取过滤格式
接到上页 https://blog.csdn.net/naner3344/article/details/81146518 我们已经把文章清单列表抓取了,接下来我们就是逐一抓取文章抓取文章内容比上页还要简单些,但是一抓下来发现里面混了很多html标签这个里面大部分都是html标签, 比较麻烦,尝试了很多种方法去除都不是很好,最后看见别人用正则表达式,试了一下效果很好 patter...
2018-07-23 11:47:47 224
原创 一起学python-1发现群组-数据抓取
最近在学习群组的发现,如何通过python 代码实现,说下我们的目标,捕获公司内网的5000多篇技术精英大赛的文章,然后对文章进行分词,最后计算出相关性,通过图的形式输出结果,在输出结果前,我们是无法知道文章的相似性,围绕这一目标进行学习。 本次主要是数据的抓取。 目标网站数据源如图大致有5100篇文章 ,但是一页只有30多篇的样子,然后继续下拉,有个浏览更多...
2018-07-21 17:29:55 316
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人