蔡艺君小朋友-CSDN博客

原创查看安装目录

通用查看文件安装目录：查看安装目录可以右键点击快捷方式，找到打开文件所在的位置。Mysql安装路径：win+r输入services.msc,找到名称为MySQL服务器名称的项目，比如MySQL80,右键—属性，可执行文件路径就为安装路径use+数据库名用于切换数据库...

2019-07-24 22:43:24 638

Windows下查看mysql的配置文件在安装目录下找my.ini(根据自己系统设置，可能没有.ini后缀)文件，如果没有则可能在隐藏文件下，我默认安装在C盘，进入C盘目录，点文件选项中查看选项卡，勾选隐藏的项目，则C盘下多一个ProgramData文件夹，然后进入这个目录下C:\ProgramData\MySQL\MySQL Server 8.0,有个名为my的配置文件，用记事本打开，就可以进...

2019-07-24 12:49:49 253

转载 DBeaver连接MySQL出现问题

time zone 时区错误DBEAVER连接MySQL运行报错The server time zone value ‘ÖÐ¹ú±ê×¼Ê±¼ä’ is unrecognized or represents more than one time zone使用root用户登录mysql，按照如下图所示操作即可。show variables like '%time_zone%';SYSTE...

2019-07-22 10:59:47 9640 2

原创 python学习笔记9---scrapy框架

糗事百科段子之scrapy爬虫前期工作创建项目：进入cmd中，切换路径到某个工作目录下，创建项目scrapy startproject 项目名称创建爬虫文件：首先到上述创建项目的目录下cd 项目名称，scrapy genspider 爬虫的名称网站域名对于出现的多个py文件内容如下qsbk_spider.py# -*- coding: utf-8 -*-'''response...

2019-05-05 22:24:27 193

原创 python学习笔记8---爬虫进阶

多线程概念和threading模块介绍没有多线程import threadingdef coding(): for x in range(3): print('正在写代码%s'%x) time.sleep(1)def drawing(): for x in range(3) print('正在画图%s'%x) ...

2019-03-26 15:59:57 572

原创 python学习笔记7---数据存储

dump成json字符串以及编码问题import jsonpersons = [{'username':"蔡",'age':18},{'username':"时",'age':19}]with open('person.json','w') as fp: json.dump(persons,fp,ensure_ascii=False)# json在dump时只能存...

2019-03-26 15:50:29 113

原创 python学习笔记6---数据解析

xpath简介xpath（XML Path Language）是一门在XML和HTML中查找信息的语言。Xpath开发工具1.Chrome插件Xpath Helper点击浏览器右边三点—更多工具—扩展程序—chrome网上商店搜索该插件（需要翻墙，可能一次不能成功添加，多尝试即可）2.Firefox插件Try Xpath点击浏览器右边三横—附加组件—搜索插件—添加Xpath语法谓...

2019-03-08 22:42:30 6304

原创 Linux视频学习笔记

不同应用领域的主流操作系统1>桌面操作系统1.windows2. macOS （适合开发人员）3. Linux （应用软件少）2>服务器操作系统1.Linux （稳定、免费、占有率低）2.windows server （付费、占有率低）3>嵌入式操作系统1.Linux4>移动设备操作系统1.iOS2.Android (基于Linux)Linux常...

2019-03-06 15:33:44 145

转载聚类算法和分类算法

常用的分类算法包括：决策树分类法朴素的贝叶斯分类算法(native Bayesian classifier)基于支持向量机(SVM)的分类器神经网络法k-最近邻法(k-nearest neighbor，kNN)模糊分类法下文出处常见的聚类算法包括：①基于划分的聚类算法k-means：是一种典型的划分聚类算法，它用一个聚类的中心来代表一个簇，即在迭代过程中选择的聚点不一定是聚...

2019-03-05 20:22:56 9261

原创 python学习笔记5---（python网络爬虫-网络请求）

urllib库urllib是最基本的网络请求库。可以模拟浏览器行为，向指定浏览器发送请求，并保存返回的数据。urlopen函数在urllib库中，所有和网络请求相关的方法，都集到urllib.request模块下。from urllib import requestresp=request.urlopen('http://www.baidu.com')print(resp.read()...

2019-03-01 13:31:15 278

原创 python学习笔记4---（python网络爬虫-爬虫前奏）

为什么用python写爬虫程序？1、PHP：对多线程、异步支持不是很好，并发处理能力弱。爬虫是工具性程序，对速度和效率要求较高。2、Java：生态圈很完善。但java本身很笨重，代码量很大。重构成本比较高，任何修改会导致代码大量改动。3、C/C++:运行效率是无敌的。但学习和开发成本高，写个小爬虫程序要大半天时间。4、python：相关HTTP请求模块和HTML解析模块丰富，还有相关框架方...

2019-02-28 19:49:27 372

原创 python学习笔记3---统计一个英文txt文件中出现频率最高的三个字母？

统计一个英文txt文件中出现频率最高的三个字母？代码如下：res ={}#打开文件with open('demo.txt') as f:#遍历(读）文件的内容，忽略空格 for char in f.read().replace(' ',''): # res[char] = res.get(char,0)+1 此处一行代码可以替换下面4行代码（不包括注释行） ...

2019-02-26 13:34:28 1488

原创 Python学习笔记2---面试初级python开发工程师110题答案

sum(range(0,101))a = 5def fn():global aa = 4fn()print(a)os/sys/re/math/datatimedic = {“name”:“cai”,“age”:25}del dic{“name”}dic1={“name”:“shi”}dic.update{dic1}dic={ “age”:25,“name”:...

2019-02-26 13:09:23 447

原创 python学习笔记1---面试初级python开发工程师110题

**面试初级python开发工程师110题（参考答案见下篇）**1、一行代码实现1—100之和2、如何在一个函数内部修改全局变量3、列出5个python标准库4、字典如何删除键和合并两个字典5、谈下python的GIL6、python实现列表去重的方法7、fun(args,**kwargs)中的args,**kwargs什么意思？8、python2和python3的range（...

2019-02-26 11:46:15 417 1

翻译 CoherenceModel官网翻译

CoherenceModel官网翻译models.coherencemodel – Topic coherence pipeline计算主题模型的主题一致性。这是论文四个阶段主题一致性管道的实现。MichaelRoeder，Andreas和Alexander Hinneburg：“Exploring the space of topic coherence measures"。典型的，Cohe...

2018-11-24 12:24:21 5044 3

转载 CSDN-markdown编辑器使用指南

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-11-24 09:48:59 118 2

原创 Python核心编程第二版第七章序列：映像和集合类型

7-3.字典和列表的方法。 (a).创建一个字典，并把这个字典中的键按照字母顺序显示出来dict1 = {'host': '123', 'port': '322'}for i in sorted(dict1.keys()): print(i)(b).现在根据已按照字母顺序排序好的键，显示出这个字典中的键和值dict1 = {'host': '123', 'port': ...

2018-09-13 21:10:04 317

原创 Python核心编程第2版第六章习题答案

import stringimport keywordimport sysStartwith=string.ascii_letters+'_'Othersymbol=string.digitsdef CheckID(s): if s[0] in Startwith: if len(s)==1: print(&amp;amp;amp;amp;quot;The ID is val...

2018-09-05 15:02:22 1460

原创文献

基于ATM并行化采样优化算法的研究—童威［摘要］本文基于企业微博主题分析，提出一种大规模作者主题模型训练的并行化思想，继而提出相应的采样算法，并在此基础之上针对其采样复杂度高的问题提出优化采样算法。同时在 Spark 大数据平台上设计实现了大规模作者主题模型的并行化采样算法框架，并在此框架上设计实现了此并行化算法。通过实验分析，此并行化采样框架能有效地解决大规模语料的作者主题模型采样问题，由...

2018-07-19 16:28:48 201

原创爬虫的相关链接

爬虫抓取新浪科技的文章beautiful soup+mysql selenium自动化测试资源整理（含所有版本chrome、chromedriver、firefox下载链接

2018-07-17 11:17:57 140

原创 gensim相关链接

gensim API Reference ~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~

2018-07-17 10:54:13 149

原创杂乱链接集合

问卷网 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 英文文献查找 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ IPC国际专利分类SooPAT ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~...

2018-07-16 22:45:28 399

原创 gensim中带监督味的作者-主题模型

作者主题模型的通俗解释model_list = []for i in range(5): model = AuthorTopicModel(corpus=corpus, num_topics=10, id2word=dictionary.id2token, \ author2doc=author2doc, chunksize=2000, p...

2018-07-16 22:16:55 1731 3

原创 Python3进行词频统计

一、统计序列中元素的频率 1.以序列中统计元素个数为例from random import randint# 先用随机库生成有重复元素的序列list = [randint(0,10) for _ in range(1,20)]print(list)[10,7,10,6,10,5,2,6,1,0,9,0,3,5,2,5,5,3,10]方法①：新建空字典，循环遍历做判断d={}...

2018-07-16 22:14:29 1522

原创 Python相关链接

WindowsCompilers—Microsoft Visual C++ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~ PyPA—Python Packaging User Guide ~~~~~~~~~~~~~~~~~~~~~~~~~~~~分割线~~~~~~~~~~~~~~~~~~~~~~~~~~~~ pyp...

2018-07-16 20:53:20 136

翻译 gensim---LDA---perplexity

以下内容来源于https://blog.csdn.net/qq_25073545/article/details/79773807 使用gensim实现lda，并计算perplexity（ gensim Perplexity Estimates in LDA Model） Neither. The values coming out of bound() depend on the numb...

2018-07-16 11:14:28 7013 4

原创 anaconda及代码运行时间

Anaconda3代码自动补齐点击Spyder菜单栏中的Tools—&amp;amp;amp;gt;preferences，选中左侧Ipython console ，然后选择右侧Advanced Settings选项卡，勾选Use the greedy completer,并将Autocall改为Full，点击OK保存。Anaconda3代码提示1、找到module_completion.py这个文件，我使用...

2018-07-15 10:12:20 3788

原创杂笔

1、用ZIP创建字典 - 创建字典的三种方法dict(a=1,b=2,c=3)dict([(a,1),(b,2),(c,3)])dict({a:1,b:2,c:3})推荐使用第二种方法结合zip创建key = 'abcde'value = range(1, 6)dict(zip(key, value))2、使用iteritems遍历字典d = dict(a=...

2018-07-06 22:02:31 259

原创作者主题模型

作者主题模型ATMODEL最近一篇关于JAVA的博客中处理的结果，直接用于该python代码运行。遇到的bug：1.BUG1perwordbound = at_model.bound(at_model.corpus, author2doc=at_model.author2doc, doc2author=at_model...

2018-07-01 19:43:23 1501 3

原创中科院分词系统NLPIR的JAVA代码（补充）

在上一篇博客基础上，加了以下功能，并作细小更改：去掉停用词名词词性抽取具体代码见下：package code;import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.ByteArrayInputStream;import java.io.File;import j...

2018-06-24 10:53:59 231

原创抓取猫眼电影排行

抓取猫眼电影排行# -*- coding:utf-8 -*-import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport time# 抓取首页def get_one_page(url): try: headers = { ...

2018-06-19 10:28:40 510

原创中科院分词系统NLPIR的JAVA代码（批量读取文件）

准备工作：最新NLPIR分词系统下载包http://ictclas.nlpir.org/downloads授权文件更新：https://github.com/NLPIR-team/NLPIR/tree/431b6351f30ed7d606ac50fde1f4456c596998df/License或者https://github.com/NLPIR-team/NLPIR/tree/mast...

2018-06-13 21:04:51 330

原创基本库的使用（续1）

第三章、基本库的使用2.Requestimport urllib.requestrequest=urllib.request.Request('https://python.org')response=urllib.request.urlopen(request)print(response.read().decode('uft-8'))还是用urlopen()方法发送请求，只...

2018-06-06 22:07:40 159

原创关于Jupyter的小知识

一、更改Jupyter notebook的工作空间*方式1 在cmd中输入 jupyter notebook –generate-config 找到配置文件位置，将该.py中# The directory to use for notebooks and kernels.# c.NotebookApp.notebook_dir =''的路径改为自己指定的工作空间，如c.Notebo...

2018-06-04 20:57:29 473

原创基本库的使用

第三章、基本库的使用 3.1 使用urllib urllib是python内置的HTTP请求库，也就是不需要额外安装即可使用，它包含4个模块。request：模拟发送请求errorparse：提供许多URL处理方法，比如拆分、解析、合并等 robotparser：主要是用来识别网站的robots.txt文件，判断哪些网站可以爬3.1.1 发送请求 1.urlopen()（u...

2018-06-04 20:56:03 227

原创爬虫基础（续）

第二章、爬虫基础2.2 网页基础2.2.1 网页的组成网页分为三大部分—-HTML、CSS和JavaScript 1.HTML（内容和结构）网页的基础框架就是HTML 开发者工具中Elements选项卡下左边为html，右边为CSS 2.CSS（布局）#head_wrapper.s-ps-islite .s-p-top{position:absolute;wi...

2018-06-03 20:33:09 173

原创爬虫基础

一、爬虫基础1.1 HTTP基本原理1.1.1 URL和URIURL：统一资源定位符；URI：统一资源标志符。 URL是URI的子集，即每个URL都是一个URI，反之不一定成立。 URI还有一个子类是URN（统一资源名称），URN只命名资源不指定如何定位资源（URL指定如何定位资源），如urn：isbn：0451450523指定一本书的ISBN（唯一标识这本书），但没有指定...

2018-06-01 21:16:08 241

TCP/IP通信c#例程

自己做的 C#图书馆管理系统，含数据库文件及源代码

多普达838 1.17os G3 WiFi补丁

空空如也