自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Task2-Pandas-索引

前言:参加 DataWahle 学习打卡活动,作此笔记思维导图感觉内容有些多,记不太住,做笔记留下个印象,用时再查问题如何更改列或行的顺序?如何交换奇偶行(列)的顺序?改变列顺序:声明好列的顺序列表 ordered_columns,然后 df[ordered_columns]改变行的顺序:这个不清楚如果要选出DataFrame的某个子集,请给出尽可能多的方法实现列...

2020-04-23 14:55:37 217

原创 Task2-爬虫-xpath实践丁香园评论

参加了 DataWhale 的活动,学习实践并作笔记已加深理解实践 -丁香园评论构建解析 tree# 导入库from lxml import etreeimport requestsproxies = {'http': "socks5://127.0.0.1:7891/", 'https': "socks5://127.0.0.1:7891/",}ur...

2020-04-22 21:17:56 191

原创 Task2-爬虫-Beautiful soup实践中国大学排名定向爬取

Task2-爬虫-Beautiful soup实践中国大学排名定向爬取参加了 DataWhale 的活动,学习实践并作笔记已加深理解中国大学排名定向爬取代码如下:创建 BeautifulSoup 对象import requestsfrom bs4 import BeautifulSoupproxies = {'http': "socks5://127.0.0.1:7891...

2020-04-22 20:32:05 181

原创 Python 爬虫乱码问题

乱码问题今天学习爬虫的时候遇到乱码问题,借此机会想搞清楚 Python 的乱码,不想跑通就过.r = requests.get('https://www.baidu.com',proxies=proxies) # Demo网址demo = r.text # 抓取的数据打印 demo 结果时候发现出现乱码情况:<a href=http://www.baidu.com/duty/&...

2020-04-22 15:51:39 592

原创 Task2-爬虫-正则学习与实践(爬取天猫商品名称价格)

爬虫Day2-正则学习与实践参加了datawhale活动,顺便记录下学习内容思维导图实践部分爬去天猫的商品信息(名称和价格)总体分为三步骤:获取 html 文本 get_html_text(url, data):def get_html_text(url, data): try: headers = { 'cookie': '这个...

2020-04-21 13:16:58 397

原创 day1-线性回归

思维导图最小二乘法class LR(): def __init__(self): self.w = None def fit(self, x, y): self.w = np.linalg.inv(x.T.dot(x)).dot(x.T).dot(y) def predict(self, x): return ...

2020-04-21 00:01:58 125

原创 Day1-pandas基础

Day1-pandas参加活动,借此机会加深印象和手感并整理下笔记,文件读取df = pd.read_csv('data/table.csv')df.to_csv('data/table.csv', index=False) #索引不写入文件Series 和 DataFrameseriesSeries 常用写法 pd.Series([1,23,4], index=[‘a’,‘b’,...

2020-04-19 22:30:32 125

原创 爬虫-Day1-爬取豆瓣经典电影

爬虫-Day0-爬取豆瓣经典电影网页基础网页由 HTML、CSS、JS 三部分组成。HTML:整个网页的骨架HTML中所有的标签定义的内容都是节点,形成一个 HTML DOM 树CSS:装饰网页,为网页带来样式CSS 使用选择器来定位id #class .JavaScript:让网“页”动起来,以便交互和展示爬虫基本流程爬虫就是自动化获取网页数据并提取数据...

2020-04-18 23:53:07 324

原创 CS224N lecture03-04

CS224N lecture03-04lecture3、4主要介绍了神经网络组成、如何被训练、反向传播等.梯度基础标量对向量求导f(x)=f(x1,x2,...xn)f(x) = f(x_1, x_2, ... x_n)f(x)=f(x1​,x2​,...xn​) 那么令 f(x) 对输入向量求导∂f∂x=[∂f∂x1,∂f∂x2,...∂f∂xn]\frac{\partial f}...

2020-02-18 22:03:35 157

原创 CS224N_lecture02 Glove

Count based vs direct prediction基于计数方法可以有效利用统计信息,并且捕获单词间的相似度,但是在单词的分析方面表现欠佳.基于上下文窗口预测的方法如Skip-gram、CBOW等可以学习到单词相似度之外的复杂语义模式,但是无法很好利用共现统计信息.Encoding meaning in vector differencesGlove 想要结合Count ba...

2020-02-15 18:47:36 223

原创 softmax 求导

Softmax 可以作为多分类任务输出,输出每个类别的概率,其表达式如下:Si=ezi∑kzkS_i = \frac{e^{z_i}}{\sum_k{z_k}}Si​=∑k​zk​ezi​​其中:分子: 通过指数函数将实数映射大0到正无穷分母: 求和,起归一化的作用softmax 利用指数函数将数值大值放大,为其赋予更大的概率,同时对于特别小的数值,也为其赋予一个大于0的概率,保证...

2020-02-13 22:50:38 155

原创 CS224N_lecture01

最近在学习CS224N,为了加深理解做此笔记,初学所以如有问题欢迎指正!人类语言可以理解为一个用于传递消息的系统,与计算机网络系统每秒可以上传下载几十或者几百MB而言,人类语言是一个慢的网络,每秒也就只能传输几个单词(几个字节)。但人类的语言系统也十分的有意思,仅仅通过传输几个字节,就可以让对方联想出一个视觉图像(几MB)等.语言中的单词是一个映射指定事情或者想法的符号.如何以一个很好的...

2020-02-05 15:51:59 244

原创 精度、召回率、准确率、F1、ROC、AUC的理解

1. 错误率、精度精度(accuracy) 分类正确的样本数占总样本数的比例错误率(error rate) 分类错误的样本数占总样本数的比例通常来说精度(accuracy)不是一个好的性能指标,尤其是处理数据有偏差时候比如一类非常多,一类很少比如手写数字识别问题,只判断一副图片是不是5,由于5的图片只占百分之10左右,所以分类器总是预测图片不是5都会有90%左右的可能性是对的2. 混...

2020-01-31 16:55:54 5943 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除