Kiiato-CSDN博客

原创实用小技巧-----解决从Github上获取.csv文件

由于最近学习需要，要在github上获取原始数据。但下载通道给堵死了，试着改了虚拟IP地址等方法都没有用，于是尝试出了一个半自动的小方法。问题叙述找到需要的资源地址。以该项目为例：https://github.com/jakevdp/data-USstates常规的链接下载方法失效，采用最原始的方法：复制粘贴。将复制后的内容放到Excel表格中，再导出逗号分隔符（CSV）文件该文件顺序并没有想象中的完美，如果直接逐行读取（以其中一个文件为例），结果如下：后面产生了一行我们不需要的空数据，用记事

2020-07-25 12:33:21 1877

原创如何完成用Jupyter完成决策树的可视化

原生态的Jupyter Notebook无法完成对dot图的可视化，早上搞了好久才解决可视化的问题，记录一下备用吧。准备工作安装graphviz包网址：https://graphviz.gitlab.io/_pages/Download/Download_windows.html选择praphviz-2.38.msi下载默认路径为C:\Program Files (x86)\Graphviz2.38设置环境变量。注意：如果运行时系统无法正确找到graphviz，大概率是因为与matlab中的

2020-07-08 15:39:54 5188

原创决策树参数调节

基本的决策树语法如下from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.tree import DecisionTreeClassifiercancer=load_breast_cancer()X_train,X_test,y_train,y_test=train_test_split( cancer.data,canc

2020-07-08 15:06:02 6493 2

原创机器学习起步--鸢尾花分类2

*最近时间比较宽裕了，闲暇之余多学习一下项目的流程吧。虽然主要目标是random forest，但作为掉包侠，肯定是用学习使用多种模型的Training data和Testing data的分类科学的理论方法，简而言之就是有放回的抽取，在统计学的意义下尽可能减少随机性对训练结果的影响。实现分类的代码块如下：from sklearn.datasets import load_irisiris_datasets = load_iris()from sklearn.model_selection i

2020-07-06 16:16:48 230

原创机器学习起步---鸢尾花分类1

本文基于Jupyter notebook网页式交互开发环境，前提是配置好相应的软件以及路径，推荐使用Anaconda，它是免费的开源项目，下载方便，并且预置了Jupyter notebook应用程序和Numpy，Scipy，matplotlib，pandas，IPython，scikit-learn等诸多科学计算包*分析的对象是一个已经封装好的数据集合，文本重点是对于该对象结构的剖析，以及使用既有算法对其训练，观察，预测和评估的一系列操作。而不涉及如何从其他地方提取数据，生成新的数据集初识数据l.

2020-06-15 18:20:16 452

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 实用小技巧-----解决从Github上获取.csv文件

原创 如何完成用Jupyter完成决策树的可视化

原创 决策树参数调节

原创 机器学习起步--鸢尾花分类2

原创 机器学习起步---鸢尾花分类1

空空如也

空空如也

原创实用小技巧-----解决从Github上获取.csv文件

原创如何完成用Jupyter完成决策树的可视化

原创决策树参数调节

原创机器学习起步--鸢尾花分类2

原创机器学习起步---鸢尾花分类1