语译分西-CSDN博客

原创问卷数据分析流程

文章目录一、数据合并1. 读取数据2. 数据预览二、数据清洗1. 检验ID是否重复，剔除ID重复项2. 剔除填写时间小于xx分钟的值三、数据清洗1. 将问卷编码后的code解码，还原成原来的选项一、数据合并1. 读取数据import pandas as pddata = pd.read_excel('模块化床CMF调研_数据合并_202203.xlsx')2. 数据预览二、数据清洗1. 检验ID是否重复，剔除ID重复项检查是否有重复项，若无，返回0print('ID重复的个数：',dat

2023-02-17 11:08:28 918

原创将excel数据格式转成tableau

import pandas as pddata = pd.read_excel('世界各国人口统计数据_2000-2020(世界银行).xlsx')data.head()print(data.columns.tolist())# 将上面显示出来的列名列表，选出几列作为主类别，此类别output = data.melt(id_vars=['Country Name','Country Code', '国家/地区名称'])outputoutput.to_excel('世界人口统计数据

2021-08-03 21:21:45 485

原创桌面研究-数据源

文章目录1.各国每年人口统计表2.各国年龄结构表3. 国家简介4.城镇化率5.美国房屋统计数据1.各国每年人口统计表1.世界人口表2.世界银行人口统计表2.各国年龄结构表世界年龄分布表CIA的年龄结构数据3. 国家简介1.CIA国家简介4.城镇化率1.世界银行数据2.世界人口、城镇化率5.美国房屋统计数据1.美国房屋统计数据2.statista美国房屋数据...

2021-07-13 21:31:16 314

原创问卷：批量处理问卷【单选题】X【策略人群】得出占比、频数、TGI

文章目录1. 导入数据，打印数据属性列表2. 获得单选题列表3.检查每一列是否都是int格式，不是的进行处理4.定义寻找非空值、非跳过的样本的函数5.主程序6.选择一个问卷问题的分析结果进行预览7.给选项重命名，并且将选项值只保留数字索引8.将选项从数字索引转换成实际的问卷选项字符串9.批量将每一题的分析结果导出到一个excel中的不同sheet1. 导入数据，打印数据属性列表import pandas as pdoriginal_data = pd.read_excel('19.新策略人群标注问卷数

2021-06-21 17:08:33 125

原创问卷：策略人群划分

# 年龄18-24，购买力1/2/3def customer_seg(purchase,city,age,sex): # Z世代 if age == '18-24岁' and (purchase == 1 or purchase ==2 or purchase ==3): return 'Z世代' # 小镇百姓:25-44,购买力1,2；城市等级5，6 if (age == '25-29岁' or age == '30-34岁' or age ==

2021-06-19 15:21:23 599

原创问卷：问卷星【来源详情】ID，靠左补齐成8位数

data['来源详情'] = data['来源详情'].str.pad(width=8,side='left',fillchar='0')

2021-06-19 14:58:36 1339

原创问卷：《问卷星》+《微调查》的【单选题】合并

问卷星和微调查两个调查问卷的题目略有不同，问卷星：单纯的是题目，微调查：会有题目题号和选项问卷星：“您的年龄是？”微调查：“3 -【第1题-单选题】您的年龄是？(1)18岁以下(2)18-24岁(3)25-29岁(4)30-34岁(5)35-39岁(6)40-44岁(7)45-49岁(8)50-54岁(9)55-59岁(10)60岁及以上”所以要统一题目名称才能进行合并1.找出问卷星里的单选题，然后写成列表2.筛选出微调查的单选列表，检查顺序、数量是否跟问卷星的一样3.

2021-06-19 14:53:30 858

原创问卷：筛选出【微调查】问卷数据中的【单选题】

import pandas as pddata = pd.read_excel('微调查.xlsx')col_list = data.columns.to_list() #提取问卷的属性名称列表danxuan_list = []# 找出属性名中包含“单选题”字样的属性for i in col_list: if '单选题' in i: danxuan_list.append(i.strip())...

2021-06-19 13:48:01 130

原创问卷：问卷星文本导出数据的多选题，排序题的处理拆分

问卷星问卷如果选择的是文本导出而非序号导出，多选题和排序题会用 | 分割符号隔开各个选项以后应该不会用文本导出的数据了，用序号数据首先要找出要处理的选择题的选项有哪些然后判断选项是否出现multi_question_list = ['实用派','自在派','佛系一族','精打细算族','奋斗族']def find_option(x,option): if option in x: return option else: return ''

2021-06-19 12:46:00 5215

原创问卷：单选题的选项转换成1，2，3，4...数值

dict0 = {'新房': 4, '现住房': 3, '出租房（我是房东）': 2, '出租房（我是租客）':1 } dict1 = {'2000元以下':0,'2000-3999元':1,'4000-5999元':2,'6000-7999元':3,'xxxx':4,}dict2 = {'未婚，与父母同住':1,'单身/情侣同居':2,'已婚，两口之家':3,'二胎家庭':4,'三代同堂':5,'一家三口':6}df2['购买场景'] = df2['购买场景'].map(dict0)df2[

2021-06-19 12:06:28 1208

原创问卷：城市名转换成城市线：一线、新一线、二三四五线

文章目录导入数据遇到问题1：列名太长，要替换遇到问题2：区名称、城市名混乱遇到问题3：去空格制作{城市：城市线} 字典,然后匹配统计问卷总体样本的城市线分布找出没有标注上城市线的样本，查看原因导入数据import pandas as pdcity = pd.read_excel('！202006中国城市商业魅力排行榜完整排名排名（337城市）-第一财经.xlsx')# 读取问卷数据data = pd.read_excel('微调查40899_readable (1492).xlsx')dat

2021-06-19 11:57:26 625

原创 B站tableau教学（5-7）

文章目录1. 超市销售情况地图2. 自定义形状图1. 超市销售情况地图视频地址使用数据：全球超市订单数据.csv想看各个国家的销售额情况如何：1.首先将数据集里的两个表内连接2.接着将国家/地区从字符串格式转换成地理角色格式（小地球符号）3.将国家/地区和销售额分别放进行和列，再在智能图表中选择地图4.可以把国家/地区拖进标签，让其显示国家名称仔细看地图里有两个国家名称5.点击地图→地图层，然后勾选掉国家/地区名称6.右下角会显示有未知，意味着有些国家地名没被识

2021-04-04 12:34:17 286

原创推荐系统(1.介绍)

文章目录一、推荐系统介绍及应用1.1 推荐系统的目标1.2 推荐系统常用词1.3 推荐系统经典流程1.4 推荐系统难点与挑战1.5 推荐系统常用技术一、推荐系统介绍及应用1.1 推荐系统的目标1.2 推荐系统常用词item：商品，例如要从天猫购买一个欧式风格的桌子Embedding：隐向量，将一个用户的各种属性信息：身高、体重、年龄、喜好颜色、职业。。。转换成高维向量召回：要返回的结果，例如从100万个商品中选取100个比较可能的产品打分：要对商品进行排序需要有一个标准；重排：最终结果排序

2021-03-30 16:16:52 146

原创将CSV导入Mysql

目录一、安装二、复习三、利用python连接Mysql3.1 将csv文件导入mysql一、安装菜鸟网-下载https://www.cnblogs.com/laumians-notes/p/9069498.html二、复习Onedrive中的Mysql文件夹里三、利用python连接Mysql3.1 将csv文件导入mysql转载： https://blog.csdn.net/sh...

2021-03-18 21:47:53 204

原创用spacy切词，筛选特定词性

import spacynlp = spacy.load("en_core_web_lg")# 读取停用词列表from nltk.corpus import stopwords stopword_list = list(stopwords.words('english'))add_stopword_list = ["'s",'also','even']stopword_list+=add_stopword_list# pos_tag = ['JJ','JJR','JJS','RB','R

2021-02-01 14:22:09 808

原创 Semeval 14 restaurant 实战

文章目录1.准备数据1.1 准备训练数据1.2 准备测试数据2.训练模型2.1 导入模块2.2 限制tensorflow使用GPU2.3 加载数据集2.3 对文本进行切词2.4 将term,[SEP] 添加到分词后的文本列表中2.5 查看每个句子分词后有多长，来决定max_length(可选)2.6 将训练数据分出一部分作为验证集，然后分成x,y2.7 创建数据迭代器2.8 构建模型2.9 模型保存2.10 模型评估3.加载训练好的模型，进行应用1.准备数据1.1 准备训练数据用的是原始的xml数据

2021-01-27 19:51:57 783

翻译 Simple Transformers文档翻译（提示和技巧）

文章目录1. 可视化支持 Visualization support2. 提早停止训练 Early stopping3.其他模型评估指标 Additional Evaluation Metrics4. 对模型预测结果进行可视化 Simple-Viewer5. 超参数优化5.1 设置 sweep1.method：明确搜索策略2. metric：明确要优化的指标metric3.parameters：指定超参数和对应的值5.2 初始化sweep5.3 准备数据和默认的模型配置（举例）5.4 设置训练函数5.5

2021-01-19 09:17:14 1461

原创 B站tableau教学（1-4）

目录第一节1.1数据导入界面(起始界面)及数据源界面1.2 工作表（一切的基础）1.3 条形图1.4 等级堆积柱形图1.5 直方图第二节2.1数据前处理2.2绘制折线图2.3饼图与环形图第一节reference：https://www.bilibili.com/video/av66028664?from=search&seid=176711717195583136061.1数据导入界...

2021-01-17 21:38:53 406

原创 Pytorch入门实战教程（一）（二）(三)

文章目录1.Pytorch 和 Tensorflow区别2.利用GPU进行加速运算3.Pytorch提供的自动求导功能4.Pytorch提供了许多常用的网络层5. 回归的目标损失函数6.MINST 实战1.Pytorch 和 Tensorflow区别Pytorch 是动态图，你一旦用代码将神经网络架构搭建起来。那么就可以直接运行Tensorflow是静态图，用代码将神经网络架构写出来后，还要专门写一段运行的代码2.利用GPU进行加速运算import torchimport timep

2021-01-14 17:12:08 680

翻译基于Aspect的情感分析

文章目录1.数据预处理1.1数据集1.2 数据预处理步骤2.主题建模Topic modelling3.情感分析4.观察结果当创建一个成功的商业，其中最重要的元素是与顾客的沟通和关系。然而主要挑战是，随着用户基数的不断提升，产生的数据量也越来越庞大，而且大部分是以自然语言的形式存在。这些数据来自用户的反馈会来自社交媒体，顾客传达他们的想法和意见。而真正的挑战是自动将这些数据解析并组织成更易消化和可行的见解。其中一种方法是情感分析。一个意见opinion可以定义为四种元素的组合（实体，意见持有者，主张，情

2021-01-08 10:19:15 1333 1

翻译 7.GitHub pytorch sentiment analysis(词向量详解embedding)

文章目录1.embedding 概述2.加载GloVe词向量2.1 我们可以看看属性靠前的10个词分别是2.2 看某个词的索引是2.3 获取某个词的词向量3. 查找某个词最近的有哪些词（查找近义词）4.类比5. 纠正拼写错误1.embedding 概述Embeddings是将一个one-hot encoded 的稀疏向量转化成一个更小的实数向量。这些word embeddings的一个重要概念是，越类似的词靠得越近，也就是欧氏距离越近。举例：“I purchased some items at the

2021-01-07 19:33:05 429

翻译 6.GitHub pytorch sentiment analysis(使用自己的数据集)

文章目录Using TorchText with Your Own Datasets1.读取JSON2.创建数据集3.读取CSV/TSV 文件Using TorchText with Your Own Datasets之前都是用的IMDB数据集，他是TorchText自带的。TorchText还有其他的数据集，包括分类，语言模型，是否是连续句子等等然而大部分时间使用自己的数据，TorchText会帮你一般步骤：定义Fields加载数据集created the splitsTorchText可

2021-01-07 09:58:26 275

翻译 5.GitHub pytorch sentiment analysis(Transformer版)

文章目录Transformers for Sentiment Analysis1.设置随机种子2.加载transformer，并tokenize3.设置特殊token4.定义模型要训练时每个句子的最大长度5.定义一个分词函数6.定义fields7.加载数据8.为Labels创建词汇表（数值化）9. 创建迭代器iterators+开启GPU10.加载预训练BERT模型+构建分类器11.将模型实例化12.计算有多少个参数13. 冻住transformer不让其训练14.构建优化器和损失函数15.定义精确度函数1

2021-01-06 16:00:49 725

翻译 4.GitHub pytorch sentiment analysis(多类版multi-class)

文章目录Multi-class Sentiment Analysis1.加载数据2.构建词向量,词表3.查看labels4.设置iterators迭代器5.创建模型6.实例化模型7.数模型中有多少个参数需要训练8.加载预训练词向量到模型中9.将unknwon,padding tokens的向量进行0初始化10.设置损失函数10.构建精确度函数11.构建训练函数12.构建评估函数13.构建计时模块14. 正式训练https://github.com/bentrevett/pytorch-sentiment-

2021-01-06 11:09:51 296

翻译 3.GitHub pytorch sentiment analysis(Fast版)

文章目录FastTest model1.准备数据构建模型构建FastText实例查看有多少模型参数将预训练词向量传进模型中的embedding layer层将unknown 和 pad token 的词向量初始化为0设置优化器定义损失函数定义求精确度的函数定义训练函数定义评估函数定义计算耗时的函数训练模型测试实际预测FastTest model这篇文章会采用"FastText"模型，跟之前的LSTM的84%左右的精确度相比差不多，但速度快上一倍，只需要训练LSTM一般的模型参数。1.准备数据Fast

2021-01-05 19:54:59 191

翻译 2.GitHub pytorch sentiment analysis(进阶版)

文章目录Updated Sentiment Analysis1.准备数据2.词向量3.创建迭代器+使用GPU4. 构建模型5. 实例化模型+传入参数6.训练模型6.1 设置优化器6.2 设置损失函数,和GPU6.3 计算精确度6.3 定义一个训练函数,用来训练模型6.4 定义一个测试函数6.5 正式训练模型Updated Sentiment Analysis在前一章,我们做了基础的情感分析,在这一章,我们会得到一个更好的分类结果我们会使用packed padded sequencespre-tra

2021-01-05 16:55:39 427

翻译 1.简单的GitHub pytorch sentiment analysis

文章目录1 - Simple Sentiment Analysis2 - 介绍3 - 准备数据3.1 构建词汇表3.2 构建迭代器4. 构建模型5.训练模型5.1 构造优化器5.2 定义损失函数5.3 训练函数5.4 评估模型6.正式训练7.测试1 - Simple Sentiment Analysis在这篇文章中,会构建一个机器学习模型来检测句子的情感,使用PyTorch和TorchTest,使用的是IMDb dataset最开始,只是做个简单的介绍,便于理解概念,并不关心是否会得到好的分类结果.之

2021-01-04 18:43:07 360

翻译 Transformer+BERT 推特文本分类(是否抱怨)

文章目录1.基础设置2.下载/导入数据集2.1 下载数据集2.2 Load Train Data2.3 Load Test Data3. 设置GPU/CPU来训练4.Fine-tuning BERT4.1 对原始文本进行轻微的数据处理4.2 BERT Tokenizer 相关函数构建4.3 确定输入句子的固定长度4.4 tokenize data 正式对数据进行分词4.5 创建PyTorch DataLoader5.训练模型Train model5.1 创建 BertClassifier5.2 创建优化器和

2020-12-30 10:48:41 4237 2

原创 Python（网易云课堂57-58章）Numpy，pandas

numpy核心数据类型是 ndarray 底层语言是Cpandas中的DataFrame 和Series 也是基于ndarray如何看一个array的形状：array.shape 或者是 np.shape(array_object)2行8列查看array对象有多少个元素numpy数组与list的区别在于：list可以放不同类型的元素str，int，float都能同时放入，而nparray只能放同一个类型的元素。查看nparray里元素的数据类型修改array中的某个元素实战中

2020-12-26 16:11:52 175 3

原创 Python（网易云课堂54-56章）Class

文章目录class User(): #class 记得小写！！！！！！！！！！ def ...类就像个模板，能创建一个又一个的对象class User(): def __init__(self,name,birthday): self.name = name self.birthday = birthdayhelp()，写提示文档注释，为了以后给别人看”””””” 三引号...

2020-12-22 19:56:58 64

原创 Python（网易云课堂48-53章）matplotlib

文章目录1.基础设置2.线图3.柱状图4.直方图5.散点图scatter gram6. 堆栈图stackplot7.饼状图 plt.pie()1.基础设置import matplotlib.pyplot as pltplt.plot(x,y)plt.xlabel(‘x_label’)plt.ylabel(‘y_label’)plt.title(‘xx_title’) # ‘xxxxxxxxxxxxx\nyyyyyyyyyyyyyy’题目换行plt.legend() #线颜色的标注p

2020-12-22 19:49:45 58 1

原创 Python（网易云课堂31-47章）

文章目录1. input()输入2. error，try，except 异常处理3. 初级读取和写入文件4.shell 入门117-134章5. Git 135-159课时105 安装python学会读文档！！！！课时106 介绍anacondaPass课时107编程环境对比Pass1. input()输入要注意的是如果input输入的是数字，最好在前面加int()或float() 将其从字符串转换成数值型2. error，try，except 异常处理捕捉异常可以使用try/exce

2020-12-22 17:37:50 64

原创 Python（网易云课堂26-30章）

文章目录1. 练习题1.1对下面这个英文名字列表，将姓和名字分开来，分别存储在两个列表里1.2 筛选顾客信用大于等于60的顾客名·2. def创建函数3. 给函数写文档，查文档4. lambda表达式5. filter（）函数6.函数map（）7. 练习8. iterator 迭代器9.生成器创造一个迭代器10.自己写一个generator11.编写生成器对大数据进行拆分1. 练习题1.1对下面这个英文名字列表，将姓和名字分开来，分别存储在两个列表里names = ['Wiliam Wang','To

2020-12-22 15:45:15 115 1

原创 Python（网易云课堂21-25章）

1. 用4种方式构建字典键值对：‘Name’:‘John’,‘age’:22,‘Height’:177,‘Weight’:74,‘Nation’:‘China’答：dict1 = {'Name':'John','age':22,'Height':177,'Weight':74,'Nation':'China'}dict2 = dict(Name='John',age=22,Height=177,Weight=74,Nation='China')#传入可迭代对象dict3 = dict(zip([

2020-12-22 10:30:40 114

翻译使用pytorch和卷积神经网络对MINST数字图像进行分类，实战代码

文章目录导入包读取数据卷积网络模块构建设置评估标准为accuracy训练网络模型导入包import torchimport torch.nn as nnimport torch.optim as optim #神经网络反向传播后，要更新每个节点的权重参数，进行优化optimizationimport torch.nn.functional as Ffrom torchvision import datasets,transforms import matplotlib.pyplot as pl

2020-12-15 15:01:42 866 1

翻译 Sentiment Analysis with BERT Pytorch【半成品】

文章目录导入各种包，设置基本参数import transformersfrom transformers import BertModel, BertTokenizer, AdamW, get_linear_schedule_with_warmupimport torchimport numpy as npimport pandas as pdimport seaborn as snsfrom pylab import rcParamsimport matplotlib.pyplot as

2020-12-11 15:23:43 415

翻译 Transformer: Training and fine-tuning(六)

文章目录1.Fine-tuning in native本地 PyTorch1.Fine-tuning in native本地 PyTorch模型类model class不是以TF开头的都是以Pytorch来运行的。接下来考虑微调fine-tune一个BERT模型来做句子分类任务。当我们使用from_pretrained()实例化一个模型时，所指定模型的配置configuration 和预训练的权重会被用于初始化模型，这个库library也会包含一些指定任务(task-specific)的最后一层fin

2020-12-09 19:43:43 1698 1

翻译 Transformer: Preprocessing Data (五)

文章目录1. Base Use 基本用途2.Preprocessing pairs of sentences 句子对得预处理3.Everything you always wanted to know about padding and truncation4.Pre-tokenized inputs正如quickstar中描述的，我们使用tokenizer来讲句子进行分词，切成许多个tokens，然后将其转化成数字，再转化成矩阵/向量，这样才能传输进模型中。记住用什么模型，就要用其对应的tokenize

2020-12-08 21:28:09 1070

翻译 Transformer：Summary of Model (四)

文章目录1.Autoregressive models1.1几种自回归模型介绍2.Autoencoding models2.1 BERT2.2 ALBERT2.3 RoBERTa2.4 DistilBERT2.5 还有许多3.Sequence-to-sequence models4.Multimodal models网页地址：https://huggingface.co/transformers/model_summary.html#autoregressive-modelsTransformer模型

2020-12-07 19:01:48 308

翻译 Transformer: Summary of Task(三)

文章目录Summary of the tasks （Transformer主要用于哪些任务）1.Sequence Classification2.Extractive Question Answering3.Language ModelingMasked Language Modeling4.Causal因果 Language Modeling5.Text Generation6. 命名实体识别Named Entity Recognition7. Summarization8.Translation 翻译

2020-12-07 11:41:25 645

李子柒油管评论数据.csv

liziqi.csv

如何用正则表达式筛选出评论里的用户名，并将其替换成字符串"Username"

Kaggle 竞赛，在kernel里显示数据，output不能显示全

如何将matplotlib中的annotate的标记从圆圈改成加号或点？

pycharm无法安装，老是跳出无法写入