两种方法
方法一:用excel
- 数据:children.tsv
- 在选项栏选择 “插入”,选中所有数据,点击“数据透视表”,接着按确认
- 可在右侧栏拖动字段到相应的的区域。为了做出分省指标的数据统计,我选择将 pname放入行标签,keyword放入列标签,location放入数值(可用其他数据代替,除了部分标签,其余结果都一样)
- 完成
方法二:运用pivot table
- 代码来自老师data_inspection_using_pivot_table.ipynb
- 用pivot_table检视结果
-
import pandas as pd
- 取数据
-
import pandas as pd df = pd.read_csv("children.tsv", encoding='utf8', sep='\t')
- 检视结果
-
df
- 使用pivot_table(省份)
-
df.pivot_table(values='type', index='pname', columns='keywords', aggfunc=lambda x: len(x.unique()))
-
- 使用pivot_table(城市)
-
df.pivot_table(values='type', index='pname',columns='keywords', aggfunc=lambda x: len(x.unique()))
- (城市数量过多,无法截图)