linux磁盘空间 df.memory_usage unzip read_csv(dtype=,skiprows=,usecols=)

1. linux磁盘空间大小 df -hl
第一列是文件系统,设备也被映射为文件系统,最后一列为挂载点

2. dataframe占用内存大小,df.memory_usage().sum()/1024.0/1024.0/1024.0,df.memory_usage()得到的是一个每个column占用的字节数,求和得到整体的字节数,换算成GB

3. linux解压zip,需要下载unzip,yum install -y unzip zip,unzip XXX.zip直接解压到当前目录

4. pd.read_csv接触了几个新参数dtype,可以指定column的存储类型,比默认的存储类型科学,可以用一个dict去指定
dtypes = {
    'ip'            : 'uint32',
    'app'           : 'uint16',
    'device'        : 'uint16',
    'os'            : 'uint16',
    'channel'       : 'uint16',
    'is_attributed' : 'uint8',
    'click_id'      : 'uint32'
}
skiprows,跳过哪些row不用读取,可以是一个list,list里面是行索引
usecols,真正要读取的column,有些column没用就不用读取了,可以是列序号或列名

5. 全部训练集2亿条数据,全部读取到内存中是个难题,代码层级上有一些操作,还有人表示可以用一个package替代pandas来解决读取速度的问题

留言

熱門文章