linux磁盘空间 df.memory_usage unzip read_csv(dtype=,skiprows=,usecols=)
1. linux磁盘空间大小 df -hl
第一列是文件系统,设备也被映射为文件系统,最后一列为挂载点
2. dataframe占用内存大小,df.memory_usage().sum()/1024.0/1024.0/1024.0,df.memory_usage()得到的是一个每个column占用的字节数,求和得到整体的字节数,换算成GB
3. linux解压zip,需要下载unzip,yum install -y unzip zip,unzip XXX.zip直接解压到当前目录
4. pd.read_csv接触了几个新参数dtype,可以指定column的存储类型,比默认的存储类型科学,可以用一个dict去指定
dtypes = {
'ip' : 'uint32',
'app' : 'uint16',
'device' : 'uint16',
'os' : 'uint16',
'channel' : 'uint16',
'is_attributed' : 'uint8',
'click_id' : 'uint32'
}
skiprows,跳过哪些row不用读取,可以是一个list,list里面是行索引
usecols,真正要读取的column,有些column没用就不用读取了,可以是列序号或列名
5. 全部训练集2亿条数据,全部读取到内存中是个难题,代码层级上有一些操作,还有人表示可以用一个package替代pandas来解决读取速度的问题
第一列是文件系统,设备也被映射为文件系统,最后一列为挂载点
2. dataframe占用内存大小,df.memory_usage().sum()/1024.0/1024.0/1024.0,df.memory_usage()得到的是一个每个column占用的字节数,求和得到整体的字节数,换算成GB
3. linux解压zip,需要下载unzip,yum install -y unzip zip,unzip XXX.zip直接解压到当前目录
4. pd.read_csv接触了几个新参数dtype,可以指定column的存储类型,比默认的存储类型科学,可以用一个dict去指定
dtypes = {
'ip' : 'uint32',
'app' : 'uint16',
'device' : 'uint16',
'os' : 'uint16',
'channel' : 'uint16',
'is_attributed' : 'uint8',
'click_id' : 'uint32'
}
skiprows,跳过哪些row不用读取,可以是一个list,list里面是行索引
usecols,真正要读取的column,有些column没用就不用读取了,可以是列序号或列名
5. 全部训练集2亿条数据,全部读取到内存中是个难题,代码层级上有一些操作,还有人表示可以用一个package替代pandas来解决读取速度的问题
留言
張貼留言