linux磁盘空间 df.memory_usage unzip read_csv(dtype=,skiprows=,usecols=)

4月 25, 2018

linux磁盘空间 df.memory_usage unzip read_csv(dtype=,skiprows=,usecols=)

1. linux磁盘空间大小 df -hl
第一列是文件系统，设备也被映射为文件系统，最后一列为挂载点

2. dataframe占用内存大小，df.memory_usage().sum()/1024.0/1024.0/1024.0，df.memory_usage()得到的是一个每个column占用的字节数，求和得到整体的字节数，换算成GB

3. linux解压zip，需要下载unzip，yum install -y unzip zip，unzip XXX.zip直接解压到当前目录

4. pd.read_csv接触了几个新参数dtype，可以指定column的存储类型，比默认的存储类型科学，可以用一个dict去指定
dtypes = {
'ip' : 'uint32',
'app' : 'uint16',
'device' : 'uint16',
'os' : 'uint16',
'channel' : 'uint16',
'is_attributed' : 'uint8',
'click_id' : 'uint32'
}
skiprows，跳过哪些row不用读取，可以是一个list，list里面是行索引
usecols，真正要读取的column，有些column没用就不用读取了，可以是列序号或列名

5. 全部训练集2亿条数据，全部读取到内存中是个难题，代码层级上有一些操作，还有人表示可以用一个package替代pandas来解决读取速度的问题

搜尋此網誌

Silver Death

linux磁盘空间 df.memory_usage unzip read_csv(dtype=,skiprows=,usecols=)

留言

張貼留言

熱門文章

把cell从一个notebook复制到另一个notebook

python调用win32api设置窗口位置和大小