少女祈祷中...

dask框架常用包

1
2
3
4
5
dask
dask[dataframe]
dask[diagnostics]
dask[distributed]
dask-ml

DASK集群资源设置

通过__main__设置资源

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
def main():
config.set({
"distributed.worker.memory.target": 0.6, # 内存占用到 60% 时开始考虑溢写
"distributed.worker.memory.spill": 0.7, # 内存占用到 70% 时开始溢写到磁盘
"distributed.worker.memory.pause": 0.8, # 内存占用到 80% 时开始暂停执行新的任务
"distributed.worker.memory.terminate":
0.95, # 内存占用到 95% 时终止 Worker 以防止 OOM
})
# 启动Dask集群
# n_workers表示节点数(通常指宿主机)
# threads_per_worker表示每个结点的进程数
# memory_limit表示内存限制
# 总限制内存=n_workers*memory_limit
cluster = LocalCluster(n_workers=1,
threads_per_worker=3,
memory_limit='6GB')

client = Client(cluster)

print(client)