habanalabs/gaudi: increase default cs timeout to 10 minutes
authorOded Gabbay <ogabbay@kernel.org>
Wed, 6 Apr 2022 09:07:19 +0000 (12:07 +0300)
committerOded Gabbay <ogabbay@kernel.org>
Sun, 18 Sep 2022 10:29:49 +0000 (13:29 +0300)
commitcd6b0cea89862a5b3411246a2410881a988d5b0f
tree13d4dac9ec6ee80bf9de34db99d0f30ad7fe55ed
parent913bd4179b82adfeece29243711ccaf4330772b6
habanalabs/gaudi: increase default cs timeout to 10 minutes

In order to improve scalability and reduce host overhead, it is better
to increase the default TDR timeout of Gaudi1 from 30 seconds to
10 minutes.

This will allow the DL Framework (e.g. PyTorch, TensorFlow) to remove
the host sync they are using now and improve overall performance on
scaleout training.

Note that one can always set the timeout to a custom value via
a kernel module parameter given during driver load.

Signed-off-by: Oded Gabbay <ogabbay@kernel.org>
drivers/misc/habanalabs/common/habanalabs_drv.c