net/mlx5: Add clarification on sync reset failure
authorMoshe Shemesh <moshe@nvidia.com>
Mon, 6 Sep 2021 08:02:44 +0000 (11:02 +0300)
committerSaeed Mahameed <saeedm@nvidia.com>
Wed, 23 Feb 2022 23:21:59 +0000 (15:21 -0800)
In case devlink reload action fw_activate failed in sync reset stage,
use the new MFRL field reset_state to find why it failed and share this
clarification with the user.

Signed-off-by: Moshe Shemesh <moshe@nvidia.com>
Signed-off-by: Saeed Mahameed <saeedm@nvidia.com>
drivers/net/ethernet/mellanox/mlx5/core/devlink.c
drivers/net/ethernet/mellanox/mlx5/core/fw_reset.c
drivers/net/ethernet/mellanox/mlx5/core/fw_reset.h
drivers/net/ethernet/mellanox/mlx5/core/port.c
include/linux/mlx5/driver.h

index d1093bb..057dde6 100644 (file)
@@ -100,15 +100,11 @@ static int mlx5_devlink_reload_fw_activate(struct devlink *devlink, struct netli
        }
 
        net_port_alive = !!(reset_type & MLX5_MFRL_REG_RESET_TYPE_NET_PORT_ALIVE);
-       err = mlx5_fw_reset_set_reset_sync(dev, net_port_alive);
+       err = mlx5_fw_reset_set_reset_sync(dev, net_port_alive, extack);
        if (err)
-               goto out;
+               return err;
 
-       err = mlx5_fw_reset_wait_reset_done(dev);
-out:
-       if (err)
-               NL_SET_ERR_MSG_MOD(extack, "FW activate command failed");
-       return err;
+       return mlx5_fw_reset_wait_reset_done(dev);
 }
 
 static int mlx5_devlink_trigger_fw_live_patch(struct devlink *devlink,
index 0b0234f..d438d7a 100644 (file)
@@ -57,7 +57,8 @@ static int mlx5_reg_mfrl_set(struct mlx5_core_dev *dev, u8 reset_level,
        return mlx5_core_access_reg(dev, in, sizeof(in), out, sizeof(out), MLX5_REG_MFRL, 0, 1);
 }
 
-static int mlx5_reg_mfrl_query(struct mlx5_core_dev *dev, u8 *reset_level, u8 *reset_type)
+static int mlx5_reg_mfrl_query(struct mlx5_core_dev *dev, u8 *reset_level,
+                              u8 *reset_type, u8 *reset_state)
 {
        u32 out[MLX5_ST_SZ_DW(mfrl_reg)] = {};
        u32 in[MLX5_ST_SZ_DW(mfrl_reg)] = {};
@@ -71,25 +72,67 @@ static int mlx5_reg_mfrl_query(struct mlx5_core_dev *dev, u8 *reset_level, u8 *r
                *reset_level = MLX5_GET(mfrl_reg, out, reset_level);
        if (reset_type)
                *reset_type = MLX5_GET(mfrl_reg, out, reset_type);
+       if (reset_state)
+               *reset_state = MLX5_GET(mfrl_reg, out, reset_state);
 
        return 0;
 }
 
 int mlx5_fw_reset_query(struct mlx5_core_dev *dev, u8 *reset_level, u8 *reset_type)
 {
-       return mlx5_reg_mfrl_query(dev, reset_level, reset_type);
+       return mlx5_reg_mfrl_query(dev, reset_level, reset_type, NULL);
 }
 
-int mlx5_fw_reset_set_reset_sync(struct mlx5_core_dev *dev, u8 reset_type_sel)
+static int mlx5_fw_reset_get_reset_state_err(struct mlx5_core_dev *dev,
+                                            struct netlink_ext_ack *extack)
+{
+       u8 reset_state;
+
+       if (mlx5_reg_mfrl_query(dev, NULL, NULL, &reset_state))
+               goto out;
+
+       switch (reset_state) {
+       case MLX5_MFRL_REG_RESET_STATE_IN_NEGOTIATION:
+       case MLX5_MFRL_REG_RESET_STATE_RESET_IN_PROGRESS:
+               NL_SET_ERR_MSG_MOD(extack, "Sync reset was already triggered");
+               return -EBUSY;
+       case MLX5_MFRL_REG_RESET_STATE_TIMEOUT:
+               NL_SET_ERR_MSG_MOD(extack, "Sync reset got timeout");
+               return -ETIMEDOUT;
+       case MLX5_MFRL_REG_RESET_STATE_NACK:
+               NL_SET_ERR_MSG_MOD(extack, "One of the hosts disabled reset");
+               return -EPERM;
+       }
+
+out:
+       NL_SET_ERR_MSG_MOD(extack, "Sync reset failed");
+       return -EIO;
+}
+
+int mlx5_fw_reset_set_reset_sync(struct mlx5_core_dev *dev, u8 reset_type_sel,
+                                struct netlink_ext_ack *extack)
 {
        struct mlx5_fw_reset *fw_reset = dev->priv.fw_reset;
+       u32 out[MLX5_ST_SZ_DW(mfrl_reg)] = {};
+       u32 in[MLX5_ST_SZ_DW(mfrl_reg)] = {};
        int err;
 
        set_bit(MLX5_FW_RESET_FLAGS_PENDING_COMP, &fw_reset->reset_flags);
-       err = mlx5_reg_mfrl_set(dev, MLX5_MFRL_REG_RESET_LEVEL3, reset_type_sel, 0, true);
-       if (err)
-               clear_bit(MLX5_FW_RESET_FLAGS_PENDING_COMP, &fw_reset->reset_flags);
-       return err;
+
+       MLX5_SET(mfrl_reg, in, reset_level, MLX5_MFRL_REG_RESET_LEVEL3);
+       MLX5_SET(mfrl_reg, in, rst_type_sel, reset_type_sel);
+       MLX5_SET(mfrl_reg, in, pci_sync_for_fw_update_start, 1);
+       err = mlx5_access_reg(dev, in, sizeof(in), out, sizeof(out),
+                             MLX5_REG_MFRL, 0, 1, false);
+       if (!err)
+               return 0;
+
+       clear_bit(MLX5_FW_RESET_FLAGS_PENDING_COMP, &fw_reset->reset_flags);
+       if (err == -EREMOTEIO && MLX5_CAP_MCAM_FEATURE(dev, reset_state))
+               return mlx5_fw_reset_get_reset_state_err(dev, extack);
+
+       NL_SET_ERR_MSG_MOD(extack, "Sync reset command failed");
+       return mlx5_cmd_check(dev, err, in, out);
 }
 
 int mlx5_fw_reset_set_live_patch(struct mlx5_core_dev *dev)
index 7761ee5..694fc7c 100644 (file)
@@ -9,7 +9,8 @@
 void mlx5_fw_reset_enable_remote_dev_reset_set(struct mlx5_core_dev *dev, bool enable);
 bool mlx5_fw_reset_enable_remote_dev_reset_get(struct mlx5_core_dev *dev);
 int mlx5_fw_reset_query(struct mlx5_core_dev *dev, u8 *reset_level, u8 *reset_type);
-int mlx5_fw_reset_set_reset_sync(struct mlx5_core_dev *dev, u8 reset_type_sel);
+int mlx5_fw_reset_set_reset_sync(struct mlx5_core_dev *dev, u8 reset_type_sel,
+                                struct netlink_ext_ack *extack);
 int mlx5_fw_reset_set_live_patch(struct mlx5_core_dev *dev);
 
 int mlx5_fw_reset_wait_reset_done(struct mlx5_core_dev *dev);
index 1ef2b6a..d15b417 100644 (file)
 #include <linux/mlx5/port.h>
 #include "mlx5_core.h"
 
-int mlx5_core_access_reg(struct mlx5_core_dev *dev, void *data_in,
-                        int size_in, void *data_out, int size_out,
-                        u16 reg_id, int arg, int write)
+/* calling with verbose false will not print error to log */
+int mlx5_access_reg(struct mlx5_core_dev *dev, void *data_in, int size_in,
+                   void *data_out, int size_out, u16 reg_id, int arg,
+                   int write, bool verbose)
 {
        int outlen = MLX5_ST_SZ_BYTES(access_register_out) + size_out;
        int inlen = MLX5_ST_SZ_BYTES(access_register_in) + size_in;
@@ -57,7 +58,9 @@ int mlx5_core_access_reg(struct mlx5_core_dev *dev, void *data_in,
        MLX5_SET(access_register_in, in, argument, arg);
        MLX5_SET(access_register_in, in, register_id, reg_id);
 
-       err = mlx5_cmd_exec(dev, in, inlen, out, outlen);
+       err = mlx5_cmd_do(dev, in, inlen, out, outlen);
+       if (verbose)
+               err = mlx5_cmd_check(dev, err, in, out);
        if (err)
                goto out;
 
@@ -69,6 +72,15 @@ out:
        kvfree(in);
        return err;
 }
+EXPORT_SYMBOL_GPL(mlx5_access_reg);
+
+int mlx5_core_access_reg(struct mlx5_core_dev *dev, void *data_in,
+                        int size_in, void *data_out, int size_out,
+                        u16 reg_id, int arg, int write)
+{
+       return mlx5_access_reg(dev, data_in, size_in, data_out, size_out,
+                              reg_id, arg, write, true);
+}
 EXPORT_SYMBOL_GPL(mlx5_core_access_reg);
 
 int mlx5_query_pcam_reg(struct mlx5_core_dev *dev, u32 *pcam, u8 feature_group,
index 432151d..d3b1a6a 100644 (file)
@@ -1031,6 +1031,9 @@ int mlx5_core_detach_mcg(struct mlx5_core_dev *dev, union ib_gid *mgid, u32 qpn)
 
 void mlx5_qp_debugfs_init(struct mlx5_core_dev *dev);
 void mlx5_qp_debugfs_cleanup(struct mlx5_core_dev *dev);
+int mlx5_access_reg(struct mlx5_core_dev *dev, void *data_in, int size_in,
+                   void *data_out, int size_out, u16 reg_id, int arg,
+                   int write, bool verbose);
 int mlx5_core_access_reg(struct mlx5_core_dev *dev, void *data_in,
                         int size_in, void *data_out, int size_out,
                         u16 reg_num, int arg, int write);