Fixes for addv and xtn2 instructions.

[external/binutils.git] / sim / aarch64 / simulator.c
diff --git a/sim/aarch64/simulator.c b/sim/aarch64/simulator.c

index ae05019..c8e65c5 100644 (file)
--- a/sim/aarch64/simulator.c
+++ b/sim/aarch64/simulator.c
@@ -1,6 +1,6 @@
  /* simulator.c -- Interface for the AArch64 simulator.
  
-   Copyright (C) 2015-2016 Free Software Foundation, Inc.
+   Copyright (C) 2015-2017 Free Software Foundation, Inc.
  
     Contributed by Red Hat.
  
@@ -39,6 +39,9 @@
  #define IS_SET(_X)   (TST (( _X )) ? 1 : 0)
  #define IS_CLEAR(_X) (TST (( _X )) ? 0 : 1)
  
+/* Space saver macro.  */
+#define INSTR(HIGH, LOW) uimm (aarch64_get_instr (cpu), (HIGH), (LOW))
+
  #define HALT_UNALLOC                                                   \
    do                                                                   \
      {                                                                  \
@@ -60,6 +63,9 @@
                   "Unimplemented instruction detected at sim line %d,"  \
                   " exe addr %" PRIx64,                                 \
                   __LINE__, aarch64_get_PC (cpu));                      \
+      if (! TRACE_ANY_P (cpu))                                         \
+        sim_io_eprintf (CPU_STATE (cpu), "SIM Error: Unimplemented instruction: %#08x\n", \
+                        aarch64_get_instr (cpu));                      \
        sim_engine_halt (CPU_STATE (cpu), cpu, NULL, aarch64_get_PC (cpu),\
                        sim_stopped, SIM_SIGABRT);                       \
      }                                                                  \
@@ -68,19 +74,11 @@
  #define NYI_assert(HI, LO, EXPECTED)                                   \
    do                                                                   \
      {                                                                  \
-      if (uimm (aarch64_get_instr (cpu), (HI), (LO)) != (EXPECTED))    \
+      if (INSTR ((HI), (LO)) != (EXPECTED))                            \
         HALT_NYI;                                                       \
      }                                                                  \
    while (0)
  
-#define HALT_UNREACHABLE                                               \
-  do                                                                   \
-    {                                                                  \
-      TRACE_EVENTS (cpu, "ISE: unreachable code point");               \
-      sim_engine_abort (NULL, cpu, aarch64_get_PC (cpu), "Internal Error"); \
-    }                                                                  \
-  while (0)
-
  /* Helper functions used by expandLogicalImmediate.  */
  
  /* for i = 1, ... N result<i-1> = 1 other bits are zero  */
@@ -179,7 +177,7 @@ dexNotify (sim_cpu *cpu)
  {
    /* instr[14,0] == type : 0 ==> method entry, 1 ==> method reentry
                             2 ==> exit Java, 3 ==> start next bytecode.  */
-  uint32_t type = uimm (aarch64_get_instr (cpu), 14, 0);
+  uint32_t type = INSTR (14, 0);
  
    TRACE_EVENTS (cpu, "Notify Insn encountered, type = 0x%x", type);
  
@@ -234,7 +232,7 @@ dexPseudo (sim_cpu *cpu)
                        sim_stopped, SIM_SIGTRAP);
      }
  
-  dispatch = uimm (aarch64_get_instr (cpu), 31, 15);
+  dispatch = INSTR (31, 15);
  
    /* We do not handle callouts at the moment.  */
    if (dispatch == PSEUDO_CALLOUT || dispatch == PSEUDO_CALLOUTR)
@@ -262,9 +260,10 @@ dexPseudo (sim_cpu *cpu)
  static void
  ldur32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u32
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -274,9 +273,10 @@ ldur32 (sim_cpu *cpu, int32_t offset)
  static void
  ldur64 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u64
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -286,9 +286,10 @@ ldur64 (sim_cpu *cpu, int32_t offset)
  static void
  ldurb32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u8
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -298,9 +299,10 @@ ldurb32 (sim_cpu *cpu, int32_t offset)
  static void
  ldursb32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, (uint32_t) aarch64_get_mem_s8
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -310,9 +312,10 @@ ldursb32 (sim_cpu *cpu, int32_t offset)
  static void
  ldursb64 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_s64 (cpu, rt, NO_SP, aarch64_get_mem_s8
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -322,9 +325,10 @@ ldursb64 (sim_cpu *cpu, int32_t offset)
  static void
  ldurh32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, aarch64_get_mem_u16
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -334,9 +338,10 @@ ldurh32 (sim_cpu *cpu, int32_t offset)
  static void
  ldursh32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (uint32_t) aarch64_get_mem_s16
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -346,9 +351,10 @@ ldursh32 (sim_cpu *cpu, int32_t offset)
  static void
  ldursh64 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_s64 (cpu, rt, NO_SP, aarch64_get_mem_s16
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -358,9 +364,10 @@ ldursh64 (sim_cpu *cpu, int32_t offset)
  static void
  ldursw (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (uint32_t) aarch64_get_mem_s32
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                         + offset));
@@ -373,9 +380,10 @@ ldursw (sim_cpu *cpu, int32_t offset)
  static void
  stur32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u32 (cpu,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset,
                        aarch64_get_reg_u32 (cpu, rd, NO_SP));
@@ -385,9 +393,10 @@ stur32 (sim_cpu *cpu, int32_t offset)
  static void
  stur64 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u64 (cpu,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset,
                        aarch64_get_reg_u64 (cpu, rd, NO_SP));
@@ -397,9 +406,10 @@ stur64 (sim_cpu *cpu, int32_t offset)
  static void
  sturb (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u8 (cpu,
                       aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset,
                       aarch64_get_reg_u8 (cpu, rd, NO_SP));
@@ -409,9 +419,10 @@ sturb (sim_cpu *cpu, int32_t offset)
  static void
  sturh (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u16 (cpu,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset,
                        aarch64_get_reg_u16 (cpu, rd, NO_SP));
@@ -425,8 +436,9 @@ sturh (sim_cpu *cpu, int32_t offset)
  static void
  ldr32_pcrel (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_mem_u32
                        (cpu, aarch64_get_PC (cpu) + offset * 4));
@@ -436,8 +448,9 @@ ldr32_pcrel (sim_cpu *cpu, int32_t offset)
  static void
  ldr_pcrel (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_mem_u64
                        (cpu, aarch64_get_PC (cpu) + offset * 4));
@@ -447,8 +460,9 @@ ldr_pcrel (sim_cpu *cpu, int32_t offset)
  static void
  ldrsw_pcrel (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_mem_s32
                        (cpu, aarch64_get_PC (cpu) + offset * 4));
@@ -458,8 +472,9 @@ ldrsw_pcrel (sim_cpu *cpu, int32_t offset)
  static void
  fldrs_pcrel (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u32 (cpu, rd, 0,
                        aarch64_get_mem_u32
                        (cpu, aarch64_get_PC (cpu) + offset * 4));
@@ -469,8 +484,9 @@ fldrs_pcrel (sim_cpu *cpu, int32_t offset)
  static void
  fldrd_pcrel (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, st, 0,
                        aarch64_get_mem_u64
                        (cpu, aarch64_get_PC (cpu) + offset * 4));
@@ -480,10 +496,11 @@ fldrd_pcrel (sim_cpu *cpu, int32_t offset)
  static void
  fldrq_pcrel (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int st = INSTR (4, 0);
    uint64_t addr = aarch64_get_PC (cpu) + offset * 4;
    FRegister a;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_get_mem_long_double (cpu, addr, & a);
    aarch64_set_FP_long_double (cpu, st, a);
  }
@@ -497,7 +514,7 @@ fldrq_pcrel (sim_cpu *cpu, int32_t offset)
  
  /* This can be used to optionally scale a register derived offset
     by applying the requisite shift as indicated by the Scaling
-   argument. the second argument is either Byte, Short, Word
+   argument.  The second argument is either Byte, Short, Word
     or Long. The third argument is either Scaled or Unscaled.
     N.B. when _Scaling is Scaled the shift gets ANDed with
     all 1s while when it is Unscaled it gets ANDed with 0.  */
@@ -538,13 +555,14 @@ extend (uint32_t value, Extension extension)
  static void
  fldrs_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u32 (cpu, st, 0, aarch64_get_mem_u32 (cpu, address));
    if (wb == Post)
      address += offset;
@@ -553,16 +571,65 @@ fldrs_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
      aarch64_set_reg_u64 (cpu, rn, SP_OK, address);
  }
  
+/* Load 8 bit with unsigned 12 bit offset.  */
+static void
+fldrb_abs (sim_cpu *cpu, uint32_t offset)
+{
+  unsigned rd = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
+  uint64_t addr = aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset;
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_vec_u8 (cpu, rd, 0, aarch64_get_mem_u32 (cpu, addr));
+}
+
+/* Load 16 bit scaled unsigned 12 bit.  */
+static void
+fldrh_abs (sim_cpu *cpu, uint32_t offset)
+{
+  unsigned rd = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
+  uint64_t addr = aarch64_get_reg_u64 (cpu, rn, SP_OK) + SCALE (offset, 16);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_vec_u16 (cpu, rd, 0, aarch64_get_mem_u16 (cpu, addr));
+}
+
  /* Load 32 bit scaled unsigned 12 bit.  */
  static void
  fldrs_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
+  uint64_t addr = aarch64_get_reg_u64 (cpu, rn, SP_OK) + SCALE (offset, 32);
  
-  aarch64_set_vec_u32 (cpu, st, 0, aarch64_get_mem_u32
-                      (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
-                       + SCALE (offset, 32)));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_vec_u32 (cpu, rd, 0, aarch64_get_mem_u32 (cpu, addr));
+}
+
+/* Load 64 bit scaled unsigned 12 bit.  */
+static void
+fldrd_abs (sim_cpu *cpu, uint32_t offset)
+{
+  unsigned rd = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
+  uint64_t addr = aarch64_get_reg_u64 (cpu, rn, SP_OK) + SCALE (offset, 64);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_vec_u64 (cpu, rd, 0, aarch64_get_mem_u64 (cpu, addr));
+}
+
+/* Load 128 bit scaled unsigned 12 bit.  */
+static void
+fldrq_abs (sim_cpu *cpu, uint32_t offset)
+{
+  unsigned rd = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
+  uint64_t addr = aarch64_get_reg_u64 (cpu, rn, SP_OK) + SCALE (offset, 128);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_vec_u64 (cpu, rd, 0, aarch64_get_mem_u64 (cpu, addr));
+  aarch64_set_vec_u64 (cpu, rd, 1, aarch64_get_mem_u64 (cpu, addr + 8));
  }
  
  /* Load 32 bit scaled or unscaled zero- or sign-extended
@@ -570,13 +637,14 @@ fldrs_abs (sim_cpu *cpu, uint32_t offset)
  static void
  fldrs_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement = OPT_SCALE (extended, 32, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u32 (cpu, st, 0, aarch64_get_mem_u32
                        (cpu, address + displacement));
  }
@@ -585,13 +653,14 @@ fldrs_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  fldrd_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, st, 0, aarch64_get_mem_u64 (cpu, address));
  
    if (wb == Post)
@@ -601,22 +670,11 @@ fldrd_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
      aarch64_set_reg_u64 (cpu, rn, SP_OK, address);
  }
  
-/* Load 64 bit scaled unsigned 12 bit.  */
-static void
-fldrd_abs (sim_cpu *cpu, uint32_t offset)
-{
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK) + SCALE (offset, 64);
-
-  aarch64_set_vec_u64 (cpu, st, 0, aarch64_get_mem_u64 (cpu, address));
-}
-
  /* Load 64 bit scaled or unscaled zero- or sign-extended 32-bit register offset.  */
  static void
  fldrd_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
+  unsigned rm = INSTR (20, 16);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement = OPT_SCALE (extended, 64, scaling);
  
@@ -628,13 +686,14 @@ static void
  fldrq_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
    FRegister a;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_get_mem_long_double (cpu, address, & a);
    aarch64_set_FP_long_double (cpu, st, a);
  
@@ -645,24 +704,11 @@ fldrq_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
      aarch64_set_reg_u64 (cpu, rn, SP_OK, address);
  }
  
-/* Load 128 bit scaled unsigned 12 bit.  */
-static void
-fldrq_abs (sim_cpu *cpu, uint32_t offset)
-{
-  FRegister a;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK) + SCALE (offset, 128);
-
-  aarch64_get_mem_long_double (cpu, address, & a);
-  aarch64_set_FP_long_double (cpu, st, a);
-}
-
  /* Load 128 bit scaled or unscaled zero- or sign-extended 32-bit register offset  */
  static void
  fldrq_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
+  unsigned rm = INSTR (20, 16);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement = OPT_SCALE (extended, 128, scaling);
  
@@ -697,9 +743,10 @@ fldrq_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldr32_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u32
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
@@ -710,8 +757,8 @@ ldr32_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldr32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -722,6 +769,7 @@ ldr32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u32 (cpu, address));
  
    if (wb == Post)
@@ -736,15 +784,16 @@ ldr32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldr32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement =  OPT_SCALE (extended, 32, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP,
                        aarch64_get_mem_u32 (cpu, address + displacement));
  }
@@ -753,9 +802,10 @@ ldr32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldr_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u64
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
@@ -766,8 +816,8 @@ ldr_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldr_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -778,6 +828,7 @@ ldr_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u64 (cpu, address));
  
    if (wb == Post)
@@ -792,15 +843,16 @@ ldr_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldr_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement =  OPT_SCALE (extended, 64, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP,
                        aarch64_get_mem_u64 (cpu, address + displacement));
  }
@@ -809,9 +861,10 @@ ldr_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldrb32_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be
       there is no scaling required for a byte load.  */
    aarch64_set_reg_u64 (cpu, rt, NO_SP,
@@ -823,8 +876,8 @@ ldrb32_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrb32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -835,6 +888,7 @@ ldrb32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u8 (cpu, address));
  
    if (wb == Post)
@@ -849,15 +903,16 @@ ldrb32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldrb32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t displacement = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                  extension);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* There is no scaling required for a byte load.  */
    aarch64_set_reg_u64 (cpu, rt, NO_SP,
                        aarch64_get_mem_u8 (cpu, address + displacement));
@@ -868,9 +923,10 @@ ldrb32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldrsb_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
+  int64_t val;
  
    if (rn == rt && wb != NoWriteBack)
      HALT_UNALLOC;
@@ -880,7 +936,9 @@ ldrsb_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_s8 (cpu, address));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  val = aarch64_get_mem_s8 (cpu, address);
+  aarch64_set_reg_s64 (cpu, rt, NO_SP, val);
  
    if (wb == Post)
      address += offset;
@@ -901,16 +959,17 @@ ldrsb_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrsb_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t displacement = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                  extension);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* There is no scaling required for a byte load.  */
-  aarch64_set_reg_u64 (cpu, rt, NO_SP,
+  aarch64_set_reg_s64 (cpu, rt, NO_SP,
                        aarch64_get_mem_s8 (cpu, address + displacement));
  }
  
@@ -918,13 +977,15 @@ ldrsb_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldrh32_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
+  uint32_t val;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
-  aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u16
-                      (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
-                       + SCALE (offset, 16)));
+  val = aarch64_get_mem_u16 (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
+                            + SCALE (offset, 16));
+  aarch64_set_reg_u32 (cpu, rt, NO_SP, val);
  }
  
  /* 32 bit load zero-extended short unscaled signed 9 bit
@@ -932,8 +993,8 @@ ldrh32_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrh32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -944,7 +1005,8 @@ ldrh32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u16 (cpu, address));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_reg_u32 (cpu, rt, NO_SP, aarch64_get_mem_u16 (cpu, address));
  
    if (wb == Post)
      address += offset;
@@ -958,16 +1020,17 @@ ldrh32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldrh32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement =  OPT_SCALE (extended, 16, scaling);
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP,
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_reg_u32 (cpu, rt, NO_SP,
                        aarch64_get_mem_u16 (cpu, address + displacement));
  }
  
@@ -975,14 +1038,15 @@ ldrh32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldrsh32_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
+  int32_t val;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
-  aarch64_set_reg_u64 (cpu, rt, NO_SP, (uint32_t) aarch64_get_mem_s16
-                      (cpu,
-                       aarch64_get_reg_u64 (cpu, rn, SP_OK)
-                       + SCALE (offset, 16)));
+  val = aarch64_get_mem_s16 (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
+                            + SCALE (offset, 16));
+  aarch64_set_reg_s32 (cpu, rt, NO_SP, val);
  }
  
  /* 32 bit load sign-extended short unscaled signed 9 bit
@@ -990,8 +1054,8 @@ ldrsh32_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrsh32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -1002,8 +1066,9 @@ ldrsh32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP,
-                      (uint32_t) aarch64_get_mem_s16 (cpu, address));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_reg_s32 (cpu, rt, NO_SP,
+                      (int32_t) aarch64_get_mem_s16 (cpu, address));
  
    if (wb == Post)
      address += offset;
@@ -1017,17 +1082,18 @@ ldrsh32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldrsh32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement =  OPT_SCALE (extended, 16, scaling);
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP,
-                      (uint32_t) aarch64_get_mem_s16
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_reg_s32 (cpu, rt, NO_SP,
+                      (int32_t) aarch64_get_mem_s16
                        (cpu, address + displacement));
  }
  
@@ -1035,13 +1101,15 @@ ldrsh32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  ldrsh_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
+  int64_t val;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
-  aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_s16
-                      (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
-                       + SCALE (offset, 16)));
+  val = aarch64_get_mem_s16  (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
+                             + SCALE (offset, 16));
+  aarch64_set_reg_s64 (cpu, rt, NO_SP, val);
  }
  
  /* 64 bit load sign-extended short unscaled signed 9 bit
@@ -1049,19 +1117,22 @@ ldrsh_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrsh64_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
+  int64_t val;
  
    if (rn == rt && wb != NoWriteBack)
      HALT_UNALLOC;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
    if (wb != Post)
      address += offset;
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_s16 (cpu, address));
+  val = aarch64_get_mem_s16 (cpu, address);
+  aarch64_set_reg_s64 (cpu, rt, NO_SP, val);
  
    if (wb == Post)
      address += offset;
@@ -1075,30 +1146,35 @@ ldrsh64_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldrsh_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
+
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement = OPT_SCALE (extended, 16, scaling);
+  int64_t val;
  
-  aarch64_set_reg_u64 (cpu, rt, NO_SP,
-                      aarch64_get_mem_s16 (cpu, address + displacement));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  val = aarch64_get_mem_s16 (cpu, address + displacement);
+  aarch64_set_reg_s64 (cpu, rt, NO_SP, val);
  }
  
  /* 64 bit load sign-extended 32 bit scaled unsigned 12 bit.  */
  static void
  ldrsw_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
+  int64_t val;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  val = aarch64_get_mem_s32 (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
+                            + SCALE (offset, 32));
    /* The target register may not be SP but the source may be.  */
-  return aarch64_set_reg_s64 (cpu, rt, NO_SP, aarch64_get_mem_s32
-                             (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
-                              + SCALE (offset, 32)));
+  return aarch64_set_reg_s64 (cpu, rt, NO_SP, val);
  }
  
  /* 64 bit load sign-extended 32 bit unscaled signed 9 bit
@@ -1106,8 +1182,8 @@ ldrsw_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrsw_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -1118,6 +1194,7 @@ ldrsw_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_s64 (cpu, rt, NO_SP, aarch64_get_mem_s32 (cpu, address));
  
    if (wb == Post)
@@ -1132,15 +1209,16 @@ ldrsw_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  ldrsw_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement =  OPT_SCALE (extended, 32, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_s64 (cpu, rt, NO_SP,
                        aarch64_get_mem_s32 (cpu, address + displacement));
  }
@@ -1152,9 +1230,10 @@ ldrsw_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  str32_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
    aarch64_set_mem_u32 (cpu, (aarch64_get_reg_u64 (cpu, rn, SP_OK)
                              + SCALE (offset, 32)),
@@ -1165,8 +1244,8 @@ str32_abs (sim_cpu *cpu, uint32_t offset)
  static void
  str32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -1176,6 +1255,7 @@ str32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u32 (cpu, address, aarch64_get_reg_u32 (cpu, rt, NO_SP));
  
    if (wb == Post)
@@ -1190,14 +1270,15 @@ str32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  str32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t  extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement = OPT_SCALE (extended, 32, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u32 (cpu, address + displacement,
                        aarch64_get_reg_u64 (cpu, rt, NO_SP));
  }
@@ -1206,9 +1287,10 @@ str32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  str_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u64 (cpu,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK)
                        + SCALE (offset, 64),
@@ -1219,8 +1301,8 @@ str_abs (sim_cpu *cpu, uint32_t offset)
  static void
  str_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -1231,6 +1313,7 @@ str_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u64 (cpu, address, aarch64_get_reg_u64 (cpu, rt, NO_SP));
  
    if (wb == Post)
@@ -1245,9 +1328,9 @@ str_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  str_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
@@ -1255,6 +1338,7 @@ str_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
                                extension);
    uint64_t displacement = OPT_SCALE (extended, 64, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u64 (cpu, address + displacement,
                        aarch64_get_reg_u64 (cpu, rt, NO_SP));
  }
@@ -1263,9 +1347,10 @@ str_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  strb_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.
       There is no scaling required for a byte load.  */
    aarch64_set_mem_u8 (cpu,
@@ -1277,8 +1362,8 @@ strb_abs (sim_cpu *cpu, uint32_t offset)
  static void
  strb_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -1289,6 +1374,7 @@ strb_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u8 (cpu, address, aarch64_get_reg_u8 (cpu, rt, NO_SP));
  
    if (wb == Post)
@@ -1303,15 +1389,16 @@ strb_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  strb_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t displacement = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                  extension);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* There is no scaling required for a byte load.  */
    aarch64_set_mem_u8 (cpu, address + displacement,
                       aarch64_get_reg_u8 (cpu, rt, NO_SP));
@@ -1321,9 +1408,10 @@ strb_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  strh_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The target register may not be SP but the source may be.  */
    aarch64_set_mem_u16 (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK)
                        + SCALE (offset, 16),
@@ -1334,8 +1422,8 @@ strh_abs (sim_cpu *cpu, uint32_t offset)
  static void
  strh_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address;
  
    if (rn == rt && wb != NoWriteBack)
@@ -1346,6 +1434,7 @@ strh_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
    if (wb != Post)
      address += offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u16 (cpu, address, aarch64_get_reg_u16 (cpu, rt, NO_SP));
  
    if (wb == Post)
@@ -1360,15 +1449,16 @@ strh_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  strh_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    /* rn may reference SP, rm and rt must reference ZR  */
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP), extension);
    uint64_t displacement =  OPT_SCALE (extended, 16, scaling);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_mem_u16 (cpu, address + displacement,
                        aarch64_get_reg_u16 (cpu, rt, NO_SP));
  }
@@ -1384,7 +1474,7 @@ prfm_abs (sim_cpu *cpu, uint32_t offset)
                            10010 ==> PSTL2KEEP, 10001 ==> PSTL2STRM,
                            10100 ==> PSTL3KEEP, 10101 ==> PSTL3STRM,
                            ow ==> UNALLOC
-     PrfOp prfop = prfop (aarch64_get_instr (cpu), 4, 0);
+     PrfOp prfop = prfop (instr, 4, 0);
       uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK)
       + SCALE (offset, 64).  */
  
@@ -1403,7 +1493,7 @@ prfm_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
                            10100 ==> PSTL3KEEP, 10101 ==> PSTL3STRM,
                            ow ==> UNALLOC
       rn may reference SP, rm may only reference ZR
-     PrfOp prfop = prfop (aarch64_get_instr (cpu), 4, 0);
+     PrfOp prfop = prfop (instr, 4, 0);
       uint64_t base = aarch64_get_reg_u64 (cpu, rn, SP_OK);
       int64_t extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                  extension);
@@ -1424,7 +1514,7 @@ prfm_pcrel (sim_cpu *cpu, int32_t offset)
                            10010 ==> PSTL2KEEP, 10001 ==> PSTL2STRM,
                            10100 ==> PSTL3KEEP, 10101 ==> PSTL3STRM,
                            ow ==> UNALLOC
-     PrfOp prfop = prfop (aarch64_get_instr (cpu), 4, 0);
+     PrfOp prfop = prfop (instr, 4, 0);
       uint64_t address = aarch64_get_PC (cpu) + offset.  */
  
    /* TODO : implement this  */
@@ -1435,13 +1525,14 @@ prfm_pcrel (sim_cpu *cpu, int32_t offset)
  static void
  ldxr (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
-  int size = uimm (aarch64_get_instr (cpu), 31, 30);
-  /* int ordered = uimm (aarch64_get_instr (cpu), 15, 15);  */
-  /* int exclusive = ! uimm (aarch64_get_instr (cpu), 23, 23);  */
+  int size = INSTR (31, 30);
+  /* int ordered = INSTR (15, 15);  */
+  /* int exclusive = ! INSTR (23, 23);  */
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    switch (size)
      {
      case 0:
@@ -1456,19 +1547,17 @@ ldxr (sim_cpu *cpu)
      case 3:
        aarch64_set_reg_u64 (cpu, rt, NO_SP, aarch64_get_mem_u64 (cpu, address));
        break;
-    default:
-      HALT_UNALLOC;
      }
  }
  
  static void
  stxr (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rs = uimm (aarch64_get_instr (cpu), 20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rt = INSTR (4, 0);
+  unsigned rs = INSTR (20, 16);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
-  int      size = uimm (aarch64_get_instr (cpu), 31, 30);
+  int      size = INSTR (31, 30);
    uint64_t data = aarch64_get_reg_u64 (cpu, rt, NO_SP);
  
    switch (size)
@@ -1477,9 +1566,9 @@ stxr (sim_cpu *cpu)
      case 1: aarch64_set_mem_u16 (cpu, address, data); break;
      case 2: aarch64_set_mem_u32 (cpu, address, data); break;
      case 3: aarch64_set_mem_u64 (cpu, address, data); break;
-    default: HALT_UNALLOC;
      }
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rs, NO_SP, 0); /* Always exclusive...  */
  }
  
@@ -1495,9 +1584,8 @@ dexLoadLiteral (sim_cpu *cpu)
       instr[26] ==> V : 0 ==> GReg, 1 ==> FReg
       instr[23, 5] == simm19  */
  
-  /* unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);  */
-  uint32_t dispatch = ( (uimm (aarch64_get_instr (cpu), 31, 30) << 1)
-                       | uimm (aarch64_get_instr (cpu), 26, 26));
+  /* unsigned rt = INSTR (4, 0);  */
+  uint32_t dispatch = (INSTR (31, 30) << 1) | INSTR (26, 26);
    int32_t imm = simm32 (aarch64_get_instr (cpu), 23, 5);
  
    switch (dispatch)
@@ -1527,9 +1615,10 @@ dexLoadLiteral (sim_cpu *cpu)
  static void
  add32 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, SP_OK) + aimm);
  }
@@ -1538,9 +1627,10 @@ add32 (sim_cpu *cpu, uint32_t aimm)
  static void
  add64 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK) + aimm);
  }
@@ -1569,55 +1659,34 @@ set_flags_for_add32 (sim_cpu *cpu, int32_t value1, int32_t value2)
    aarch64_set_CPSR (cpu, flags);
  }
  
+#define NEG(a) (((a) & signbit) == signbit)
+#define POS(a) (((a) & signbit) == 0)
+
  static void
  set_flags_for_add64 (sim_cpu *cpu, uint64_t value1, uint64_t value2)
  {
-  int64_t   sval1 = value1;
-  int64_t   sval2 = value2;
-  uint64_t  result = value1 + value2;
-  int64_t   sresult = sval1 + sval2;
-  uint32_t  flags = 0;
+  uint64_t result = value1 + value2;
+  uint32_t flags = 0;
+  uint64_t signbit = 1ULL << 63;
  
    if (result == 0)
      flags |= Z;
  
-  if (result & (1ULL << 63))
+  if (NEG (result))
      flags |= N;
  
-  if (sval1 < 0)
-    {
-      if (sval2 < 0)
-       {
-         /* Negative plus a negative.  Overflow happens if
-            the result is greater than either of the operands.  */
-         if (sresult > sval1 || sresult > sval2)
-           flags |= V;
-       }
-      /* else Negative plus a positive.  Overflow cannot happen.  */
-    }
-  else /* value1 is +ve.  */
-    {
-      if (sval2 < 0)
-       {
-         /* Overflow can only occur if we computed "0 - MININT".  */
-         if (sval1 == 0 && sval2 == (1LL << 63))
-           flags |= V;
-       }
-      else
-       {
-         /* Postive plus positive - overflow has happened if the
-            result is smaller than either of the operands.  */
-         if (result < value1 || result < value2)
-           flags |= V | C;
-       }
-    }
+  if (   (NEG (value1) && NEG (value2))
+      || (NEG (value1) && POS (result))
+      || (NEG (value2) && POS (result)))
+    flags |= C;
+
+  if (   (NEG (value1) && NEG (value2) && POS (result))
+      || (POS (value1) && POS (value2) && NEG (result)))
+    flags |= V;
  
    aarch64_set_CPSR (cpu, flags);
  }
  
-#define NEG(a) (((a) & signbit) == signbit)
-#define POS(a) (((a) & signbit) == 0)
-
  static void
  set_flags_for_sub32 (sim_cpu *cpu, uint32_t value1, uint32_t value2)
  {
@@ -1708,11 +1777,12 @@ set_flags_for_binop64 (sim_cpu *cpu, uint64_t result)
  static void
  adds32 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    /* TODO : do we need to worry about signs here?  */
    int32_t value1 = aarch64_get_reg_s32 (cpu, rn, SP_OK);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + aimm);
    set_flags_for_add32 (cpu, value1, aimm);
  }
@@ -1721,11 +1791,12 @@ adds32 (sim_cpu *cpu, uint32_t aimm)
  static void
  adds64 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    uint64_t value2 = aimm;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2);
    set_flags_for_add64 (cpu, value1, value2);
  }
@@ -1734,9 +1805,10 @@ adds64 (sim_cpu *cpu, uint32_t aimm)
  static void
  sub32 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, SP_OK) - aimm);
  }
@@ -1745,9 +1817,10 @@ sub32 (sim_cpu *cpu, uint32_t aimm)
  static void
  sub64 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK) - aimm);
  }
@@ -1756,11 +1829,12 @@ sub64 (sim_cpu *cpu, uint32_t aimm)
  static void
  subs32 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint32_t value1 = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    uint32_t value2 = aimm;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 - value2);
    set_flags_for_sub32 (cpu, value1, value2);
  }
@@ -1769,11 +1843,12 @@ subs32 (sim_cpu *cpu, uint32_t aimm)
  static void
  subs64 (sim_cpu *cpu, uint32_t aimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    uint32_t value2 = aimm;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 - value2);
    set_flags_for_sub64 (cpu, value1, value2);
  }
@@ -1840,10 +1915,11 @@ shifted64 (uint64_t value, Shift shift, uint32_t count)
  static void
  add32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP)
                        + shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP),
@@ -1854,10 +1930,11 @@ add32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  add64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP)
                        + shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP),
@@ -1868,14 +1945,15 @@ add64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  adds32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2);
    set_flags_for_add32 (cpu, value1, value2);
  }
@@ -1884,14 +1962,15 @@ adds32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  adds64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP),
                                shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2);
    set_flags_for_add64 (cpu, value1, value2);
  }
@@ -1900,10 +1979,11 @@ adds64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  sub32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP)
                        - shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP),
@@ -1914,10 +1994,11 @@ sub32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  sub64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP)
                        - shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP),
@@ -1928,14 +2009,15 @@ sub64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  subs32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                               shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 - value2);
    set_flags_for_sub32 (cpu, value1, value2);
  }
@@ -1944,14 +2026,15 @@ subs32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  subs64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP),
                                shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 - value2);
    set_flags_for_sub64 (cpu, value1, value2);
  }
@@ -2008,10 +2091,11 @@ extreg64 (sim_cpu *cpu, unsigned int lo, Extension extension)
  static void
  add32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, SP_OK)
                        + (extreg32 (cpu, rm, extension) << shift));
@@ -2022,10 +2106,11 @@ add32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  add64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK)
                        + (extreg64 (cpu, rm, extension) << shift));
@@ -2035,13 +2120,14 @@ add64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  adds32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, SP_OK);
    uint32_t value2 = extreg32 (cpu, rm, extension) << shift;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2);
    set_flags_for_add32 (cpu, value1, value2);
  }
@@ -2051,13 +2137,14 @@ adds32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  adds64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    uint64_t value2 = extreg64 (cpu, rm, extension) << shift;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2);
    set_flags_for_add64 (cpu, value1, value2);
  }
@@ -2066,10 +2153,11 @@ adds64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  sub32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, SP_OK)
                        - (extreg32 (cpu, rm, extension) << shift));
@@ -2080,10 +2168,11 @@ sub32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  sub64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, SP_OK)
                        - (extreg64 (cpu, rm, extension) << shift));
@@ -2093,13 +2182,14 @@ sub64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  subs32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, SP_OK);
    uint32_t value2 = extreg32 (cpu, rm, extension) << shift;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 - value2);
    set_flags_for_sub32 (cpu, value1, value2);
  }
@@ -2109,13 +2199,14 @@ subs32_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  static void
  subs64_ext (sim_cpu *cpu, Extension extension, uint32_t shift)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    uint64_t value2 = extreg64 (cpu, rm, extension) << shift;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 - value2);
    set_flags_for_sub64 (cpu, value1, value2);
  }
@@ -2133,9 +2224,9 @@ dexAddSubtractImmediate (sim_cpu *cpu)
       instr[4,0]   = Rd  */
  
    /* N.B. the shift is applied at decode before calling the add/sub routine.  */
-  uint32_t shift = uimm (aarch64_get_instr (cpu), 23, 22);
-  uint32_t imm = uimm (aarch64_get_instr (cpu), 21, 10);
-  uint32_t dispatch = uimm (aarch64_get_instr (cpu), 31, 29);
+  uint32_t shift = INSTR (23, 22);
+  uint32_t imm = INSTR (21, 10);
+  uint32_t dispatch = INSTR (31, 29);
  
    NYI_assert (28, 24, 0x11);
  
@@ -2155,8 +2246,6 @@ dexAddSubtractImmediate (sim_cpu *cpu)
      case 5: adds64 (cpu, imm); break;
      case 6: sub64 (cpu, imm); break;
      case 7: subs64 (cpu, imm); break;
-    default:
-      HALT_UNALLOC;
      }
  }
  
@@ -2173,25 +2262,24 @@ dexAddSubtractShiftedRegister (sim_cpu *cpu)
       instr[9,5]   = Rn
       instr[4,0]   = Rd  */
  
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  /* 32 bit operations must have count[5] = 0
-     or else we have an UNALLOC.  */
-  uint32_t count = uimm (aarch64_get_instr (cpu), 15, 10);
-  /* Shift encoded as ROR is unallocated.  */
-  Shift shiftType = shift (aarch64_get_instr (cpu), 22);
-  /* Dispatch on size:op i.e aarch64_get_instr (cpu)[31,29].  */
-  uint32_t dispatch = uimm (aarch64_get_instr (cpu), 31, 29);
+  uint32_t size = INSTR (31, 31);
+  uint32_t count = INSTR (15, 10);
+  Shift shiftType = INSTR (23, 22);
  
    NYI_assert (28, 24, 0x0B);
    NYI_assert (21, 21, 0);
  
+  /* Shift encoded as ROR is unallocated.  */
    if (shiftType == ROR)
      HALT_UNALLOC;
  
-  if (!size && uimm (count, 5, 5))
+  /* 32 bit operations must have count[5] = 0
+     or else we have an UNALLOC.  */
+  if (size == 0 && uimm (count, 5, 5))
      HALT_UNALLOC;
  
-  switch (dispatch)
+  /* Dispatch on size:op i.e instr [31,29].  */
+  switch (INSTR (31, 29))
      {
      case 0: add32_shift  (cpu, shiftType, count); break;
      case 1: adds32_shift (cpu, shiftType, count); break;
@@ -2201,8 +2289,6 @@ dexAddSubtractShiftedRegister (sim_cpu *cpu)
      case 5: adds64_shift (cpu, shiftType, count); break;
      case 6: sub64_shift  (cpu, shiftType, count); break;
      case 7: subs64_shift (cpu, shiftType, count); break;
-    default:
-      HALT_UNALLOC;
      }
  }
  
@@ -2224,10 +2310,8 @@ dexAddSubtractExtendedRegister (sim_cpu *cpu)
       instr[9,5]   = Rn
       instr[4,0]   = Rd  */
  
-  Extension extensionType = extension (aarch64_get_instr (cpu), 13);
-  uint32_t shift = uimm (aarch64_get_instr (cpu), 12, 10);
-  /* dispatch on size:op:set? i.e aarch64_get_instr (cpu)[31,29]  */
-  uint32_t dispatch = uimm (aarch64_get_instr (cpu), 31, 29);
+  Extension extensionType = INSTR (15, 13);
+  uint32_t shift = INSTR (12, 10);
  
    NYI_assert (28, 24, 0x0B);
    NYI_assert (21, 21, 1);
@@ -2236,7 +2320,8 @@ dexAddSubtractExtendedRegister (sim_cpu *cpu)
    if (shift > 4)
      HALT_UNALLOC;
  
-  switch (dispatch)
+  /* Dispatch on size:op:set?.  */
+  switch (INSTR (31, 29))
      {
      case 0: add32_ext  (cpu, extensionType, shift); break;
      case 1: adds32_ext (cpu, extensionType, shift); break;
@@ -2246,7 +2331,6 @@ dexAddSubtractExtendedRegister (sim_cpu *cpu)
      case 5: adds64_ext (cpu, extensionType, shift); break;
      case 6: sub64_ext  (cpu, extensionType, shift); break;
      case 7: subs64_ext (cpu, extensionType, shift); break;
-    default: HALT_UNALLOC;
      }
  }
  
@@ -2259,10 +2343,11 @@ dexAddSubtractExtendedRegister (sim_cpu *cpu)
  static void
  adc32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP)
                        + aarch64_get_reg_u32 (cpu, rm, NO_SP)
@@ -2273,10 +2358,11 @@ adc32 (sim_cpu *cpu)
  static void
  adc64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP)
                        + aarch64_get_reg_u64 (cpu, rm, NO_SP)
@@ -2287,14 +2373,15 @@ adc64 (sim_cpu *cpu)
  static void
  adcs32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = aarch64_get_reg_u32 (cpu, rm, NO_SP);
    uint32_t carry = IS_SET (C);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2 + carry);
    set_flags_for_add32 (cpu, value1, value2 + carry);
  }
@@ -2303,14 +2390,15 @@ adcs32 (sim_cpu *cpu)
  static void
  adcs64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = aarch64_get_reg_u64 (cpu, rm, NO_SP);
    uint64_t carry = IS_SET (C);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 + value2 + carry);
    set_flags_for_add64 (cpu, value1, value2 + carry);
  }
@@ -2319,10 +2407,11 @@ adcs64 (sim_cpu *cpu)
  static void
  sbc32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5); /* ngc iff rn == 31.  */
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5); /* ngc iff rn == 31.  */
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP)
                        - aarch64_get_reg_u32 (cpu, rm, NO_SP)
@@ -2333,10 +2422,11 @@ sbc32 (sim_cpu *cpu)
  static void
  sbc64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP)
                        - aarch64_get_reg_u64 (cpu, rm, NO_SP)
@@ -2347,15 +2437,16 @@ sbc64 (sim_cpu *cpu)
  static void
  sbcs32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = aarch64_get_reg_u32 (cpu, rm, NO_SP);
    uint32_t carry  = IS_SET (C);
    uint32_t result = value1 - value2 + 1 - carry;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, result);
    set_flags_for_sub32 (cpu, value1, value2 + 1 - carry);
  }
@@ -2364,15 +2455,16 @@ sbcs32 (sim_cpu *cpu)
  static void
  sbcs64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = aarch64_get_reg_u64 (cpu, rm, NO_SP);
    uint64_t carry  = IS_SET (C);
    uint64_t result = value1 - value2 + 1 - carry;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, result);
    set_flags_for_sub64 (cpu, value1, value2 + 1 - carry);
  }
@@ -2389,16 +2481,15 @@ dexAddSubtractWithCarry (sim_cpu *cpu)
       instr[9,5]   = Rn
       instr[4,0]   = Rd  */
  
-  uint32_t op2 = uimm (aarch64_get_instr (cpu), 15, 10);
-  /* Dispatch on size:op:set? i.e aarch64_get_instr (cpu)[31,29]  */
-  uint32_t dispatch = uimm (aarch64_get_instr (cpu), 31, 29);
+  uint32_t op2 = INSTR (15, 10);
  
    NYI_assert (28, 21, 0xD0);
  
    if (op2 != 0)
      HALT_UNALLOC;
  
-  switch (dispatch)
+  /* Dispatch on size:op:set?.  */
+  switch (INSTR (31, 29))
      {
      case 0: adc32 (cpu); break;
      case 1: adcs32 (cpu); break;
@@ -2408,7 +2499,6 @@ dexAddSubtractWithCarry (sim_cpu *cpu)
      case 5: adcs64 (cpu); break;
      case 6: sbc64 (cpu); break;
      case 7: sbcs64 (cpu); break;
-    default: HALT_UNALLOC;
      }
  }
  
@@ -2469,19 +2559,20 @@ CondCompare (sim_cpu *cpu) /* aka: ccmp and ccmn  */
    NYI_assert (10, 10, 0);
    NYI_assert (4, 4, 0);
  
-  if (! testConditionCode (cpu, uimm (aarch64_get_instr (cpu), 15, 12)))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (! testConditionCode (cpu, INSTR (15, 12)))
      {
-      aarch64_set_CPSR (cpu, uimm (aarch64_get_instr (cpu), 3, 0));
+      aarch64_set_CPSR (cpu, INSTR (3, 0));
        return;
      }
  
-  negate = uimm (aarch64_get_instr (cpu), 30, 30) ? 1 : -1;
-  rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  rn = uimm (aarch64_get_instr (cpu),  9,  5);
+  negate = INSTR (30, 30) ? 1 : -1;
+  rm = INSTR (20, 16);
+  rn = INSTR ( 9,  5);
  
-  if (uimm (aarch64_get_instr (cpu), 31, 31))
+  if (INSTR (31, 31))
      {
-      if (uimm (aarch64_get_instr (cpu), 11, 11))
+      if (INSTR (11, 11))
         set_flags_for_sub64 (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK),
                              negate * (uint64_t) rm);
        else
@@ -2490,7 +2581,7 @@ CondCompare (sim_cpu *cpu) /* aka: ccmp and ccmn  */
      }
    else
      {
-      if (uimm (aarch64_get_instr (cpu), 11, 11))
+      if (INSTR (11, 11))
         set_flags_for_sub32 (cpu, aarch64_get_reg_u32 (cpu, rn, SP_OK),
                              negate * rm);
        else
@@ -2512,16 +2603,17 @@ do_vec_MOV_whole_vector (sim_cpu *cpu)
       instr[9,5]   = Vs
       instr[4,0]   = Vd  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
  
    NYI_assert (29, 21, 0x075);
    NYI_assert (15, 10, 0x07);
  
-  if (uimm (aarch64_get_instr (cpu), 20, 16) != vs)
+  if (INSTR (20, 16) != vs)
      HALT_NYI;
  
-  if (uimm (aarch64_get_instr (cpu), 30, 30))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (30, 30))
      aarch64_set_vec_u64 (cpu, vd, 1, aarch64_get_vec_u64 (cpu, vs, 1));
  
    aarch64_set_vec_u64 (cpu, vd, 0, aarch64_get_vec_u64 (cpu, vs, 0));
@@ -2538,13 +2630,14 @@ do_vec_MOV_into_scalar (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4,0]   = R dest  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (29, 21, 0x070);
    NYI_assert (17, 10, 0x0F);
  
-  switch (uimm (aarch64_get_instr (cpu), 20, 18))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (20, 18))
      {
      case 0x2:
        aarch64_set_reg_u64 (cpu, rd, NO_SP, aarch64_get_vec_u64 (cpu, vs, 0));
@@ -2559,7 +2652,7 @@ do_vec_MOV_into_scalar (sim_cpu *cpu)
      case 0x5:
      case 0x7:
        aarch64_set_reg_u64 (cpu, rd, NO_SP, aarch64_get_vec_u32
-                          (cpu, vs, uimm (aarch64_get_instr (cpu), 20, 19)));
+                          (cpu, vs, INSTR (20, 19)));
        break;
  
      default:
@@ -2577,33 +2670,34 @@ do_vec_INS (sim_cpu *cpu)
       instr[4,0]   = V dest  */
  
    int index;
-  unsigned rs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
  
    NYI_assert (31, 21, 0x270);
    NYI_assert (15, 10, 0x07);
  
-  if (uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (16, 16))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 17);
+      index = INSTR (20, 17);
        aarch64_set_vec_u8 (cpu, vd, index,
                           aarch64_get_reg_u8 (cpu, rs, NO_SP));
      }
-  else if (uimm (aarch64_get_instr (cpu), 17, 17))
+  else if (INSTR (17, 17))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 18);
+      index = INSTR (20, 18);
        aarch64_set_vec_u16 (cpu, vd, index,
                            aarch64_get_reg_u16 (cpu, rs, NO_SP));
      }
-  else if (uimm (aarch64_get_instr (cpu), 18, 18))
+  else if (INSTR (18, 18))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 19);
+      index = INSTR (20, 19);
        aarch64_set_vec_u32 (cpu, vd, index,
                            aarch64_get_reg_u32 (cpu, rs, NO_SP));
      }
-  else if (uimm (aarch64_get_instr (cpu), 19, 19))
+  else if (INSTR (19, 19))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 20);
+      index = INSTR (20, 20);
        aarch64_set_vec_u64 (cpu, vd, index,
                            aarch64_get_reg_u64 (cpu, rs, NO_SP));
      }
@@ -2622,44 +2716,45 @@ do_vec_DUP_vector_into_vector (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4,0]   = V dest.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    int i, index;
  
    NYI_assert (29, 21, 0x070);
    NYI_assert (15, 10, 0x01);
  
-  if (uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (16, 16))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 17);
+      index = INSTR (20, 17);
  
        for (i = 0; i < (full ? 16 : 8); i++)
         aarch64_set_vec_u8 (cpu, vd, i, aarch64_get_vec_u8 (cpu, vs, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 17, 17))
+  else if (INSTR (17, 17))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 18);
+      index = INSTR (20, 18);
  
        for (i = 0; i < (full ? 8 : 4); i++)
         aarch64_set_vec_u16 (cpu, vd, i, aarch64_get_vec_u16 (cpu, vs, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 18, 18))
+  else if (INSTR (18, 18))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 19);
+      index = INSTR (20, 19);
  
        for (i = 0; i < (full ? 4 : 2); i++)
         aarch64_set_vec_u32 (cpu, vd, i, aarch64_get_vec_u32 (cpu, vs, index));
      }
    else
      {
-      if (uimm (aarch64_get_instr (cpu), 19, 19) == 0)
+      if (INSTR (19, 19) == 0)
         HALT_UNALLOC;
  
        if (! full)
         HALT_UNALLOC;
  
-      index = uimm (aarch64_get_instr (cpu), 20, 20);
+      index = INSTR (20, 20);
  
        for (i = 0; i < 2; i++)
         aarch64_set_vec_u64 (cpu, vd, i, aarch64_get_vec_u64 (cpu, vs, index));
@@ -2679,16 +2774,17 @@ do_vec_TBL (sim_cpu *cpu)
       instr[9,5]   = V start
       instr[4,0]   = V dest  */
  
-  int full    = uimm (aarch64_get_instr (cpu), 30, 30);
-  int len     = uimm (aarch64_get_instr (cpu), 14, 13) + 1;
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int full    = INSTR (30, 30);
+  int len     = INSTR (14, 13) + 1;
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 21, 0x070);
    NYI_assert (12, 10, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 16 : 8); i++)
      {
        unsigned int selector = aarch64_get_vec_u8 (cpu, vm, i);
@@ -2724,17 +2820,18 @@ do_vec_TRN (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4,0]   = V dest.  */
  
-  int full    = uimm (aarch64_get_instr (cpu), 30, 30);
-  int second  = uimm (aarch64_get_instr (cpu), 14, 14);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int full    = INSTR (30, 30);
+  int second  = INSTR (14, 14);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (13, 10, 0xA);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 8 : 4); i++)
@@ -2780,9 +2877,6 @@ do_vec_TRN (sim_cpu *cpu)
        aarch64_set_vec_u64 (cpu, vd, 1,
                            aarch64_get_vec_u64 (cpu, second ? vn : vm, 1));
        break;
-
-    default:
-      HALT_UNALLOC;
      }
  }
  
@@ -2800,14 +2894,15 @@ do_vec_DUP_scalar_into_vector (sim_cpu *cpu)
       instr[4,0]   = V dest.  */
  
    unsigned i;
-  unsigned Vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned Rs = uimm (aarch64_get_instr (cpu), 9, 5);
-  int both    = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned Vd = INSTR (4, 0);
+  unsigned Rs = INSTR (9, 5);
+  int both    = INSTR (30, 30);
  
    NYI_assert (29, 20, 0x0E0);
    NYI_assert (15, 10, 0x03);
  
-  switch (uimm (aarch64_get_instr (cpu), 19, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (19, 16))
      {
      case 1:
        for (i = 0; i < (both ? 16 : 8); i++)
@@ -2851,56 +2946,91 @@ do_vec_UZP (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd.  */
  
-  int full = uimm (aarch64_get_instr (cpu), 30, 30);
-  int upper = uimm (aarch64_get_instr (cpu), 14, 14);
+  int full = INSTR (30, 30);
+  int upper = INSTR (14, 14);
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
  
    uint64_t val_m1 = aarch64_get_vec_u64 (cpu, vm, 0);
    uint64_t val_m2 = aarch64_get_vec_u64 (cpu, vm, 1);
    uint64_t val_n1 = aarch64_get_vec_u64 (cpu, vn, 0);
    uint64_t val_n2 = aarch64_get_vec_u64 (cpu, vn, 1);
  
-  uint64_t val1 = 0;
-  uint64_t val2 = 0;
+  uint64_t val1;
+  uint64_t val2;
  
-  uint64_t input1 = upper ? val_n1 : val_m1;
-  uint64_t input2 = upper ? val_n2 : val_m2;
-  unsigned i;
+  uint64_t input2 = full ? val_n2 : val_m1;
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 21, 0);
    NYI_assert (15, 15, 0);
    NYI_assert (13, 10, 6);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 23))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
-      for (i = 0; i < 8; i++)
+      val1 = (val_n1 >> (upper * 8)) & 0xFFULL;
+      val1 |= (val_n1 >> ((upper * 8) + 8)) & 0xFF00ULL;
+      val1 |= (val_n1 >> ((upper * 8) + 16)) & 0xFF0000ULL;
+      val1 |= (val_n1 >> ((upper * 8) + 24)) & 0xFF000000ULL;
+
+      val1 |= (input2 << (32 - (upper * 8))) & 0xFF00000000ULL;
+      val1 |= (input2 << (24 - (upper * 8))) & 0xFF0000000000ULL;
+      val1 |= (input2 << (16 - (upper * 8))) & 0xFF000000000000ULL;
+      val1 |= (input2 << (8 - (upper * 8))) & 0xFF00000000000000ULL;
+
+      if (full)
         {
-         val1 |= (input1 >> (i * 8)) & (0xFFULL << (i * 8));
-         val2 |= (input2 >> (i * 8)) & (0xFFULL << (i * 8));
+         val2 = (val_m1 >> (upper * 8)) & 0xFFULL;
+         val2 |= (val_m1 >> ((upper * 8) + 8)) & 0xFF00ULL;
+         val2 |= (val_m1 >> ((upper * 8) + 16)) & 0xFF0000ULL;
+         val2 |= (val_m1 >> ((upper * 8) + 24)) & 0xFF000000ULL;
+
+         val2 |= (val_m2 << (32 - (upper * 8))) & 0xFF00000000ULL;
+         val2 |= (val_m2 << (24 - (upper * 8))) & 0xFF0000000000ULL;
+         val2 |= (val_m2 << (16 - (upper * 8))) & 0xFF000000000000ULL;
+         val2 |= (val_m2 << (8 - (upper * 8))) & 0xFF00000000000000ULL;
         }
        break;
  
      case 1:
-      for (i = 0; i < 4; i++)
+      val1 = (val_n1 >> (upper * 16)) & 0xFFFFULL;
+      val1 |= (val_n1 >> ((upper * 16) + 16)) & 0xFFFF0000ULL;
+
+      val1 |= (input2 << (32 - (upper * 16))) & 0xFFFF00000000ULL;;
+      val1 |= (input2 << (16 - (upper * 16))) & 0xFFFF000000000000ULL;
+
+      if (full)
         {
-         val1 |= (input1 >> (i * 16)) & (0xFFFFULL << (i * 16));
-         val2 |= (input2 >> (i * 16)) & (0xFFFFULL << (i * 16));
+         val2 = (val_m1 >> (upper * 16)) & 0xFFFFULL;
+         val2 |= (val_m1 >> ((upper * 16) + 16)) & 0xFFFF0000ULL;
+
+         val2 |= (val_m2 << (32 - (upper * 16))) & 0xFFFF00000000ULL;
+         val2 |= (val_m2 << (16 - (upper * 16))) & 0xFFFF000000000000ULL;
         }
        break;
  
      case 2:
-      val1 = ((input1 & 0xFFFFFFFF) | ((input1 >> 32) & 0xFFFFFFFF00000000ULL));
-      val2 = ((input2 & 0xFFFFFFFF) | ((input2 >> 32) & 0xFFFFFFFF00000000ULL));
+      val1 = (val_n1 >> (upper * 32)) & 0xFFFFFFFF;
+      val1 |= (input2 << (32 - (upper * 32))) & 0xFFFFFFFF00000000ULL;
+
+      if (full)
+       {
+         val2 = (val_m1 >> (upper * 32)) & 0xFFFFFFFF;
+         val2 |= (val_m2 << (32 - (upper * 32))) & 0xFFFFFFFF00000000ULL;
+       }
+      break;
  
      case 3:
-      val1 = input1;
-      val2 = input2;
-          break;
+      if (! full)
+       HALT_UNALLOC;
+
+      val1 = upper ? val_n2 : val_n1;
+      val2 = upper ? val_m2 : val_m1;
+      break;
      }
  
    aarch64_set_vec_u64 (cpu, vd, 0, val1);
@@ -2923,12 +3053,12 @@ do_vec_ZIP (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd.  */
  
-  int full = uimm (aarch64_get_instr (cpu), 30, 30);
-  int upper = uimm (aarch64_get_instr (cpu), 14, 14);
+  int full = INSTR (30, 30);
+  int upper = INSTR (14, 14);
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
  
    uint64_t val_m1 = aarch64_get_vec_u64 (cpu, vm, 0);
    uint64_t val_m2 = aarch64_get_vec_u64 (cpu, vm, 1);
@@ -2946,7 +3076,8 @@ do_vec_ZIP (sim_cpu *cpu)
    NYI_assert (15, 15, 0);
    NYI_assert (13, 10, 0xE);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 23))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 23))
      {
      case 0:
        val1 =
@@ -3098,22 +3229,22 @@ do_vec_MOV_immediate (sim_cpu *cpu)
       instr[9,5]   = low 5-bits of uimm8
       instr[4,0]   = Vd.  */
  
-  int full     = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vd  = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned val = uimm (aarch64_get_instr (cpu), 18, 16) << 5
-    | uimm (aarch64_get_instr (cpu), 9, 5);
+  int full     = INSTR (30, 30);
+  unsigned vd  = INSTR (4, 0);
+  unsigned val = (INSTR (18, 16) << 5) | INSTR (9, 5);
    unsigned i;
  
    NYI_assert (29, 19, 0x1E0);
    NYI_assert (11, 10, 1);
  
-  switch (uimm (aarch64_get_instr (cpu), 15, 12))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (15, 12))
      {
      case 0x0: /* 32-bit, no shift.  */
      case 0x2: /* 32-bit, shift by 8.  */
      case 0x4: /* 32-bit, shift by 16.  */
      case 0x6: /* 32-bit, shift by 24.  */
-      val <<= (8 * uimm (aarch64_get_instr (cpu), 14, 13));
+      val <<= (8 * INSTR (14, 13));
        for (i = 0; i < (full ? 4 : 2); i++)
         aarch64_set_vec_u32 (cpu, vd, i, val);
        break;
@@ -3124,7 +3255,8 @@ do_vec_MOV_immediate (sim_cpu *cpu)
      case 0x8: /* 16-bit, no shift.  */
        for (i = 0; i < (full ? 8 : 4); i++)
         aarch64_set_vec_u16 (cpu, vd, i, val);
-      /* Fall through.  */
+      break;
+
      case 0xd: /* 32-bit, mask shift by 16.  */
        val <<= 8;
        val |= 0xFF;
@@ -3166,22 +3298,22 @@ do_vec_MVNI (sim_cpu *cpu)
       instr[9,5]   = low 5-bits of uimm8
       instr[4,0]   = Vd.  */
  
-  int full     = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vd  = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned val = uimm (aarch64_get_instr (cpu), 18, 16) << 5
-    | uimm (aarch64_get_instr (cpu), 9, 5);
+  int full     = INSTR (30, 30);
+  unsigned vd  = INSTR (4, 0);
+  unsigned val = (INSTR (18, 16) << 5) | INSTR (9, 5);
    unsigned i;
  
    NYI_assert (29, 19, 0x5E0);
    NYI_assert (11, 10, 1);
  
-  switch (uimm (aarch64_get_instr (cpu), 15, 12))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (15, 12))
      {
      case 0x0: /* 32-bit, no shift.  */
      case 0x2: /* 32-bit, shift by 8.  */
      case 0x4: /* 32-bit, shift by 16.  */
      case 0x6: /* 32-bit, shift by 24.  */
-      val <<= (8 * uimm (aarch64_get_instr (cpu), 14, 13));
+      val <<= (8 * INSTR (14, 13));
        val = ~ val;
        for (i = 0; i < (full ? 4 : 2); i++)
         aarch64_set_vec_u32 (cpu, vd, i, val);
@@ -3212,9 +3344,9 @@ do_vec_MVNI (sim_cpu *cpu)
  
         for (i = 0; i < 8; i++)
           if (val & (1 << i))
-           mask |= (0xF << (i * 4));
+           mask |= (0xFFUL << (i * 8));
         aarch64_set_vec_u64 (cpu, vd, 0, mask);
-       aarch64_set_vec_u64 (cpu, vd, 1, 0);
+       aarch64_set_vec_u64 (cpu, vd, 1, mask);
         return;
        }
  
@@ -3248,15 +3380,16 @@ do_vec_ABS (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
    unsigned i;
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 10, 0x82E);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
@@ -3297,45 +3430,40 @@ do_vec_ADDV (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Rd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    unsigned i;
    uint64_t val = 0;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 10, 0xC6E);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
         val += aarch64_get_vec_u8 (cpu, vm, i);
-      aarch64_set_reg_u64 (cpu, rd, NO_SP, val);
+      aarch64_set_vec_u64 (cpu, rd, 0, val);
        return;
  
      case 1:
        for (i = 0; i < (full ? 8 : 4); i++)
         val += aarch64_get_vec_u16 (cpu, vm, i);
-      aarch64_set_reg_u64 (cpu, rd, NO_SP, val);
+      aarch64_set_vec_u64 (cpu, rd, 0, val);
        return;
  
      case 2:
-      for (i = 0; i < (full ? 4 : 2); i++)
-       val += aarch64_get_vec_u32 (cpu, vm, i);
-      aarch64_set_reg_u64 (cpu, rd, NO_SP, val);
-      return;
-
-    case 3:
        if (! full)
         HALT_UNALLOC;
-      val = aarch64_get_vec_u64 (cpu, vm, 0);
-      val += aarch64_get_vec_u64 (cpu, vm, 1);
-      aarch64_set_reg_u64 (cpu, rd, NO_SP, val);
+      for (i = 0; i < 4; i++)
+       val += aarch64_get_vec_u32 (cpu, vm, i);
+      aarch64_set_vec_u64 (cpu, rd, 0, val);
        return;
  
-    default:
-      HALT_UNREACHABLE;
+    case 3:
+      HALT_UNALLOC;
      }
  }
  
@@ -3351,55 +3479,71 @@ do_vec_ins_2 (sim_cpu *cpu)
       instr[4,0]   = Vd.  */
  
    unsigned elem;
-  unsigned vm = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
  
    NYI_assert (31, 21, 0x270);
    NYI_assert (17, 14, 0);
    NYI_assert (12, 10, 7);
  
-  if (uimm (aarch64_get_instr (cpu), 13, 13) == 1)
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (13, 13) == 1)
      {
-      if (uimm (aarch64_get_instr (cpu), 18, 18) == 1)
+      if (INSTR (18, 18) == 1)
         {
           /* 32-bit moves.  */
-         elem = uimm (aarch64_get_instr (cpu), 20, 19);
+         elem = INSTR (20, 19);
           aarch64_set_reg_u64 (cpu, vd, NO_SP,
                                aarch64_get_vec_u32 (cpu, vm, elem));
         }
        else
         {
           /* 64-bit moves.  */
-         if (uimm (aarch64_get_instr (cpu), 19, 19) != 1)
+         if (INSTR (19, 19) != 1)
             HALT_NYI;
  
-         elem = uimm (aarch64_get_instr (cpu), 20, 20);
+         elem = INSTR (20, 20);
           aarch64_set_reg_u64 (cpu, vd, NO_SP,
                                aarch64_get_vec_u64 (cpu, vm, elem));
         }
      }
    else
      {
-      if (uimm (aarch64_get_instr (cpu), 18, 18) == 1)
+      if (INSTR (18, 18) == 1)
         {
           /* 32-bit moves.  */
-         elem = uimm (aarch64_get_instr (cpu), 20, 19);
+         elem = INSTR (20, 19);
           aarch64_set_vec_u32 (cpu, vd, elem,
                                aarch64_get_reg_u32 (cpu, vm, NO_SP));
         }
        else
         {
           /* 64-bit moves.  */
-         if (uimm (aarch64_get_instr (cpu), 19, 19) != 1)
+         if (INSTR (19, 19) != 1)
             HALT_NYI;
  
-         elem = uimm (aarch64_get_instr (cpu), 20, 20);
+         elem = INSTR (20, 20);
           aarch64_set_vec_u64 (cpu, vd, elem,
                                aarch64_get_reg_u64 (cpu, vm, NO_SP));
         }
      }
  }
  
+#define DO_VEC_WIDENING_MUL(N, DST_TYPE, READ_TYPE, WRITE_TYPE)          \
+  do                                                             \
+    {                                                            \
+      DST_TYPE a[N], b[N];                                       \
+                                                                 \
+      for (i = 0; i < (N); i++)                                          \
+       {                                                         \
+         a[i] = aarch64_get_vec_##READ_TYPE (cpu, vn, i + bias); \
+         b[i] = aarch64_get_vec_##READ_TYPE (cpu, vm, i + bias); \
+       }                                                         \
+      for (i = 0; i < (N); i++)                                          \
+       aarch64_set_vec_##WRITE_TYPE (cpu, vd, i, a[i] * b[i]);   \
+    }                                                            \
+  while (0)
+
  static void
  do_vec_mull (sim_cpu *cpu)
  {
@@ -3414,67 +3558,49 @@ do_vec_mull (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  int    unsign = uimm (aarch64_get_instr (cpu), 29, 29);
-  int    bias = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned vd = uimm (aarch64_get_instr (cpu),  4,  0);
+  int    unsign = INSTR (29, 29);
+  int    bias = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR ( 9,  5);
+  unsigned vd = INSTR ( 4,  0);
    unsigned i;
  
    NYI_assert (28, 24, 0x0E);
    NYI_assert (15, 10, 0x30);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  /* NB: Read source values before writing results, in case
+     the source and destination vectors are the same.  */
+  switch (INSTR (23, 22))
      {
      case 0:
        if (bias)
         bias = 8;
        if (unsign)
-       for (i = 0; i < 8; i++)
-         aarch64_set_vec_u16 (cpu, vd, i,
-                              aarch64_get_vec_u8 (cpu, vn, i + bias)
-                              * aarch64_get_vec_u8 (cpu, vm, i + bias));
+       DO_VEC_WIDENING_MUL (8, uint16_t, u8, u16);
        else
-       for (i = 0; i < 8; i++)
-         aarch64_set_vec_s16 (cpu, vd, i,
-                              aarch64_get_vec_s8 (cpu, vn, i + bias)
-                              * aarch64_get_vec_s8 (cpu, vm, i + bias));
+       DO_VEC_WIDENING_MUL (8, int16_t, s8, s16);
        return;
  
      case 1:
        if (bias)
         bias = 4;
        if (unsign)
-       for (i = 0; i < 4; i++)
-         aarch64_set_vec_u32 (cpu, vd, i,
-                              aarch64_get_vec_u16 (cpu, vn, i + bias)
-                              * aarch64_get_vec_u16 (cpu, vm, i + bias));
+       DO_VEC_WIDENING_MUL (4, uint32_t, u16, u32);
        else
-       for (i = 0; i < 4; i++)
-         aarch64_set_vec_s32 (cpu, vd, i,
-                              aarch64_get_vec_s16 (cpu, vn, i + bias)
-                              * aarch64_get_vec_s16 (cpu, vm, i + bias));
+       DO_VEC_WIDENING_MUL (4, int32_t, s16, s32);
        return;
  
      case 2:
        if (bias)
         bias = 2;
        if (unsign)
-       for (i = 0; i < 2; i++)
-         aarch64_set_vec_u64 (cpu, vd, i,
-                              (uint64_t) aarch64_get_vec_u32 (cpu, vn,
-                                                              i + bias)
-                              * (uint64_t) aarch64_get_vec_u32 (cpu, vm,
-                                                                i + bias));
+       DO_VEC_WIDENING_MUL (2, uint64_t, u32, u64);
        else
-       for (i = 0; i < 2; i++)
-         aarch64_set_vec_s64 (cpu, vd, i,
-                              aarch64_get_vec_s32 (cpu, vn, i + bias)
-                              * aarch64_get_vec_s32 (cpu, vm, i + bias));
+       DO_VEC_WIDENING_MUL (2, int64_t, s32, s64);
        return;
  
      case 3:
-    default:
        HALT_NYI;
      }
  }
@@ -3493,19 +3619,20 @@ do_vec_fadd (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x35);
  
-  if (uimm (aarch64_get_instr (cpu), 23, 23))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (23, 23))
      {
-      if (uimm (aarch64_get_instr (cpu), 22, 22))
+      if (INSTR (22, 22))
         {
           if (! full)
             HALT_NYI;
@@ -3525,7 +3652,7 @@ do_vec_fadd (sim_cpu *cpu)
      }
    else
      {
-      if (uimm (aarch64_get_instr (cpu), 22, 22))
+      if (INSTR (22, 22))
         {
           if (! full)
             HALT_NYI;
@@ -3558,17 +3685,18 @@ do_vec_add (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x21);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
@@ -3597,9 +3725,6 @@ do_vec_add (sim_cpu *cpu)
                            aarch64_get_vec_u64 (cpu, vn, 1)
                            + aarch64_get_vec_u64 (cpu, vm, 1));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -3616,49 +3741,32 @@ do_vec_mul (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
+  int      bias = 0;
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x27);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
-      for (i = 0; i < (full ? 16 : 8); i++)
-       {
-         uint16_t val = aarch64_get_vec_u8 (cpu, vn, i);
-         val *= aarch64_get_vec_u8 (cpu, vm, i);
-
-         aarch64_set_vec_u16 (cpu, vd, i, val);
-       }
+      DO_VEC_WIDENING_MUL (full ? 16 : 8, uint8_t, u8, u8);
        return;
  
      case 1:
-      for (i = 0; i < (full ? 8 : 4); i++)
-       {
-         uint32_t val = aarch64_get_vec_u16 (cpu, vn, i);
-         val *= aarch64_get_vec_u16 (cpu, vm, i);
-
-         aarch64_set_vec_u32 (cpu, vd, i, val);
-       }
+      DO_VEC_WIDENING_MUL (full ? 8 : 4, uint16_t, u16, u16);
        return;
  
      case 2:
-      for (i = 0; i < (full ? 4 : 2); i++)
-       {
-         uint64_t val = aarch64_get_vec_u32 (cpu, vn, i);
-         val *= aarch64_get_vec_u32 (cpu, vm, i);
-
-         aarch64_set_vec_u64 (cpu, vd, i, val);
-       }
+      DO_VEC_WIDENING_MUL (full ? 4 : 2, uint32_t, u32, u32);
        return;
  
-    default:
      case 3:
        HALT_UNALLOC;
      }
@@ -3677,52 +3785,76 @@ do_vec_MLA (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x25);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
-      for (i = 0; i < (full ? 16 : 8); i++)
-       {
-         uint16_t val = aarch64_get_vec_u8 (cpu, vn, i);
-         val *= aarch64_get_vec_u8 (cpu, vm, i);
-         val += aarch64_get_vec_u8 (cpu, vd, i);
+      {
+       uint16_t a[16], b[16];
  
-         aarch64_set_vec_u16 (cpu, vd, i, val);
-       }
+       for (i = 0; i < (full ? 16 : 8); i++)
+         {
+           a[i] = aarch64_get_vec_u8 (cpu, vn, i);
+           b[i] = aarch64_get_vec_u8 (cpu, vm, i);
+         }
+       
+       for (i = 0; i < (full ? 16 : 8); i++)
+         {
+           uint16_t v = aarch64_get_vec_u8 (cpu, vd, i);
+
+           aarch64_set_vec_u16 (cpu, vd, i, v + (a[i] * b[i]));
+         }
+      }
        return;
  
      case 1:
-      for (i = 0; i < (full ? 8 : 4); i++)
-       {
-         uint32_t val = aarch64_get_vec_u16 (cpu, vn, i);
-         val *= aarch64_get_vec_u16 (cpu, vm, i);
-         val += aarch64_get_vec_u16 (cpu, vd, i);
+      {
+       uint32_t a[8], b[8];
  
-         aarch64_set_vec_u32 (cpu, vd, i, val);
-       }
+       for (i = 0; i < (full ? 8 : 4); i++)
+         {
+           a[i] = aarch64_get_vec_u16 (cpu, vn, i);
+           b[i] = aarch64_get_vec_u16 (cpu, vm, i);
+         }
+       
+       for (i = 0; i < (full ? 8 : 4); i++)
+         {
+           uint32_t v = aarch64_get_vec_u16 (cpu, vd, i);
+
+           aarch64_set_vec_u32 (cpu, vd, i, v + (a[i] * b[i]));
+         }
+      }
        return;
  
      case 2:
-      for (i = 0; i < (full ? 4 : 2); i++)
-       {
-         uint64_t val = aarch64_get_vec_u32 (cpu, vn, i);
-         val *= aarch64_get_vec_u32 (cpu, vm, i);
-         val += aarch64_get_vec_u32 (cpu, vd, i);
+      {
+       uint64_t a[4], b[4];
  
-         aarch64_set_vec_u64 (cpu, vd, i, val);
-       }
+       for (i = 0; i < (full ? 4 : 2); i++)
+         {
+           a[i] = aarch64_get_vec_u32 (cpu, vn, i);
+           b[i] = aarch64_get_vec_u32 (cpu, vm, i);
+         }
+       
+       for (i = 0; i < (full ? 4 : 2); i++)
+         {
+           uint64_t v = aarch64_get_vec_u32 (cpu, vd, i);
+
+           aarch64_set_vec_u64 (cpu, vd, i, v + (a[i] * b[i]));
+         }
+      }
        return;
  
-    default:
      case 3:
        HALT_UNALLOC;
      }
@@ -3731,13 +3863,13 @@ do_vec_MLA (sim_cpu *cpu)
  static float
  fmaxnm (float a, float b)
  {
-  if (fpclassify (a) == FP_NORMAL)
+  if (! isnan (a))
      {
-      if (fpclassify (b) == FP_NORMAL)
+      if (! isnan (b))
         return a > b ? a : b;
        return a;
      }
-  else if (fpclassify (b) == FP_NORMAL)
+  else if (! isnan (b))
      return b;
    return a;
  }
@@ -3745,13 +3877,13 @@ fmaxnm (float a, float b)
  static float
  fminnm (float a, float b)
  {
-  if (fpclassify (a) == FP_NORMAL)
+  if (! isnan (a))
      {
-      if (fpclassify (b) == FP_NORMAL)
+      if (! isnan (b))
         return a < b ? a : b;
        return a;
      }
-  else if (fpclassify (b) == FP_NORMAL)
+  else if (! isnan (b))
      return b;
    return a;
  }
@@ -3759,13 +3891,13 @@ fminnm (float a, float b)
  static double
  dmaxnm (double a, double b)
  {
-  if (fpclassify (a) == FP_NORMAL)
+  if (! isnan (a))
      {
-      if (fpclassify (b) == FP_NORMAL)
+      if (! isnan (b))
         return a > b ? a : b;
        return a;
      }
-  else if (fpclassify (b) == FP_NORMAL)
+  else if (! isnan (b))
      return b;
    return a;
  }
@@ -3773,13 +3905,13 @@ dmaxnm (double a, double b)
  static double
  dminnm (double a, double b)
  {
-  if (fpclassify (a) == FP_NORMAL)
+  if (! isnan (a))
      {
-      if (fpclassify (b) == FP_NORMAL)
+      if (! isnan (b))
         return a < b ? a : b;
        return a;
      }
-  else if (fpclassify (b) == FP_NORMAL)
+  else if (! isnan (b))
      return b;
    return a;
  }
@@ -3787,29 +3919,30 @@ dminnm (double a, double b)
  static void
  do_vec_FminmaxNMP (sim_cpu *cpu)
  {
-  /* aarch64_get_instr (cpu)[31]    = 0
-     aarch64_get_instr (cpu)[30]    = half (0)/full (1)
-     aarch64_get_instr (cpu)[29,24] = 10 1110
-     aarch64_get_instr (cpu)[23]    = max(0)/min(1)
-     aarch64_get_instr (cpu)[22]    = float (0)/double (1)
-     aarch64_get_instr (cpu)[21]    = 1
-     aarch64_get_instr (cpu)[20,16] = Vn
-     aarch64_get_instr (cpu)[15,10] = 1100 01
-     aarch64_get_instr (cpu)[9,5]   = Vm
-     aarch64_get_instr (cpu)[4.0]   = Vd.  */
-
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  /* instr [31]    = 0
+     instr [30]    = half (0)/full (1)
+     instr [29,24] = 10 1110
+     instr [23]    = max(0)/min(1)
+     instr [22]    = float (0)/double (1)
+     instr [21]    = 1
+     instr [20,16] = Vn
+     instr [15,10] = 1100 01
+     instr [9,5]   = Vm
+     instr [4.0]   = Vd.  */
+
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 24, 0x2E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x31);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
-      double (* fn)(double, double) = uimm (aarch64_get_instr (cpu), 23, 23)
+      double (* fn)(double, double) = INSTR (23, 23)
         ? dminnm : dmaxnm;
  
        if (! full)
@@ -3823,7 +3956,7 @@ do_vec_FminmaxNMP (sim_cpu *cpu)
      }
    else
      {
-      float (* fn)(float, float) = uimm (aarch64_get_instr (cpu), 23, 23)
+      float (* fn)(float, float) = INSTR (23, 23)
         ? fminnm : fmaxnm;
  
        aarch64_set_vec_float (cpu, vd, 0,
@@ -3855,15 +3988,16 @@ do_vec_AND (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 21, 0x071);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 4 : 2); i++)
      aarch64_set_vec_u32 (cpu, vd, i,
                          aarch64_get_vec_u32 (cpu, vn, i)
@@ -3881,15 +4015,16 @@ do_vec_BSL (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 21, 0x173);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 16 : 8); i++)
      aarch64_set_vec_u8 (cpu, vd, i,
                         (    aarch64_get_vec_u8 (cpu, vd, i)
@@ -3909,15 +4044,16 @@ do_vec_EOR (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 21, 0x171);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 4 : 2); i++)
      aarch64_set_vec_u32 (cpu, vd, i,
                          aarch64_get_vec_u32 (cpu, vn, i)
@@ -3937,17 +4073,18 @@ do_vec_bit (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned test_false = uimm (aarch64_get_instr (cpu), 22, 22);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned test_false = INSTR (22, 22);
    unsigned i;
  
    NYI_assert (29, 23, 0x5D);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (test_false)
      {
        for (i = 0; i < (full ? 16 : 8); i++)
@@ -3973,15 +4110,16 @@ do_vec_ORN (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 21, 0x077);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 16 : 8); i++)
      aarch64_set_vec_u8 (cpu, vd, i,
                         aarch64_get_vec_u8 (cpu, vn, i)
@@ -3999,15 +4137,16 @@ do_vec_ORR (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 21, 0x075);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 16 : 8); i++)
      aarch64_set_vec_u8 (cpu, vd, i,
                         aarch64_get_vec_u8 (cpu, vn, i)
@@ -4025,15 +4164,16 @@ do_vec_BIC (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 21, 0x073);
    NYI_assert (15, 10, 0x07);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 16 : 8); i++)
      aarch64_set_vec_u8 (cpu, vd, i,
                         aarch64_get_vec_u8 (cpu, vn, i)
@@ -4051,48 +4191,34 @@ do_vec_XTN (sim_cpu *cpu)
       instr[9,5]   = Vs
       instr[4,0]   = Vd.  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned bias = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned bias = INSTR (30, 30);
    unsigned i;
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 10, 0x84A);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
-      if (bias)
-       for (i = 0; i < 8; i++)
-         aarch64_set_vec_u8 (cpu, vd, i + 8,
-                             aarch64_get_vec_u16 (cpu, vs, i) >> 8);
-      else
-       for (i = 0; i < 8; i++)
-         aarch64_set_vec_u8 (cpu, vd, i, aarch64_get_vec_u16 (cpu, vs, i));
+      for (i = 0; i < 8; i++)
+       aarch64_set_vec_u8 (cpu, vd, i + (bias * 8),
+                           aarch64_get_vec_u16 (cpu, vs, i));
        return;
  
      case 1:
-      if (bias)
-       for (i = 0; i < 4; i++)
-         aarch64_set_vec_u16 (cpu, vd, i + 4,
-                              aarch64_get_vec_u32 (cpu, vs, i) >> 16);
-      else
-       for (i = 0; i < 4; i++)
-         aarch64_set_vec_u16 (cpu, vd, i, aarch64_get_vec_u32 (cpu, vs, i));
+      for (i = 0; i < 4; i++)
+       aarch64_set_vec_u16 (cpu, vd, i + (bias * 4),
+                            aarch64_get_vec_u32 (cpu, vs, i));
        return;
  
      case 2:
-      if (bias)
-       for (i = 0; i < 2; i++)
-         aarch64_set_vec_u32 (cpu, vd, i + 4,
-                              aarch64_get_vec_u64 (cpu, vs, i) >> 32);
-      else
-       for (i = 0; i < 2; i++)
-         aarch64_set_vec_u32 (cpu, vd, i, aarch64_get_vec_u64 (cpu, vs, i));
+      for (i = 0; i < 2; i++)
+       aarch64_set_vec_u32 (cpu, vd, i + (bias * 2),
+                            aarch64_get_vec_u64 (cpu, vs, i));
        return;
-
-    default:
-      HALT_UNALLOC;
      }
  }
  
@@ -4111,9 +4237,9 @@ do_vec_maxv (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4.0]   = R dest.  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
    unsigned i;
  
    NYI_assert (28, 24, 0x0E);
@@ -4121,13 +4247,13 @@ do_vec_maxv (sim_cpu *cpu)
    NYI_assert (20, 17, 8);
    NYI_assert (15, 10, 0x2A);
  
-  switch ((uimm (aarch64_get_instr (cpu), 29, 29) << 1)
-         | uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch ((INSTR (29, 29) << 1) | INSTR (16, 16))
      {
      case 0: /* SMAXV.  */
         {
         int64_t smax;
-       switch (uimm (aarch64_get_instr (cpu), 23, 22))
+       switch (INSTR (23, 22))
           {
           case 0:
             smax = aarch64_get_vec_s8 (cpu, vs, 0);
@@ -4144,7 +4270,6 @@ do_vec_maxv (sim_cpu *cpu)
             for (i = 1; i < (full ? 4 : 2); i++)
               smax = max (smax, aarch64_get_vec_s32 (cpu, vs, i));
             break;
-         default:
           case 3:
             HALT_UNALLOC;
           }
@@ -4155,7 +4280,7 @@ do_vec_maxv (sim_cpu *cpu)
      case 1: /* SMINV.  */
        {
         int64_t smin;
-       switch (uimm (aarch64_get_instr (cpu), 23, 22))
+       switch (INSTR (23, 22))
           {
           case 0:
             smin = aarch64_get_vec_s8 (cpu, vs, 0);
@@ -4172,7 +4297,7 @@ do_vec_maxv (sim_cpu *cpu)
             for (i = 1; i < (full ? 4 : 2); i++)
               smin = min (smin, aarch64_get_vec_s32 (cpu, vs, i));
             break;
-         default:
+
           case 3:
             HALT_UNALLOC;
           }
@@ -4183,7 +4308,7 @@ do_vec_maxv (sim_cpu *cpu)
      case 2: /* UMAXV.  */
        {
         uint64_t umax;
-       switch (uimm (aarch64_get_instr (cpu), 23, 22))
+       switch (INSTR (23, 22))
           {
           case 0:
             umax = aarch64_get_vec_u8 (cpu, vs, 0);
@@ -4200,7 +4325,7 @@ do_vec_maxv (sim_cpu *cpu)
             for (i = 1; i < (full ? 4 : 2); i++)
               umax = max (umax, aarch64_get_vec_u32 (cpu, vs, i));
             break;
-         default:
+
           case 3:
             HALT_UNALLOC;
           }
@@ -4211,7 +4336,7 @@ do_vec_maxv (sim_cpu *cpu)
      case 3: /* UMINV.  */
        {
         uint64_t umin;
-       switch (uimm (aarch64_get_instr (cpu), 23, 22))
+       switch (INSTR (23, 22))
           {
           case 0:
             umin = aarch64_get_vec_u8 (cpu, vs, 0);
@@ -4228,16 +4353,13 @@ do_vec_maxv (sim_cpu *cpu)
             for (i = 1; i < (full ? 4 : 2); i++)
               umin = min (umin, aarch64_get_vec_u32 (cpu, vs, i));
             break;
-         default:
+
           case 3:
             HALT_UNALLOC;
           }
         aarch64_set_reg_u64 (cpu, rd, NO_SP, umin);
         return;
        }
-
-    default:
-      HALT_UNALLOC;
      }
  }
  
@@ -4252,8 +4374,8 @@ do_vec_fminmaxV (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4.0]   = R dest.  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    unsigned i;
    float res   = aarch64_get_vec_float (cpu, vs, 0);
  
@@ -4261,9 +4383,10 @@ do_vec_fminmaxV (sim_cpu *cpu)
    NYI_assert (22, 14, 0x0C3);
    NYI_assert (11, 10, 2);
  
-  if (uimm (aarch64_get_instr (cpu), 23, 23))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (23, 23))
      {
-      switch (uimm (aarch64_get_instr (cpu), 13, 12))
+      switch (INSTR (13, 12))
         {
         case 0: /* FMNINNMV.  */
           for (i = 1; i < 4; i++)
@@ -4281,7 +4404,7 @@ do_vec_fminmaxV (sim_cpu *cpu)
      }
    else
      {
-      switch (uimm (aarch64_get_instr (cpu), 13, 12))
+      switch (INSTR (13, 12))
         {
         case 0: /* FMNAXNMV.  */
           for (i = 1; i < 4; i++)
@@ -4317,11 +4440,11 @@ do_vec_Fminmax (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned min = uimm (aarch64_get_instr (cpu), 23, 23);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned min = INSTR (23, 23);
    unsigned i;
  
    NYI_assert (29, 24, 0x0E);
@@ -4329,16 +4452,17 @@ do_vec_Fminmax (sim_cpu *cpu)
    NYI_assert (15, 14, 3);
    NYI_assert (11, 10, 1);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        double (* func)(double, double);
  
        if (! full)
         HALT_NYI;
  
-      if (uimm (aarch64_get_instr (cpu), 13, 12) == 0)
+      if (INSTR (13, 12) == 0)
         func = min ? dminnm : dmaxnm;
-      else if (uimm (aarch64_get_instr (cpu), 13, 12) == 3)
+      else if (INSTR (13, 12) == 3)
         func = min ? fmin : fmax;
        else
         HALT_NYI;
@@ -4352,9 +4476,9 @@ do_vec_Fminmax (sim_cpu *cpu)
      {
        float (* func)(float, float);
  
-      if (uimm (aarch64_get_instr (cpu), 13, 12) == 0)
+      if (INSTR (13, 12) == 0)
         func = min ? fminnm : fmaxnm;
-      else if (uimm (aarch64_get_instr (cpu), 13, 12) == 3)
+      else if (INSTR (13, 12) == 3)
         func = min ? fminf : fmaxf;
        else
         HALT_NYI;
@@ -4377,15 +4501,16 @@ do_vec_SCVTF (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd.  */
  
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned size = uimm (aarch64_get_instr (cpu), 22, 22);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned size = INSTR (22, 22);
    unsigned i;
  
    NYI_assert (29, 23, 0x1C);
    NYI_assert (21, 10, 0x876);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (size)
      {
        if (! full)
@@ -4446,8 +4571,6 @@ do_vec_SCVTF (sim_cpu *cpu)
                                  aarch64_get_vec_##SOURCE##64 (cpu, vm, i) \
                                  ? -1ULL : 0);                          \
           return;                                                       \
-       default:                                                        \
-       HALT_UNALLOC;                                                   \
         }                                                               \
      }                                                                  \
    while (0)
@@ -4483,8 +4606,6 @@ do_vec_SCVTF (sim_cpu *cpu)
                                  aarch64_get_vec_##SOURCE##64 (cpu, vn, i) \
                                  CMP 0 ? -1ULL : 0);                    \
           return;                                                       \
-       default:                                                        \
-         HALT_UNALLOC;                                                 \
         }                                                               \
      }                                                                  \
    while (0)
@@ -4494,7 +4615,7 @@ do_vec_SCVTF (sim_cpu *cpu)
      {                                                                  \
        if (vm != 0)                                                     \
         HALT_NYI;                                                       \
-      if (uimm (aarch64_get_instr (cpu), 22, 22))                      \
+      if (INSTR (22, 22))                                              \
         {                                                               \
           if (! full)                                                   \
             HALT_NYI;                                                   \
@@ -4517,7 +4638,7 @@ do_vec_SCVTF (sim_cpu *cpu)
  #define VEC_FCMP(CMP)                                                  \
    do                                                                   \
      {                                                                  \
-      if (uimm (aarch64_get_instr (cpu), 22, 22))                      \
+      if (INSTR (22, 22))                                              \
         {                                                               \
           if (! full)                                                   \
             HALT_NYI;                                                   \
@@ -4556,31 +4677,32 @@ do_vec_compare (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  int full = uimm (aarch64_get_instr (cpu), 30, 30);
-  int size = uimm (aarch64_get_instr (cpu), 23, 22);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int full = INSTR (30, 30);
+  int size = INSTR (23, 22);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (28, 24, 0x0E);
    NYI_assert (21, 21, 1);
  
-  if ((uimm (aarch64_get_instr (cpu), 11, 11)
-       && uimm (aarch64_get_instr (cpu), 14, 14))
-      || ((uimm (aarch64_get_instr (cpu), 11, 11) == 0
-          && uimm (aarch64_get_instr (cpu), 10, 10) == 0)))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if ((INSTR (11, 11)
+       && INSTR (14, 14))
+      || ((INSTR (11, 11) == 0
+          && INSTR (10, 10) == 0)))
      {
        /* A compare vs 0.  */
        if (vm != 0)
         {
-         if (uimm (aarch64_get_instr (cpu), 15, 10) == 0x2A)
+         if (INSTR (15, 10) == 0x2A)
             do_vec_maxv (cpu);
-         else if (uimm (aarch64_get_instr (cpu), 15, 10) == 0x32
-                  || uimm (aarch64_get_instr (cpu), 15, 10) == 0x3E)
+         else if (INSTR (15, 10) == 0x32
+                  || INSTR (15, 10) == 0x3E)
             do_vec_fminmaxV (cpu);
-         else if (uimm (aarch64_get_instr (cpu), 29, 23) == 0x1C
-                  && uimm (aarch64_get_instr (cpu), 21, 10) == 0x876)
+         else if (INSTR (29, 23) == 0x1C
+                  && INSTR (21, 10) == 0x876)
             do_vec_SCVTF (cpu);
           else
             HALT_NYI;
@@ -4588,12 +4710,11 @@ do_vec_compare (sim_cpu *cpu)
         }
      }
  
-  if (uimm (aarch64_get_instr (cpu), 14, 14))
+  if (INSTR (14, 14))
      {
        /* A floating point compare.  */
-      unsigned decode = (uimm (aarch64_get_instr (cpu), 29, 29) << 5)
-       | (uimm (aarch64_get_instr (cpu), 23, 23) << 4)
-       | uimm (aarch64_get_instr (cpu), 13, 10);
+      unsigned decode = (INSTR (29, 29) << 5) | (INSTR (23, 23) << 4)
+       | INSTR (13, 10);
  
        NYI_assert (15, 15, 1);
  
@@ -4614,8 +4735,7 @@ do_vec_compare (sim_cpu *cpu)
      }
    else
      {
-      unsigned decode = (uimm (aarch64_get_instr (cpu), 29, 29) << 6)
-       | uimm (aarch64_get_instr (cpu), 15, 10);
+      unsigned decode = (INSTR (29, 29) << 6) | INSTR (15, 10);
  
        switch (decode)
         {
@@ -4650,11 +4770,12 @@ do_vec_SSHL (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
+  signed int shift;
  
    NYI_assert (29, 24, 0x0E);
    NYI_assert (21, 21, 1);
@@ -4662,36 +4783,62 @@ do_vec_SSHL (sim_cpu *cpu)
  
    /* FIXME: What is a signed shift left in this context ?.  */
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
-       aarch64_set_vec_s8 (cpu, vd, i, aarch64_get_vec_s8 (cpu, vn, i)
-                           << aarch64_get_vec_s8 (cpu, vm, i));
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i);
+         if (shift >= 0)
+           aarch64_set_vec_s8 (cpu, vd, i, aarch64_get_vec_s8 (cpu, vn, i)
+                               << shift);
+         else
+           aarch64_set_vec_s8 (cpu, vd, i, aarch64_get_vec_s8 (cpu, vn, i)
+                               >> - shift);
+       }
        return;
  
      case 1:
        for (i = 0; i < (full ? 8 : 4); i++)
-       aarch64_set_vec_s16 (cpu, vd, i, aarch64_get_vec_s16 (cpu, vn, i)
-                            << aarch64_get_vec_s16 (cpu, vm, i));
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i * 2);
+         if (shift >= 0)
+           aarch64_set_vec_s16 (cpu, vd, i, aarch64_get_vec_s16 (cpu, vn, i)
+                                << shift);
+         else
+           aarch64_set_vec_s16 (cpu, vd, i, aarch64_get_vec_s16 (cpu, vn, i)
+                                >> - shift);
+       }
        return;
  
      case 2:
        for (i = 0; i < (full ? 4 : 2); i++)
-       aarch64_set_vec_s32 (cpu, vd, i, aarch64_get_vec_s32 (cpu, vn, i)
-                            << aarch64_get_vec_s32 (cpu, vm, i));
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i * 4);
+         if (shift >= 0)
+           aarch64_set_vec_s32 (cpu, vd, i, aarch64_get_vec_s32 (cpu, vn, i)
+                                << shift);
+         else
+           aarch64_set_vec_s32 (cpu, vd, i, aarch64_get_vec_s32 (cpu, vn, i)
+                                >> - shift);
+       }
        return;
  
      case 3:
        if (! full)
         HALT_UNALLOC;
        for (i = 0; i < 2; i++)
-       aarch64_set_vec_s64 (cpu, vd, i, aarch64_get_vec_s64 (cpu, vn, i)
-                            << aarch64_get_vec_s64 (cpu, vm, i));
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i * 8);
+         if (shift >= 0)
+           aarch64_set_vec_s64 (cpu, vd, i, aarch64_get_vec_s64 (cpu, vn, i)
+                                << shift);
+         else
+           aarch64_set_vec_s64 (cpu, vd, i, aarch64_get_vec_s64 (cpu, vn, i)
+                                >> - shift);
+       }
        return;
-
-    default:
-      HALT_NYI;
      }
  }
  
@@ -4708,45 +4855,72 @@ do_vec_USHL (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
+  signed int shift;
  
    NYI_assert (29, 24, 0x2E);
    NYI_assert (15, 10, 0x11);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
-      for (i = 0; i < (full ? 16 : 8); i++)
-       aarch64_set_vec_u8 (cpu, vd, i, aarch64_get_vec_u8 (cpu, vn, i)
-                           << aarch64_get_vec_u8 (cpu, vm, i));
+       for (i = 0; i < (full ? 16 : 8); i++)
+         {
+           shift = aarch64_get_vec_s8 (cpu, vm, i);
+           if (shift >= 0)
+             aarch64_set_vec_u8 (cpu, vd, i, aarch64_get_vec_u8 (cpu, vn, i)
+                                 << shift);
+           else
+             aarch64_set_vec_u8 (cpu, vd, i, aarch64_get_vec_u8 (cpu, vn, i)
+                                 >> - shift);
+         }
        return;
  
      case 1:
        for (i = 0; i < (full ? 8 : 4); i++)
-       aarch64_set_vec_u16 (cpu, vd, i, aarch64_get_vec_u16 (cpu, vn, i)
-                            << aarch64_get_vec_u16 (cpu, vm, i));
-      return;
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i * 2);
+         if (shift >= 0)
+           aarch64_set_vec_u16 (cpu, vd, i, aarch64_get_vec_u16 (cpu, vn, i)
+                                << shift);
+         else
+           aarch64_set_vec_u16 (cpu, vd, i, aarch64_get_vec_u16 (cpu, vn, i)
+                                >> - shift);
+       }
+      return;
  
      case 2:
        for (i = 0; i < (full ? 4 : 2); i++)
-       aarch64_set_vec_u32 (cpu, vd, i, aarch64_get_vec_u32 (cpu, vn, i)
-                            << aarch64_get_vec_u32 (cpu, vm, i));
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i * 4);
+         if (shift >= 0)
+           aarch64_set_vec_u32 (cpu, vd, i, aarch64_get_vec_u32 (cpu, vn, i)
+                                << shift);
+         else
+           aarch64_set_vec_u32 (cpu, vd, i, aarch64_get_vec_u32 (cpu, vn, i)
+                                >> - shift);
+       }
        return;
  
      case 3:
        if (! full)
         HALT_UNALLOC;
        for (i = 0; i < 2; i++)
-       aarch64_set_vec_u64 (cpu, vd, i, aarch64_get_vec_u64 (cpu, vn, i)
-                            << aarch64_get_vec_u64 (cpu, vm, i));
+       {
+         shift = aarch64_get_vec_s8 (cpu, vm, i * 8);
+         if (shift >= 0)
+           aarch64_set_vec_u64 (cpu, vd, i, aarch64_get_vec_u64 (cpu, vn, i)
+                                << shift);
+         else
+           aarch64_set_vec_u64 (cpu, vd, i, aarch64_get_vec_u64 (cpu, vn, i)
+                                >> - shift);
+       }
        return;
-
-    default:
-      HALT_NYI;
      }
  }
  
@@ -4763,17 +4937,18 @@ do_vec_FMLA (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 23, 0x1C);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x33);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_UNALLOC;
@@ -4807,19 +4982,20 @@ do_vec_max (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (28, 24, 0x0E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x19);
  
-  if (uimm (aarch64_get_instr (cpu), 29, 29))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (29, 29))
      {
-      switch (uimm (aarch64_get_instr (cpu), 23, 22))
+      switch (INSTR (23, 22))
         {
         case 0:
           for (i = 0; i < (full ? 16 : 8); i++)
@@ -4848,14 +5024,13 @@ do_vec_max (sim_cpu *cpu)
                                  : aarch64_get_vec_u32 (cpu, vm, i));
           return;
  
-       default:
         case 3:
           HALT_UNALLOC;
         }
      }
    else
      {
-      switch (uimm (aarch64_get_instr (cpu), 23, 22))
+      switch (INSTR (23, 22))
         {
         case 0:
           for (i = 0; i < (full ? 16 : 8); i++)
@@ -4884,7 +5059,6 @@ do_vec_max (sim_cpu *cpu)
                                  : aarch64_get_vec_s32 (cpu, vm, i));
           return;
  
-       default:
         case 3:
           HALT_UNALLOC;
         }
@@ -4905,19 +5079,20 @@ do_vec_min (sim_cpu *cpu)
       instr[9,5]   = Vm
       instr[4.0]   = Vd.  */
  
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (28, 24, 0x0E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x1B);
  
-  if (uimm (aarch64_get_instr (cpu), 29, 29))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (29, 29))
      {
-      switch (uimm (aarch64_get_instr (cpu), 23, 22))
+      switch (INSTR (23, 22))
         {
         case 0:
           for (i = 0; i < (full ? 16 : 8); i++)
@@ -4946,14 +5121,13 @@ do_vec_min (sim_cpu *cpu)
                                  : aarch64_get_vec_u32 (cpu, vm, i));
           return;
  
-       default:
         case 3:
           HALT_UNALLOC;
         }
      }
    else
      {
-      switch (uimm (aarch64_get_instr (cpu), 23, 22))
+      switch (INSTR (23, 22))
         {
         case 0:
           for (i = 0; i < (full ? 16 : 8); i++)
@@ -4982,7 +5156,6 @@ do_vec_min (sim_cpu *cpu)
                                  : aarch64_get_vec_s32 (cpu, vm, i));
           return;
  
-       default:
         case 3:
           HALT_UNALLOC;
         }
@@ -5003,10 +5176,10 @@ do_vec_sub_long (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = V dest.  */
  
-  unsigned size = uimm (aarch64_get_instr (cpu), 23, 22);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned size = INSTR (23, 22);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned bias = 0;
    unsigned i;
  
@@ -5017,7 +5190,8 @@ do_vec_sub_long (sim_cpu *cpu)
    if (size == 3)
      HALT_UNALLOC;
  
-  switch (uimm (aarch64_get_instr (cpu), 30, 29))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (30, 29))
      {
      case 2: /* SSUBL2.  */
        bias = 2;
@@ -5102,11 +5276,11 @@ do_vec_ADDP (sim_cpu *cpu)
  
    FRegister copy_vn;
    FRegister copy_vm;
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned size = uimm (aarch64_get_instr (cpu), 23, 22);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned size = INSTR (23, 22);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i, range;
  
    NYI_assert (29, 24, 0x0E);
@@ -5117,6 +5291,7 @@ do_vec_ADDP (sim_cpu *cpu)
    copy_vn = cpu->fr[vn];
    copy_vm = cpu->fr[vm];
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    switch (size)
      {
      case 0:
@@ -5158,9 +5333,6 @@ do_vec_ADDP (sim_cpu *cpu)
        aarch64_set_vec_u64 (cpu, vd, 0, copy_vn.v[0] + copy_vn.v[1]);
        aarch64_set_vec_u64 (cpu, vd, 1, copy_vm.v[0] + copy_vm.v[1]);
        return;
-
-    default:
-      HALT_NYI;
      }
  }
  
@@ -5175,38 +5347,39 @@ do_vec_UMOV (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4,0]   = R dest.  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    unsigned index;
  
    NYI_assert (29, 21, 0x070);
    NYI_assert (15, 10, 0x0F);
  
-  if (uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (16, 16))
      {
        /* Byte transfer.  */
-      index = uimm (aarch64_get_instr (cpu), 20, 17);
+      index = INSTR (20, 17);
        aarch64_set_reg_u64 (cpu, rd, NO_SP,
                            aarch64_get_vec_u8 (cpu, vs, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 17, 17))
+  else if (INSTR (17, 17))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 18);
+      index = INSTR (20, 18);
        aarch64_set_reg_u64 (cpu, rd, NO_SP,
                            aarch64_get_vec_u16 (cpu, vs, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 18, 18))
+  else if (INSTR (18, 18))
      {
-      index = uimm (aarch64_get_instr (cpu), 20, 19);
+      index = INSTR (20, 19);
        aarch64_set_reg_u64 (cpu, rd, NO_SP,
                            aarch64_get_vec_u32 (cpu, vs, index));
      }
    else
      {
-      if (uimm (aarch64_get_instr (cpu), 30, 30) != 1)
+      if (INSTR (30, 30) != 1)
         HALT_UNALLOC;
  
-      index = uimm (aarch64_get_instr (cpu), 20, 20);
+      index = INSTR (20, 20);
        aarch64_set_reg_u64 (cpu, rd, NO_SP,
                            aarch64_get_vec_u64 (cpu, vs, index));
      }
@@ -5224,15 +5397,16 @@ do_vec_FABS (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd.  */
  
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
    unsigned i;
  
    NYI_assert (29, 23, 0x1D);
    NYI_assert (21, 10, 0x83E);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_NYI;
@@ -5260,16 +5434,17 @@ do_vec_FCVTZS (sim_cpu *cpu)
       instr[9,5]   = Rn
       instr[4,0]   = Rd.  */
  
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
    unsigned i;
  
    NYI_assert (31, 31, 0);
    NYI_assert (29, 23, 0x1D);
    NYI_assert (21, 10, 0x86E);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_UNALLOC;
@@ -5285,6 +5460,92 @@ do_vec_FCVTZS (sim_cpu *cpu)
  }
  
  static void
+do_vec_REV64 (sim_cpu *cpu)
+{
+  /* instr[31]    = 0
+     instr[30]    = full/half
+     instr[29,24] = 00 1110 
+     instr[23,22] = size
+     instr[21,10] = 10 0000 0000 10
+     instr[9,5]   = Rn
+     instr[4,0]   = Rd.  */
+
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned size = INSTR (23, 22);
+  unsigned full = INSTR (30, 30);
+  unsigned i;
+  FRegister val;
+
+  NYI_assert (29, 24, 0x0E);
+  NYI_assert (21, 10, 0x802);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (size)
+    {
+    case 0:
+      for (i = 0; i < (full ? 16 : 8); i++)
+       val.b[i ^ 0x7] = aarch64_get_vec_u8 (cpu, rn, i);
+      break;
+
+    case 1:
+      for (i = 0; i < (full ? 8 : 4); i++)
+       val.h[i ^ 0x3] = aarch64_get_vec_u16 (cpu, rn, i);
+      break;
+
+    case 2:
+      for (i = 0; i < (full ? 4 : 2); i++)
+       val.w[i ^ 0x1] = aarch64_get_vec_u32 (cpu, rn, i);
+      break;
+      
+    case 3:
+      HALT_UNALLOC;
+    }
+
+  aarch64_set_vec_u64 (cpu, rd, 0, val.v[0]);
+  if (full)
+    aarch64_set_vec_u64 (cpu, rd, 1, val.v[1]);
+}
+
+static void
+do_vec_REV16 (sim_cpu *cpu)
+{
+  /* instr[31]    = 0
+     instr[30]    = full/half
+     instr[29,24] = 00 1110 
+     instr[23,22] = size
+     instr[21,10] = 10 0000 0001 10
+     instr[9,5]   = Rn
+     instr[4,0]   = Rd.  */
+
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned size = INSTR (23, 22);
+  unsigned full = INSTR (30, 30);
+  unsigned i;
+  FRegister val;
+
+  NYI_assert (29, 24, 0x0E);
+  NYI_assert (21, 10, 0x806);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (size)
+    {
+    case 0:
+      for (i = 0; i < (full ? 16 : 8); i++)
+       val.b[i ^ 0x1] = aarch64_get_vec_u8 (cpu, rn, i);
+      break;
+
+    default:
+      HALT_UNALLOC;
+    }
+
+  aarch64_set_vec_u64 (cpu, rd, 0, val.v[0]);
+  if (full)
+    aarch64_set_vec_u64 (cpu, rd, 1, val.v[1]);
+}
+
+static void
  do_vec_op1 (sim_cpu *cpu)
  {
    /* instr[31]    = 0
@@ -5297,16 +5558,16 @@ do_vec_op1 (sim_cpu *cpu)
       instr[4,0]   = Vd  */
    NYI_assert (29, 24, 0x0E);
  
-  if (uimm (aarch64_get_instr (cpu), 21, 21) == 0)
+  if (INSTR (21, 21) == 0)
      {
-      if (uimm (aarch64_get_instr (cpu), 23, 22) == 0)
+      if (INSTR (23, 22) == 0)
         {
-         if (uimm (aarch64_get_instr (cpu), 30, 30) == 1
-             && uimm (aarch64_get_instr (cpu), 17, 14) == 0
-             && uimm (aarch64_get_instr (cpu), 12, 10) == 7)
+         if (INSTR (30, 30) == 1
+             && INSTR (17, 14) == 0
+             && INSTR (12, 10) == 7)
             return do_vec_ins_2 (cpu);
  
-         switch (uimm (aarch64_get_instr (cpu), 15, 10))
+         switch (INSTR (15, 10))
             {
             case 0x01: do_vec_DUP_vector_into_vector (cpu); return;
             case 0x03: do_vec_DUP_scalar_into_vector (cpu); return;
@@ -5314,7 +5575,7 @@ do_vec_op1 (sim_cpu *cpu)
             case 0x0A: do_vec_TRN (cpu); return;
  
             case 0x0F:
-             if (uimm (aarch64_get_instr (cpu), 17, 16) == 0)
+             if (INSTR (17, 16) == 0)
                 {
                   do_vec_MOV_into_scalar (cpu);
                   return;
@@ -5340,7 +5601,7 @@ do_vec_op1 (sim_cpu *cpu)
             }
         }
  
-      switch (uimm (aarch64_get_instr (cpu), 13, 10))
+      switch (INSTR (13, 10))
         {
         case 0x6: do_vec_UZP (cpu); return;
         case 0xE: do_vec_ZIP (cpu); return;
@@ -5350,10 +5611,13 @@ do_vec_op1 (sim_cpu *cpu)
         }
      }
  
-  switch (uimm (aarch64_get_instr (cpu), 15, 10))
+  switch (INSTR (15, 10))
      {
+    case 0x02: do_vec_REV64 (cpu); return;
+    case 0x06: do_vec_REV16 (cpu); return;
+
      case 0x07:
-      switch (uimm (aarch64_get_instr (cpu), 23, 21))
+      switch (INSTR (23, 21))
         {
         case 1: do_vec_AND (cpu); return;
         case 3: do_vec_BIC (cpu); return;
@@ -5376,7 +5640,7 @@ do_vec_op1 (sim_cpu *cpu)
      case 0x35: do_vec_fadd (cpu); return;
  
      case 0x2E:
-      switch (uimm (aarch64_get_instr (cpu), 20, 16))
+      switch (INSTR (20, 16))
         {
         case 0x00: do_vec_ABS (cpu); return;
         case 0x01: do_vec_FCVTZS (cpu); return;
@@ -5419,79 +5683,92 @@ do_vec_xtl (sim_cpu *cpu)
       instr[9,5]   = V source
       instr[4,0]   = V dest.  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i, shift, bias = 0;
  
    NYI_assert (28, 22, 0x3C);
    NYI_assert (15, 10, 0x29);
  
-  switch (uimm (aarch64_get_instr (cpu), 30, 29))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (30, 29))
      {
      case 2: /* SXTL2, SSHLL2.  */
        bias = 2;
      case 0: /* SXTL, SSHLL.  */
-      if (uimm (aarch64_get_instr (cpu), 21, 21))
+      if (INSTR (21, 21))
         {
-         shift = uimm (aarch64_get_instr (cpu), 20, 16);
-         aarch64_set_vec_s64
-           (cpu, vd, 0, aarch64_get_vec_s32 (cpu, vs, bias) << shift);
-         aarch64_set_vec_s64
-           (cpu, vd, 1, aarch64_get_vec_s32 (cpu, vs, bias + 1) << shift);
+         int64_t val1, val2;
+
+         shift = INSTR (20, 16);
+         /* Get the source values before setting the destination values
+            in case the source and destination are the same.  */
+         val1 = aarch64_get_vec_s32 (cpu, vs, bias) << shift;
+         val2 = aarch64_get_vec_s32 (cpu, vs, bias + 1) << shift;
+         aarch64_set_vec_s64 (cpu, vd, 0, val1);
+         aarch64_set_vec_s64 (cpu, vd, 1, val2);
         }
-      else if (uimm (aarch64_get_instr (cpu), 20, 20))
+      else if (INSTR (20, 20))
         {
-         shift = uimm (aarch64_get_instr (cpu), 19, 16);
+         int32_t v[4];
+         int32_t v1,v2,v3,v4;
+
+         shift = INSTR (19, 16);
           bias *= 2;
           for (i = 0; i < 4; i++)
-           aarch64_set_vec_s32
-             (cpu, vd, i, aarch64_get_vec_s16 (cpu, vs, i + bias) << shift);
+           v[i] = aarch64_get_vec_s16 (cpu, vs, bias + i) << shift;
+         for (i = 0; i < 4; i++)
+           aarch64_set_vec_s32 (cpu, vd, i, v[i]);
         }
        else
         {
+         int16_t v[8];
           NYI_assert (19, 19, 1);
  
-         shift = uimm (aarch64_get_instr (cpu), 18, 16);
+         shift = INSTR (18, 16);
           bias *= 3;
           for (i = 0; i < 8; i++)
-           aarch64_set_vec_s16
-             (cpu, vd, i, aarch64_get_vec_s8 (cpu, vs, i + bias) << shift);
+           v[i] = aarch64_get_vec_s8 (cpu, vs, i + bias) << shift;
+         for (i = 0; i < 8; i++)
+           aarch64_set_vec_s16 (cpu, vd, i, v[i]);
         }
        return;
  
      case 3: /* UXTL2, USHLL2.  */
        bias = 2;
      case 1: /* UXTL, USHLL.  */
-      if (uimm (aarch64_get_instr (cpu), 21, 21))
+      if (INSTR (21, 21))
         {
-         shift = uimm (aarch64_get_instr (cpu), 20, 16);
-         aarch64_set_vec_u64
-           (cpu, vd, 0, aarch64_get_vec_u32 (cpu, vs, bias) << shift);
-         aarch64_set_vec_u64
-           (cpu, vd, 1, aarch64_get_vec_u32 (cpu, vs, bias + 1) << shift);
+         uint64_t v1, v2;
+         shift = INSTR (20, 16);
+         v1 = aarch64_get_vec_u32 (cpu, vs, bias) << shift;
+         v2 = aarch64_get_vec_u32 (cpu, vs, bias + 1) << shift;
+         aarch64_set_vec_u64 (cpu, vd, 0, v1);
+         aarch64_set_vec_u64 (cpu, vd, 1, v2);
         }
-      else if (uimm (aarch64_get_instr (cpu), 20, 20))
+      else if (INSTR (20, 20))
         {
-         shift = uimm (aarch64_get_instr (cpu), 19, 16);
+         uint32_t v[4];
+         shift = INSTR (19, 16);
           bias *= 2;
           for (i = 0; i < 4; i++)
-           aarch64_set_vec_u32
-             (cpu, vd, i, aarch64_get_vec_u16 (cpu, vs, i + bias) << shift);
+           v[i] = aarch64_get_vec_u16 (cpu, vs, i + bias) << shift;
+         for (i = 0; i < 4; i++)
+           aarch64_set_vec_u32 (cpu, vd, i, v[i]);
         }
        else
         {
+         uint16_t v[8];
           NYI_assert (19, 19, 1);
  
-         shift = uimm (aarch64_get_instr (cpu), 18, 16);
+         shift = INSTR (18, 16);
           bias *= 3;
           for (i = 0; i < 8; i++)
-           aarch64_set_vec_u16
-             (cpu, vd, i, aarch64_get_vec_u8 (cpu, vs, i + bias) << shift);
+           v[i] = aarch64_get_vec_u8 (cpu, vs, i + bias) << shift;
+         for (i = 0; i < 8; i++)
+           aarch64_set_vec_u16 (cpu, vd, i, v[i]);
         }
        return;
-
-    default:
-      HALT_NYI;
      }
  }
  
@@ -5507,17 +5784,18 @@ do_vec_SHL (sim_cpu *cpu)
       instr [4, 0]  = Vd.  */
  
    int shift;
-  int full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int full    = INSTR (30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 23, 0x1E);
    NYI_assert (15, 10, 0x15);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
-      shift = uimm (aarch64_get_instr (cpu), 21, 16) - 1;
+      shift = INSTR (21, 16);
  
        if (full == 0)
         HALT_UNALLOC;
@@ -5531,9 +5809,9 @@ do_vec_SHL (sim_cpu *cpu)
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 21, 21))
+  if (INSTR (21, 21))
      {
-      shift = uimm (aarch64_get_instr (cpu), 20, 16) - 1;
+      shift = INSTR (20, 16);
  
        for (i = 0; i < (full ? 4 : 2); i++)
         {
@@ -5544,9 +5822,9 @@ do_vec_SHL (sim_cpu *cpu)
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 20, 20))
+  if (INSTR (20, 20))
      {
-      shift = uimm (aarch64_get_instr (cpu), 19, 16) - 1;
+      shift = INSTR (19, 16);
  
        for (i = 0; i < (full ? 8 : 4); i++)
         {
@@ -5557,10 +5835,10 @@ do_vec_SHL (sim_cpu *cpu)
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 19, 19) == 0)
+  if (INSTR (19, 19) == 0)
      HALT_UNALLOC;
  
-  shift = uimm (aarch64_get_instr (cpu), 18, 16) - 1;
+  shift = INSTR (18, 16);
  
    for (i = 0; i < (full ? 16 : 8); i++)
      {
@@ -5575,25 +5853,26 @@ do_vec_SSHR_USHR (sim_cpu *cpu)
    /* instr [31]    = 0
       instr [30]    = half(0)/full(1)
       instr [29]    = signed(0)/unsigned(1)
-     instr [28,23] = 01 1110
+     instr [28,23] = 0 1111 0
       instr [22,16] = size and shift amount
       instr [15,10] = 0000 01
       instr [9, 5]  = Vs
       instr [4, 0]  = Vd.  */
  
-  int shift;
-  int full = uimm (aarch64_get_instr (cpu), 30, 30);
-  int sign = uimm (aarch64_get_instr (cpu), 29, 29);
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int full       = INSTR (30, 30);
+  int sign       = ! INSTR (29, 29);
+  unsigned shift = INSTR (22, 16);
+  unsigned vs    = INSTR (9, 5);
+  unsigned vd    = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (28, 23, 0x1E);
    NYI_assert (15, 10, 0x01);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
-      shift = uimm (aarch64_get_instr (cpu), 21, 16);
+      shift = 128 - shift;
  
        if (full == 0)
         HALT_UNALLOC;
@@ -5614,9 +5893,9 @@ do_vec_SSHR_USHR (sim_cpu *cpu)
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 21, 21))
+  if (INSTR (21, 21))
      {
-      shift = uimm (aarch64_get_instr (cpu), 20, 16);
+      shift = 64 - shift;
  
        if (sign)
         for (i = 0; i < (full ? 4 : 2); i++)
@@ -5634,9 +5913,9 @@ do_vec_SSHR_USHR (sim_cpu *cpu)
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 20, 20))
+  if (INSTR (20, 20))
      {
-      shift = uimm (aarch64_get_instr (cpu), 19, 16);
+      shift = 32 - shift;
  
        if (sign)
         for (i = 0; i < (full ? 8 : 4); i++)
@@ -5654,10 +5933,10 @@ do_vec_SSHR_USHR (sim_cpu *cpu)
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 19, 19) == 0)
+  if (INSTR (19, 19) == 0)
      HALT_UNALLOC;
  
-  shift = uimm (aarch64_get_instr (cpu), 18, 16);
+  shift = 16 - shift;
  
    if (sign)
      for (i = 0; i < (full ? 16 : 8); i++)
@@ -5689,12 +5968,12 @@ do_vec_MUL_by_element (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd  */
  
-  unsigned full     = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned L        = uimm (aarch64_get_instr (cpu), 21, 21);
-  unsigned H        = uimm (aarch64_get_instr (cpu), 11, 11);
-  unsigned vn       = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd       = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned size     = uimm (aarch64_get_instr (cpu), 23, 22);
+  unsigned full     = INSTR (30, 30);
+  unsigned L        = INSTR (21, 21);
+  unsigned H        = INSTR (11, 11);
+  unsigned vn       = INSTR (9, 5);
+  unsigned vd       = INSTR (4, 0);
+  unsigned size     = INSTR (23, 22);
    unsigned index;
    unsigned vm;
    unsigned e;
@@ -5703,6 +5982,7 @@ do_vec_MUL_by_element (sim_cpu *cpu)
    NYI_assert (15, 12, 0x8);
    NYI_assert (10, 10, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    switch (size)
      {
      case 1:
@@ -5712,8 +5992,8 @@ do_vec_MUL_by_element (sim_cpu *cpu)
         uint16_t element1;
         uint16_t element2;
  
-       index = (H << 2) | (L << 1) | uimm (aarch64_get_instr (cpu), 20, 20);
-       vm = uimm (aarch64_get_instr (cpu), 19, 16);
+       index = (H << 2) | (L << 1) | INSTR (20, 20);
+       vm = INSTR (19, 16);
         element2 = aarch64_get_vec_u16 (cpu, vm, index);
  
         for (e = 0; e < (full ? 8 : 4); e ++)
@@ -5733,7 +6013,7 @@ do_vec_MUL_by_element (sim_cpu *cpu)
         uint32_t element2;
  
         index = (H << 1) | L;
-       vm = uimm (aarch64_get_instr (cpu), 20, 16);
+       vm = INSTR (20, 16);
         element2 = aarch64_get_vec_u32 (cpu, vm, index);
  
         for (e = 0; e < (full ? 4 : 2); e ++)
@@ -5751,6 +6031,67 @@ do_vec_MUL_by_element (sim_cpu *cpu)
  }
  
  static void
+do_FMLA_by_element (sim_cpu *cpu)
+{
+  /* instr[31]    = 0
+     instr[30]    = half/full
+     instr[29,23] = 00 1111 1
+     instr[22]    = size
+     instr[21]    = L
+     instr[20,16] = m
+     instr[15,12] = 0001
+     instr[11]    = H
+     instr[10]    = 0
+     instr[9,5]   = Vn
+     instr[4,0]   = Vd  */
+
+  unsigned full     = INSTR (30, 30);
+  unsigned size     = INSTR (22, 22);
+  unsigned L        = INSTR (21, 21);
+  unsigned vm       = INSTR (20, 16);
+  unsigned H        = INSTR (11, 11);
+  unsigned vn       = INSTR (9, 5);
+  unsigned vd       = INSTR (4, 0);
+  unsigned e;
+
+  NYI_assert (29, 23, 0x1F);
+  NYI_assert (15, 12, 0x1);
+  NYI_assert (10, 10, 0);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (size)
+    {
+      double element1, element2;
+
+      if (! full || L)
+       HALT_UNALLOC;
+
+      element2 = aarch64_get_vec_double (cpu, vm, H);
+
+      for (e = 0; e < 2; e++)
+       {
+         element1 = aarch64_get_vec_double (cpu, vn, e);
+         element1 *= element2;
+         element1 += aarch64_get_vec_double (cpu, vd, e);
+         aarch64_set_vec_double (cpu, vd, e, element1);
+       }
+    }
+  else
+    {
+      float element1;
+      float element2 = aarch64_get_vec_float (cpu, vm, (H << 1) | L);
+
+      for (e = 0; e < (full ? 4 : 2); e++)
+       {
+         element1 = aarch64_get_vec_float (cpu, vn, e);
+         element1 *= element2;
+         element1 += aarch64_get_vec_float (cpu, vd, e);
+         aarch64_set_vec_float (cpu, vd, e, element1);
+       }
+    }
+}
+
+static void
  do_vec_op2 (sim_cpu *cpu)
  {
    /* instr[31]    = 0
@@ -5764,18 +6105,27 @@ do_vec_op2 (sim_cpu *cpu)
  
    NYI_assert (29, 24, 0x0F);
  
-  if (uimm (aarch64_get_instr (cpu), 23, 23) != 0)
+  if (INSTR (23, 23) != 0)
      {
-      switch (uimm (aarch64_get_instr (cpu), 15, 10))
+      switch (INSTR (15, 10))
         {
+       case 0x04:
+       case 0x06:
+         do_FMLA_by_element (cpu);
+         return;
+
         case 0x20:
-       case 0x22: do_vec_MUL_by_element (cpu); return;
-       default:   HALT_NYI;
+       case 0x22:
+         do_vec_MUL_by_element (cpu);
+         return;
+
+       default:
+         HALT_NYI;
         }
      }
    else
      {
-      switch (uimm (aarch64_get_instr (cpu), 15, 10))
+      switch (INSTR (15, 10))
         {
         case 0x01: do_vec_SSHR_USHR (cpu); return;
         case 0x15: do_vec_SHL (cpu); return;
@@ -5798,15 +6148,16 @@ do_vec_neg (sim_cpu *cpu)
       instr[9,5]   = Vs
       instr[4,0]   = Vd  */
  
-  int    full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int    full = INSTR (30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 24, 0x2E);
    NYI_assert (21, 10, 0x82E);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
@@ -5829,9 +6180,6 @@ do_vec_neg (sim_cpu *cpu)
        for (i = 0; i < 2; i++)
         aarch64_set_vec_s64 (cpu, vd, i, - aarch64_get_vec_s64 (cpu, vs, i));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -5846,15 +6194,16 @@ do_vec_sqrt (sim_cpu *cpu)
       instr[9,5]   = Vs
       instr[4,0]   = Vd.  */
  
-  int    full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  int    full = INSTR (30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 23, 0x5B);
    NYI_assert (21, 10, 0x87E);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22) == 0)
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22) == 0)
      for (i = 0; i < (full ? 4 : 2); i++)
        aarch64_set_vec_float (cpu, vd, i,
                              sqrtf (aarch64_get_vec_float (cpu, vs, i)));
@@ -5880,16 +6229,17 @@ do_vec_mls_indexed (sim_cpu *cpu)
       instr[9,5]      = Vs
       instr[4,0]      = Vd.  */
  
-  int    full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
+  int    full = INSTR (30, 30);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned vm = INSTR (20, 16);
    unsigned i;
  
    NYI_assert (15, 12, 4);
    NYI_assert (10, 10, 0);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 1:
        {
@@ -5899,8 +6249,7 @@ do_vec_mls_indexed (sim_cpu *cpu)
         if (vm > 15)
           HALT_NYI;
  
-       elem = (uimm (aarch64_get_instr (cpu), 21, 20) << 1)
-         | uimm (aarch64_get_instr (cpu), 11, 11);
+       elem = (INSTR (21, 20) << 1) | INSTR (11, 11);
         val = aarch64_get_vec_u16 (cpu, vm, elem);
  
         for (i = 0; i < (full ? 8 : 4); i++)
@@ -5912,8 +6261,7 @@ do_vec_mls_indexed (sim_cpu *cpu)
  
      case 2:
        {
-       unsigned elem = (uimm (aarch64_get_instr (cpu), 21, 21) << 1)
-         | uimm (aarch64_get_instr (cpu), 11, 11);
+       unsigned elem = (INSTR (21, 21) << 1) | INSTR (11, 11);
         uint64_t val = aarch64_get_vec_u32 (cpu, vm, elem);
  
         for (i = 0; i < (full ? 4 : 2); i++)
@@ -5943,17 +6291,18 @@ do_vec_SUB (sim_cpu *cpu)
       instr [9, 5]  = Vn
       instr [4, 0]  = Vd.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 24, 0x2E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x21);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
@@ -5985,9 +6334,6 @@ do_vec_SUB (sim_cpu *cpu)
                              aarch64_get_vec_s64 (cpu, vn, i)
                              - aarch64_get_vec_s64 (cpu, vm, i));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -6004,40 +6350,41 @@ do_vec_MLS (sim_cpu *cpu)
       instr [9, 5]  = Vn
       instr [4, 0]  = Vd.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 24, 0x2E);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x25);
  
-  switch (uimm (aarch64_get_instr (cpu), 23, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
      {
      case 0:
        for (i = 0; i < (full ? 16 : 8); i++)
         aarch64_set_vec_u8 (cpu, vd, i,
-                           (aarch64_get_vec_u8 (cpu, vn, i)
-                            * aarch64_get_vec_u8 (cpu, vm, i))
-                           - aarch64_get_vec_u8 (cpu, vd, i));
+                           aarch64_get_vec_u8 (cpu, vd, i)
+                           - (aarch64_get_vec_u8 (cpu, vn, i)
+                              * aarch64_get_vec_u8 (cpu, vm, i)));
        return;
  
      case 1:
        for (i = 0; i < (full ? 8 : 4); i++)
         aarch64_set_vec_u16 (cpu, vd, i,
-                            (aarch64_get_vec_u16 (cpu, vn, i)
-                             * aarch64_get_vec_u16 (cpu, vm, i))
-                            - aarch64_get_vec_u16 (cpu, vd, i));
+                            aarch64_get_vec_u16 (cpu, vd, i)
+                            - (aarch64_get_vec_u16 (cpu, vn, i)
+                               * aarch64_get_vec_u16 (cpu, vm, i)));
        return;
  
      case 2:
        for (i = 0; i < (full ? 4 : 2); i++)
         aarch64_set_vec_u32 (cpu, vd, i,
-                            (aarch64_get_vec_u32 (cpu, vn, i)
-                             * aarch64_get_vec_u32 (cpu, vm, i))
-                            - aarch64_get_vec_u32 (cpu, vd, i));
+                            aarch64_get_vec_u32 (cpu, vd, i)
+                            - (aarch64_get_vec_u32 (cpu, vn, i)
+                               * aarch64_get_vec_u32 (cpu, vm, i)));
        return;
  
      default:
@@ -6058,17 +6405,18 @@ do_vec_FDIV (sim_cpu *cpu)
       instr [9, 5]  = Vn
       instr [4, 0]  = Vd.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 23, 0x5C);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x3F);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_UNALLOC;
@@ -6098,17 +6446,18 @@ do_vec_FMUL (sim_cpu *cpu)
       instr [9, 5]  = Vn
       instr [4, 0]  = Vd.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
  
    NYI_assert (29, 23, 0x5C);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x37);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_UNALLOC;
@@ -6138,16 +6487,17 @@ do_vec_FADDP (sim_cpu *cpu)
       instr [9, 5]  = Vn
       instr [4, 0]  = Vd.  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned full = INSTR (30, 30);
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
  
    NYI_assert (29, 23, 0x5C);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x35);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        /* Extract values before adding them incase vd == vn/vm.  */
        double tmp1 = aarch64_get_vec_double (cpu, vn, 0);
@@ -6200,15 +6550,16 @@ do_vec_FSQRT (sim_cpu *cpu)
       instr[9,5]   = Vsrc
       instr[4,0]   = Vdest.  */
  
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
    int i;
  
    NYI_assert (29, 23, 0x5D);
    NYI_assert (21, 10, 0x87E);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_UNALLOC;
@@ -6236,15 +6587,16 @@ do_vec_FNEG (sim_cpu *cpu)
       instr[9,5]   = Vsrc
       instr[4,0]   = Vdest.  */
  
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned full = INSTR (30, 30);
    int i;
  
    NYI_assert (29, 23, 0x5D);
    NYI_assert (21, 10, 0x83E);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        if (! full)
         HALT_UNALLOC;
@@ -6266,23 +6618,85 @@ do_vec_NOT (sim_cpu *cpu)
  {
    /* instr[31]    = 0
       instr[30]    = half (0)/full (1)
-     instr[29,21] = 10 1110 001
-     instr[20,16] = 0 0000
-     instr[15,10] = 0101 10
+     instr[29,10] = 10 1110 0010 0000 0101 10
       instr[9,5]   = Vn
       instr[4.0]   = Vd.  */
  
-  unsigned vn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned i;
-  int      full = uimm (aarch64_get_instr (cpu), 30, 30);
+  int      full = INSTR (30, 30);
  
    NYI_assert (29, 10, 0xB8816);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    for (i = 0; i < (full ? 16 : 8); i++)
      aarch64_set_vec_u8 (cpu, vd, i, ~ aarch64_get_vec_u8 (cpu, vn, i));
  }
  
+static unsigned int
+clz (uint64_t val, unsigned size)
+{
+  uint64_t mask = 1;
+  int      count;
+
+  mask <<= (size - 1);
+  count = 0;
+  do
+    {
+      if (val & mask)
+       break;
+      mask >>= 1;
+      count ++;
+    }
+  while (mask);
+
+  return count;
+}
+
+static void
+do_vec_CLZ (sim_cpu *cpu)
+{
+  /* instr[31]    = 0
+     instr[30]    = half (0)/full (1)
+     instr[29,24] = 10 1110
+     instr[23,22] = size
+     instr[21,10] = 10 0000 0100 10
+     instr[9,5]   = Vn
+     instr[4.0]   = Vd.  */
+
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned i;
+  int      full = INSTR (30,30);
+
+  NYI_assert (29, 24, 0x2E);
+  NYI_assert (21, 10, 0x812);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (23, 22))
+    {
+    case 0:
+      for (i = 0; i < (full ? 16 : 8); i++)
+       aarch64_set_vec_u8 (cpu, vd, i, clz (aarch64_get_vec_u8 (cpu, vn, i), 8));
+      break;
+    case 1:
+      for (i = 0; i < (full ? 8 : 4); i++)
+       aarch64_set_vec_u16 (cpu, vd, i, clz (aarch64_get_vec_u16 (cpu, vn, i), 16));
+      break;
+    case 2:
+      for (i = 0; i < (full ? 4 : 2); i++)
+       aarch64_set_vec_u32 (cpu, vd, i, clz (aarch64_get_vec_u32 (cpu, vn, i), 32));
+      break;
+    case 3:
+      if (! full)
+       HALT_UNALLOC;
+      aarch64_set_vec_u64 (cpu, vd, 0, clz (aarch64_get_vec_u64 (cpu, vn, 0), 64));
+      aarch64_set_vec_u64 (cpu, vd, 1, clz (aarch64_get_vec_u64 (cpu, vn, 1), 64));
+      break;
+    }
+}
+
  static void
  do_vec_MOV_element (sim_cpu *cpu)
  {
@@ -6294,8 +6708,8 @@ do_vec_MOV_element (sim_cpu *cpu)
       instr[9,5]   = Vs
       instr[4.0]   = Vd.  */
  
-  unsigned vs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned vs = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
    unsigned src_index;
    unsigned dst_index;
  
@@ -6303,29 +6717,30 @@ do_vec_MOV_element (sim_cpu *cpu)
    NYI_assert (15, 15, 0);
    NYI_assert (10, 10, 1);
  
-  if (uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (16, 16))
      {
        /* Move a byte.  */
-      src_index = uimm (aarch64_get_instr (cpu), 14, 11);
-      dst_index = uimm (aarch64_get_instr (cpu), 20, 17);
+      src_index = INSTR (14, 11);
+      dst_index = INSTR (20, 17);
        aarch64_set_vec_u8 (cpu, vd, dst_index,
                           aarch64_get_vec_u8 (cpu, vs, src_index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 17, 17))
+  else if (INSTR (17, 17))
      {
        /* Move 16-bits.  */
        NYI_assert (11, 11, 0);
-      src_index = uimm (aarch64_get_instr (cpu), 14, 12);
-      dst_index = uimm (aarch64_get_instr (cpu), 20, 18);
+      src_index = INSTR (14, 12);
+      dst_index = INSTR (20, 18);
        aarch64_set_vec_u16 (cpu, vd, dst_index,
                            aarch64_get_vec_u16 (cpu, vs, src_index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 18, 18))
+  else if (INSTR (18, 18))
      {
        /* Move 32-bits.  */
        NYI_assert (12, 11, 0);
-      src_index = uimm (aarch64_get_instr (cpu), 14, 13);
-      dst_index = uimm (aarch64_get_instr (cpu), 20, 19);
+      src_index = INSTR (14, 13);
+      dst_index = INSTR (20, 19);
        aarch64_set_vec_u32 (cpu, vd, dst_index,
                            aarch64_get_vec_u32 (cpu, vs, src_index));
      }
@@ -6333,74 +6748,152 @@ do_vec_MOV_element (sim_cpu *cpu)
      {
        NYI_assert (19, 19, 1);
        NYI_assert (13, 11, 0);
-      src_index = uimm (aarch64_get_instr (cpu), 14, 14);
-      dst_index = uimm (aarch64_get_instr (cpu), 20, 20);
+      src_index = INSTR (14, 14);
+      dst_index = INSTR (20, 20);
        aarch64_set_vec_u64 (cpu, vd, dst_index,
                            aarch64_get_vec_u64 (cpu, vs, src_index));
      }
  }
  
  static void
+do_vec_REV32 (sim_cpu *cpu)
+{
+  /* instr[31]    = 0
+     instr[30]    = full/half
+     instr[29,24] = 10 1110 
+     instr[23,22] = size
+     instr[21,10] = 10 0000 0000 10
+     instr[9,5]   = Rn
+     instr[4,0]   = Rd.  */
+
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned size = INSTR (23, 22);
+  unsigned full = INSTR (30, 30);
+  unsigned i;
+  FRegister val;
+
+  NYI_assert (29, 24, 0x2E);
+  NYI_assert (21, 10, 0x802);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (size)
+    {
+    case 0:
+      for (i = 0; i < (full ? 16 : 8); i++)
+       val.b[i ^ 0x3] = aarch64_get_vec_u8 (cpu, rn, i);
+      break;
+
+    case 1:
+      for (i = 0; i < (full ? 8 : 4); i++)
+       val.h[i ^ 0x1] = aarch64_get_vec_u16 (cpu, rn, i);
+      break;
+
+    default:
+      HALT_UNALLOC;
+    }
+
+  aarch64_set_vec_u64 (cpu, rd, 0, val.v[0]);
+  if (full)
+    aarch64_set_vec_u64 (cpu, rd, 1, val.v[1]);
+}
+
+static void
+do_vec_EXT (sim_cpu *cpu)
+{
+  /* instr[31]    = 0
+     instr[30]    = full/half
+     instr[29,21] = 10 1110 000
+     instr[20,16] = Vm
+     instr[15]    = 0
+     instr[14,11] = source index
+     instr[10]    = 0
+     instr[9,5]   = Vn
+     instr[4.0]   = Vd.  */
+
+  unsigned vm = INSTR (20, 16);
+  unsigned vn = INSTR (9, 5);
+  unsigned vd = INSTR (4, 0);
+  unsigned src_index = INSTR (14, 11);
+  unsigned full = INSTR (30, 30);
+  unsigned i;
+  unsigned j;
+  FRegister val;
+
+  NYI_assert (31, 21, 0x370);
+  NYI_assert (15, 15, 0);
+  NYI_assert (10, 10, 0);
+
+  if (!full && (src_index & 0x8))
+    HALT_UNALLOC;
+
+  j = 0;
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  for (i = src_index; i < (full ? 16 : 8); i++)
+    val.b[j ++] = aarch64_get_vec_u8 (cpu, vn, i);
+  for (i = 0; i < src_index; i++)
+    val.b[j ++] = aarch64_get_vec_u8 (cpu, vm, i);
+
+  aarch64_set_vec_u64 (cpu, vd, 0, val.v[0]);
+  if (full)
+    aarch64_set_vec_u64 (cpu, vd, 1, val.v[1]);
+}
+
+static void
  dexAdvSIMD0 (sim_cpu *cpu)
  {
    /* instr [28,25] = 0 111.  */
-  if (    uimm (aarch64_get_instr (cpu), 15, 10) == 0x07
-      && (uimm (aarch64_get_instr (cpu), 9, 5) ==
-         uimm (aarch64_get_instr (cpu), 20, 16)))
+  if (    INSTR (15, 10) == 0x07
+      && (INSTR (9, 5) ==
+         INSTR (20, 16)))
      {
-      if (uimm (aarch64_get_instr (cpu), 31, 21) == 0x075
-         || uimm (aarch64_get_instr (cpu), 31, 21) == 0x275)
+      if (INSTR (31, 21) == 0x075
+         || INSTR (31, 21) == 0x275)
         {
           do_vec_MOV_whole_vector (cpu);
           return;
         }
      }
  
-  if (uimm (aarch64_get_instr (cpu), 29, 19) == 0x1E0)
+  if (INSTR (29, 19) == 0x1E0)
      {
        do_vec_MOV_immediate (cpu);
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 29, 19) == 0x5E0)
+  if (INSTR (29, 19) == 0x5E0)
      {
        do_vec_MVNI (cpu);
        return;
      }
  
-  if (uimm (aarch64_get_instr (cpu), 29, 19) == 0x1C0
-      || uimm (aarch64_get_instr (cpu), 29, 19) == 0x1C1)
+  if (INSTR (29, 19) == 0x1C0
+      || INSTR (29, 19) == 0x1C1)
      {
-      if (uimm (aarch64_get_instr (cpu), 15, 10) == 0x03)
+      if (INSTR (15, 10) == 0x03)
         {
           do_vec_DUP_scalar_into_vector (cpu);
           return;
         }
      }
  
-  switch (uimm (aarch64_get_instr (cpu), 29, 24))
+  switch (INSTR (29, 24))
      {
      case 0x0E: do_vec_op1 (cpu); return;
      case 0x0F: do_vec_op2 (cpu); return;
  
-    case 0x2f:
-      switch (uimm (aarch64_get_instr (cpu), 15, 10))
-       {
-       case 0x01: do_vec_SSHR_USHR (cpu); return;
-       case 0x10:
-       case 0x12: do_vec_mls_indexed (cpu); return;
-       case 0x29: do_vec_xtl (cpu); return;
-       default:
-         HALT_NYI;
-       }
-
      case 0x2E:
-      if (uimm (aarch64_get_instr (cpu), 21, 21) == 1)
+      if (INSTR (21, 21) == 1)
         {
-         switch (uimm (aarch64_get_instr (cpu), 15, 10))
+         switch (INSTR (15, 10))
             {
+           case 0x02:
+             do_vec_REV32 (cpu);
+             return;
+
             case 0x07:
-             switch (uimm (aarch64_get_instr (cpu), 23, 22))
+             switch (INSTR (23, 22))
                 {
                 case 0: do_vec_EOR (cpu); return;
                 case 1: do_vec_BSL (cpu); return;
@@ -6411,6 +6904,7 @@ dexAdvSIMD0 (sim_cpu *cpu)
  
             case 0x08: do_vec_sub_long (cpu); return;
             case 0x11: do_vec_USHL (cpu); return;
+           case 0x12: do_vec_CLZ (cpu); return;
             case 0x16: do_vec_NOT (cpu); return;
             case 0x19: do_vec_max (cpu); return;
             case 0x1B: do_vec_min (cpu); return;
@@ -6422,7 +6916,7 @@ dexAdvSIMD0 (sim_cpu *cpu)
             case 0x3F: do_vec_FDIV (cpu); return;
  
             case 0x3E:
-             switch (uimm (aarch64_get_instr (cpu), 20, 16))
+             switch (INSTR (20, 16))
                 {
                 case 0x00: do_vec_FNEG (cpu); return;
                 case 0x01: do_vec_FSQRT (cpu); return;
@@ -6441,22 +6935,26 @@ dexAdvSIMD0 (sim_cpu *cpu)
             case 0x3A:
               do_vec_compare (cpu); return;
  
-           default: break;
+           default:
+             break;
             }
         }
  
-      if (uimm (aarch64_get_instr (cpu), 31, 21) == 0x370)
+      if (INSTR (31, 21) == 0x370)
         {
-         do_vec_MOV_element (cpu);
+         if (INSTR (10, 10))
+           do_vec_MOV_element (cpu);
+         else
+           do_vec_EXT (cpu);
           return;
         }
  
-      switch (uimm (aarch64_get_instr (cpu), 21, 10))
+      switch (INSTR (21, 10))
         {
         case 0x82E: do_vec_neg (cpu); return;
         case 0x87E: do_vec_sqrt (cpu); return;
         default:
-         if (uimm (aarch64_get_instr (cpu), 15, 10) == 0x30)
+         if (INSTR (15, 10) == 0x30)
             {
               do_vec_mull (cpu);
               return;
@@ -6465,6 +6963,17 @@ dexAdvSIMD0 (sim_cpu *cpu)
         }
        break;
  
+    case 0x2f:
+      switch (INSTR (15, 10))
+       {
+       case 0x01: do_vec_SSHR_USHR (cpu); return;
+       case 0x10:
+       case 0x12: do_vec_mls_indexed (cpu); return;
+       case 0x29: do_vec_xtl (cpu); return;
+       default:
+         HALT_NYI;
+       }
+
      default:
        break;
      }
@@ -6478,11 +6987,12 @@ dexAdvSIMD0 (sim_cpu *cpu)
  static void
  fmadds (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, aarch64_get_FP_float (cpu, sa)
                         + aarch64_get_FP_float (cpu, sn)
                         * aarch64_get_FP_float (cpu, sm));
@@ -6492,11 +7002,12 @@ fmadds (sim_cpu *cpu)
  static void
  fmaddd (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, aarch64_get_FP_double (cpu, sa)
                          + aarch64_get_FP_double (cpu, sn)
                          * aarch64_get_FP_double (cpu, sm));
@@ -6506,11 +7017,12 @@ fmaddd (sim_cpu *cpu)
  static void
  fmsubs (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, aarch64_get_FP_float (cpu, sa)
                         - aarch64_get_FP_float (cpu, sn)
                         * aarch64_get_FP_float (cpu, sm));
@@ -6520,11 +7032,12 @@ fmsubs (sim_cpu *cpu)
  static void
  fmsubd (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, aarch64_get_FP_double (cpu, sa)
                          - aarch64_get_FP_double (cpu, sn)
                          * aarch64_get_FP_double (cpu, sm));
@@ -6534,11 +7047,12 @@ fmsubd (sim_cpu *cpu)
  static void
  fnmadds (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, - aarch64_get_FP_float (cpu, sa)
                         + (- aarch64_get_FP_float (cpu, sn))
                         * aarch64_get_FP_float (cpu, sm));
@@ -6548,11 +7062,12 @@ fnmadds (sim_cpu *cpu)
  static void
  fnmaddd (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, - aarch64_get_FP_double (cpu, sa)
                          + (- aarch64_get_FP_double (cpu, sn))
                          * aarch64_get_FP_double (cpu, sm));
@@ -6562,11 +7077,12 @@ fnmaddd (sim_cpu *cpu)
  static void
  fnmsubs (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, - aarch64_get_FP_float (cpu, sa)
                         + aarch64_get_FP_float (cpu, sn)
                         * aarch64_get_FP_float (cpu, sm));
@@ -6576,11 +7092,12 @@ fnmsubs (sim_cpu *cpu)
  static void
  fnmsubd (sim_cpu *cpu)
  {
-  unsigned sa = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sa = INSTR (14, 10);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, - aarch64_get_FP_double (cpu, sa)
                          + aarch64_get_FP_double (cpu, sn)
                          * aarch64_get_FP_double (cpu, sm));
@@ -6598,11 +7115,9 @@ dexSimpleFPDataProc3Source (sim_cpu *cpu)
       instr[21]    ==> o1 : 0 ==> unnegated, 1 ==> negated
       instr[15]    ==> o2 : 0 ==> ADD, 1 ==> SUB  */
  
-  uint32_t M_S = (uimm (aarch64_get_instr (cpu), 31, 31) << 1)
-    | uimm (aarch64_get_instr (cpu), 29, 29);
+  uint32_t M_S = (INSTR (31, 31) << 1) | INSTR (29, 29);
    /* dispatch on combined type:o1:o2.  */
-  uint32_t dispatch = (uimm (aarch64_get_instr (cpu), 23, 21) << 1)
-    | uimm (aarch64_get_instr (cpu), 15, 15);
+  uint32_t dispatch = (INSTR (23, 21) << 1) | INSTR (15, 15);
  
    if (M_S != 0)
      HALT_UNALLOC;
@@ -6632,7 +7147,58 @@ dexSimpleFPFixedConvert (sim_cpu *cpu)
  static void
  dexSimpleFPCondCompare (sim_cpu *cpu)
  {
-  HALT_NYI;
+  /* instr [31,23] = 0001 1110 0
+     instr [22]    = type
+     instr [21]    = 1
+     instr [20,16] = Rm
+     instr [15,12] = condition
+     instr [11,10] = 01
+     instr [9,5]   = Rn
+     instr [4]     = 0
+     instr [3,0]   = nzcv  */
+
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+
+  NYI_assert (31, 23, 0x3C);
+  NYI_assert (11, 10, 0x1);
+  NYI_assert (4,  4,  0);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (! testConditionCode (cpu, INSTR (15, 12)))
+    {
+      aarch64_set_CPSR (cpu, INSTR (3, 0));
+      return;
+    }
+
+  if (INSTR (22, 22))
+    {
+      /* Double precision.  */
+      double val1 = aarch64_get_vec_double (cpu, rn, 0);
+      double val2 = aarch64_get_vec_double (cpu, rm, 0);
+
+      /* FIXME: Check for NaNs.  */
+      if (val1 == val2)
+       aarch64_set_CPSR (cpu, (Z | C));
+      else if (val1 < val2)
+       aarch64_set_CPSR (cpu, N);
+      else /* val1 > val2 */
+       aarch64_set_CPSR (cpu, C);
+    }
+  else
+    {
+      /* Single precision.  */
+      float val1 = aarch64_get_vec_float (cpu, rn, 0);
+      float val2 = aarch64_get_vec_float (cpu, rm, 0);
+
+      /* FIXME: Check for NaNs.  */
+      if (val1 == val2)
+       aarch64_set_CPSR (cpu, (Z | C));
+      else if (val1 < val2)
+       aarch64_set_CPSR (cpu, N);
+      else /* val1 > val2 */
+       aarch64_set_CPSR (cpu, C);
+    }
  }
  
  /* 2 sources.  */
@@ -6641,10 +7207,11 @@ dexSimpleFPCondCompare (sim_cpu *cpu)
  static void
  fadds (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, aarch64_get_FP_float (cpu, sn)
                         + aarch64_get_FP_float (cpu, sm));
  }
@@ -6653,10 +7220,11 @@ fadds (sim_cpu *cpu)
  static void
  faddd (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, aarch64_get_FP_double (cpu, sn)
                          + aarch64_get_FP_double (cpu, sm));
  }
@@ -6665,10 +7233,11 @@ faddd (sim_cpu *cpu)
  static void
  fdivs (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, aarch64_get_FP_float (cpu, sn)
                         / aarch64_get_FP_float (cpu, sm));
  }
@@ -6677,10 +7246,11 @@ fdivs (sim_cpu *cpu)
  static void
  fdivd (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, aarch64_get_FP_double (cpu, sn)
                          / aarch64_get_FP_double (cpu, sm));
  }
@@ -6689,10 +7259,11 @@ fdivd (sim_cpu *cpu)
  static void
  fmuls (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, aarch64_get_FP_float (cpu, sn)
                         * aarch64_get_FP_float (cpu, sm));
  }
@@ -6701,10 +7272,11 @@ fmuls (sim_cpu *cpu)
  static void
  fmuld (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, aarch64_get_FP_double (cpu, sn)
                          * aarch64_get_FP_double (cpu, sm));
  }
@@ -6713,10 +7285,11 @@ fmuld (sim_cpu *cpu)
  static void
  fnmuls (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, - (aarch64_get_FP_float (cpu, sn)
                                     * aarch64_get_FP_float (cpu, sm)));
  }
@@ -6725,10 +7298,11 @@ fnmuls (sim_cpu *cpu)
  static void
  fnmuld (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, - (aarch64_get_FP_double (cpu, sn)
                                      * aarch64_get_FP_double (cpu, sm)));
  }
@@ -6737,10 +7311,11 @@ fnmuld (sim_cpu *cpu)
  static void
  fsubs (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, aarch64_get_FP_float (cpu, sn)
                         - aarch64_get_FP_float (cpu, sm));
  }
@@ -6749,10 +7324,11 @@ fsubs (sim_cpu *cpu)
  static void
  fsubd (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, aarch64_get_FP_double (cpu, sn)
                          - aarch64_get_FP_double (cpu, sm));
  }
@@ -6768,14 +7344,15 @@ do_FMINNM (sim_cpu *cpu)
       instr[9,5]   = Sn
       instr[4,0]   = Cpu  */
  
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
    NYI_assert (31, 23, 0x03C);
    NYI_assert (15, 10, 0x1E);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      aarch64_set_FP_double (cpu, sd,
                            dminnm (aarch64_get_FP_double (cpu, sn),
                                    aarch64_get_FP_double (cpu, sm)));
@@ -6796,14 +7373,15 @@ do_FMAXNM (sim_cpu *cpu)
       instr[9,5]   = Sn
       instr[4,0]   = Cpu  */
  
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
+  unsigned sd = INSTR ( 4,  0);
  
    NYI_assert (31, 23, 0x03C);
    NYI_assert (15, 10, 0x1A);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      aarch64_set_FP_double (cpu, sd,
                            dmaxnm (aarch64_get_FP_double (cpu, sn),
                                    aarch64_get_FP_double (cpu, sm)));
@@ -6833,11 +7411,10 @@ dexSimpleFPDataProc2Source (sim_cpu *cpu)
       instr[9,5]   = Vn
       instr[4,0]   = Vd  */
  
-  uint32_t M_S = (uimm (aarch64_get_instr (cpu), 31, 31) << 1)
-    | uimm (aarch64_get_instr (cpu), 29, 29);
-  uint32_t type = uimm (aarch64_get_instr (cpu), 23, 22);
+  uint32_t M_S = (INSTR (31, 31) << 1) | INSTR (29, 29);
+  uint32_t type = INSTR (23, 22);
    /* Dispatch on opcode.  */
-  uint32_t dispatch = uimm (aarch64_get_instr (cpu), 15, 12);
+  uint32_t dispatch = INSTR (15, 12);
  
    if (type > 1)
      HALT_UNALLOC;
@@ -6896,53 +7473,59 @@ dexSimpleFPCondSelect (sim_cpu *cpu)
       instr[11,10] = 11
       instr[9,5]   = Sn
       instr[4,0]   = Cpu  */
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu),  4, 0);
-  uint32_t set = testConditionCode (cpu, uimm (aarch64_get_instr (cpu), 15, 12));
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9, 5);
+  unsigned sd = INSTR ( 4, 0);
+  uint32_t set = testConditionCode (cpu, INSTR (15, 12));
  
    NYI_assert (31, 23, 0x03C);
    NYI_assert (11, 10, 0x3);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
-    aarch64_set_FP_double (cpu, sd, set ? sn : sm);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
+    aarch64_set_FP_double (cpu, sd, (set ? aarch64_get_FP_double (cpu, sn)
+                                    : aarch64_get_FP_double (cpu, sm)));
    else
-    aarch64_set_FP_float (cpu, sd, set ? sn : sm);
+    aarch64_set_FP_float (cpu, sd, (set ? aarch64_get_FP_float (cpu, sn)
+                                   : aarch64_get_FP_float (cpu, sm)));
  }
  
  /* Store 32 bit unscaled signed 9 bit.  */
  static void
  fsturs (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
-  aarch64_set_mem_u32 (cpu, aarch64_get_reg_u64 (cpu, st, 1) + offset,
-                      aarch64_get_vec_u32 (cpu, rn, 0));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_mem_u32 (cpu, aarch64_get_reg_u64 (cpu, rn, 1) + offset,
+                      aarch64_get_vec_u32 (cpu, st, 0));
  }
  
  /* Store 64 bit unscaled signed 9 bit.  */
  static void
  fsturd (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
-  aarch64_set_mem_u64 (cpu, aarch64_get_reg_u64 (cpu, st, 1) + offset,
-                      aarch64_get_vec_u64 (cpu, rn, 0));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_mem_u64 (cpu, aarch64_get_reg_u64 (cpu, rn, 1) + offset,
+                      aarch64_get_vec_u64 (cpu, st, 0));
  }
  
  /* Store 128 bit unscaled signed 9 bit.  */
  static void
  fsturq (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
    FRegister a;
  
-  aarch64_get_FP_long_double (cpu, rn, & a);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_get_FP_long_double (cpu, st, & a);
    aarch64_set_mem_long_double (cpu,
-                              aarch64_get_reg_u64 (cpu, st, 1)
+                              aarch64_get_reg_u64 (cpu, rn, 1)
                                + offset, a);
  }
  
@@ -6952,9 +7535,10 @@ fsturq (sim_cpu *cpu, int32_t offset)
  static void
  ffmovs (sim_cpu *cpu)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, st, aarch64_get_FP_float (cpu, rn));
  }
  
@@ -6962,9 +7546,10 @@ ffmovs (sim_cpu *cpu)
  static void
  ffmovd (sim_cpu *cpu)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, st, aarch64_get_FP_double (cpu, rn));
  }
  
@@ -6972,9 +7557,10 @@ ffmovd (sim_cpu *cpu)
  static void
  fgmovs (sim_cpu *cpu)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u32 (cpu, st, 0, aarch64_get_reg_u32 (cpu, rn, NO_SP));
  }
  
@@ -6982,9 +7568,10 @@ fgmovs (sim_cpu *cpu)
  static void
  fgmovd (sim_cpu *cpu)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, st, 0, aarch64_get_reg_u64 (cpu, rn, NO_SP));
  }
  
@@ -6992,9 +7579,10 @@ fgmovd (sim_cpu *cpu)
  static void
  gfmovs (sim_cpu *cpu)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, st, NO_SP, aarch64_get_vec_u32 (cpu, rn, 0));
  }
  
@@ -7002,9 +7590,10 @@ gfmovs (sim_cpu *cpu)
  static void
  gfmovd (sim_cpu *cpu)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, st, NO_SP, aarch64_get_vec_u64 (cpu, rn, 0));
  }
  
@@ -7017,20 +7606,22 @@ gfmovd (sim_cpu *cpu)
  static void
  fmovs (sim_cpu *cpu)
  {
-  unsigned int sd = uimm (aarch64_get_instr (cpu), 4, 0);
-  uint32_t imm = uimm (aarch64_get_instr (cpu), 20, 13);
+  unsigned int sd = INSTR (4, 0);
+  uint32_t imm = INSTR (20, 13);
    float f = fp_immediate_for_encoding_32 (imm);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, f);
  }
  
  static void
  fmovd (sim_cpu *cpu)
  {
-  unsigned int sd = uimm (aarch64_get_instr (cpu), 4, 0);
-  uint32_t imm = uimm (aarch64_get_instr (cpu), 20, 13);
+  unsigned int sd = INSTR (4, 0);
+  uint32_t imm = INSTR (20, 13);
    double d = fp_immediate_for_encoding_64 (imm);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, d);
  }
  
@@ -7044,14 +7635,14 @@ dexSimpleFPImmediate (sim_cpu *cpu)
       instr[12,10] == 100
       instr[9,5]   == imm5 : 00000 ==> PK, ow ==> UNALLOC
       instr[4,0]   == Rd  */
-  uint32_t imm5 = uimm (aarch64_get_instr (cpu), 9, 5);
+  uint32_t imm5 = INSTR (9, 5);
  
    NYI_assert (31, 23, 0x3C);
  
    if (imm5 != 0)
      HALT_UNALLOC;
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  if (INSTR (22, 22))
      fmovd (cpu);
    else
      fmovs (cpu);
@@ -7068,9 +7659,10 @@ dexSimpleFPImmediate (sim_cpu *cpu)
  static void
  fldurs (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u32 (cpu, st, 0, aarch64_get_mem_u32
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset));
  }
@@ -7079,9 +7671,10 @@ fldurs (sim_cpu *cpu, int32_t offset)
  static void
  fldurd (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, st, 0, aarch64_get_mem_u64
                        (cpu, aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset));
  }
@@ -7090,11 +7683,12 @@ fldurd (sim_cpu *cpu, int32_t offset)
  static void
  fldurq (sim_cpu *cpu, int32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int st = INSTR (4, 0);
    FRegister a;
    uint64_t addr = aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_get_mem_long_double (cpu, addr, & a);
    aarch64_set_FP_long_double (cpu, st, a);
  }
@@ -7109,10 +7703,11 @@ fldurq (sim_cpu *cpu, int32_t offset)
  static void
  fabss (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
    float value = aarch64_get_FP_float (cpu, sn);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, fabsf (value));
  }
  
@@ -7120,10 +7715,11 @@ fabss (sim_cpu *cpu)
  static void
  fabcpu (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
    double value = aarch64_get_FP_double (cpu, sn);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, fabs (value));
  }
  
@@ -7131,9 +7727,10 @@ fabcpu (sim_cpu *cpu)
  static void
  fnegs (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, - aarch64_get_FP_float (cpu, sn));
  }
  
@@ -7141,9 +7738,10 @@ fnegs (sim_cpu *cpu)
  static void
  fnegd (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, - aarch64_get_FP_double (cpu, sn));
  }
  
@@ -7151,19 +7749,21 @@ fnegd (sim_cpu *cpu)
  static void
  fsqrts (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
-  aarch64_set_FP_float (cpu, sd, sqrt (aarch64_get_FP_float (cpu, sn)));
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_FP_float (cpu, sd, sqrtf (aarch64_get_FP_float (cpu, sn)));
  }
  
  /* Double square root.  */
  static void
  fsqrtd (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd,
                          sqrt (aarch64_get_FP_double (cpu, sn)));
  }
@@ -7172,9 +7772,10 @@ fsqrtd (sim_cpu *cpu)
  static void
  fcvtds (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float (cpu, sd, (float) aarch64_get_FP_double (cpu, sn));
  }
  
@@ -7182,9 +7783,10 @@ fcvtds (sim_cpu *cpu)
  static void
  fcvtcpu (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double (cpu, sd, (double) aarch64_get_FP_float (cpu, sn));
  }
  
@@ -7200,9 +7802,9 @@ do_FRINT (sim_cpu *cpu)
       instr[4,0]   = dest  */
  
    float val;
-  unsigned rs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned int rmode = uimm (aarch64_get_instr (cpu), 17, 15);
+  unsigned rs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned int rmode = INSTR (17, 15);
  
    NYI_assert (31, 23, 0x03C);
    NYI_assert (21, 18, 0x9);
@@ -7212,7 +7814,8 @@ do_FRINT (sim_cpu *cpu)
      /* FIXME: Add support for rmode == 6 exactness check.  */
      rmode = uimm (aarch64_get_FPSR (cpu), 23, 22);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        double val = aarch64_get_FP_double (cpu, rs);
  
@@ -7312,6 +7915,57 @@ do_FRINT (sim_cpu *cpu)
      }
  }
  
+/* Convert half to float.  */
+static void
+do_FCVT_half_to_single (sim_cpu *cpu)
+{
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+
+  NYI_assert (31, 10, 0x7B890);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_FP_float (cpu, rd, (float) aarch64_get_FP_half  (cpu, rn));
+}
+
+/* Convert half to double.  */
+static void
+do_FCVT_half_to_double (sim_cpu *cpu)
+{
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+
+  NYI_assert (31, 10, 0x7B8B0);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_FP_double (cpu, rd, (double) aarch64_get_FP_half  (cpu, rn));
+}
+
+static void
+do_FCVT_single_to_half (sim_cpu *cpu)
+{
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+
+  NYI_assert (31, 10, 0x788F0);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_FP_half (cpu, rd, aarch64_get_FP_float  (cpu, rn));
+}
+
+/* Convert double to half.  */
+static void
+do_FCVT_double_to_half (sim_cpu *cpu)
+{
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+
+  NYI_assert (31, 10, 0x798F0);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  aarch64_set_FP_half (cpu, rd, (float) aarch64_get_FP_double  (cpu, rn));
+}
+
  static void
  dexSimpleFPDataProc1Source (sim_cpu *cpu)
  {
@@ -7339,20 +7993,22 @@ dexSimpleFPDataProc1Source (sim_cpu *cpu)
                                 000101 ==> FCVT (half-to-double)
                                instr[14,10] = 10000.  */
  
-  uint32_t M_S = (uimm (aarch64_get_instr (cpu), 31, 31) << 1)
-    | uimm (aarch64_get_instr (cpu), 29, 29);
-  uint32_t type   = uimm (aarch64_get_instr (cpu), 23, 22);
-  uint32_t opcode = uimm (aarch64_get_instr (cpu), 20, 15);
+  uint32_t M_S = (INSTR (31, 31) << 1) | INSTR (29, 29);
+  uint32_t type   = INSTR (23, 22);
+  uint32_t opcode = INSTR (20, 15);
  
    if (M_S != 0)
      HALT_UNALLOC;
  
    if (type == 3)
      {
-      if (opcode == 4 || opcode == 5)
-       HALT_NYI;
+      if (opcode == 4)
+       do_FCVT_half_to_single (cpu);
+      else if (opcode == 5)
+       do_FCVT_half_to_double (cpu);
        else
         HALT_UNALLOC;
+      return;
      }
  
    if (type == 2)
@@ -7411,7 +8067,13 @@ dexSimpleFPDataProc1Source (sim_cpu *cpu)
         do_FRINT (cpu);
         return;
  
-    case 7:            /* FCVT double/single to half precision.  */
+    case 7:
+      if (INSTR (22, 22))
+       do_FCVT_double_to_half (cpu);
+      else
+       do_FCVT_single_to_half (cpu);
+      return;
+
      case 13:
        HALT_NYI;
  
@@ -7424,9 +8086,10 @@ dexSimpleFPDataProc1Source (sim_cpu *cpu)
  static void
  scvtf32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float
      (cpu, sd, (float) aarch64_get_reg_s32 (cpu, rn, NO_SP));
  }
@@ -7435,9 +8098,10 @@ scvtf32 (sim_cpu *cpu)
  static void
  scvtf (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_float
      (cpu, sd, (float) aarch64_get_reg_s64 (cpu, rn, NO_SP));
  }
@@ -7446,9 +8110,10 @@ scvtf (sim_cpu *cpu)
  static void
  scvtd32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double
      (cpu, sd, (double) aarch64_get_reg_s32 (cpu, rn, NO_SP));
  }
@@ -7457,9 +8122,10 @@ scvtd32 (sim_cpu *cpu)
  static void
  scvtd (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned sd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned sd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_FP_double
      (cpu, sd, (double) aarch64_get_reg_s64 (cpu, rn, NO_SP));
  }
@@ -7473,6 +8139,17 @@ static const float  FLOAT_LONG_MIN  = (float)  LONG_MIN;
  static const double DOUBLE_LONG_MAX = (double) LONG_MAX;
  static const double DOUBLE_LONG_MIN = (double) LONG_MIN;
  
+#define UINT_MIN 0
+#define ULONG_MIN 0
+static const float  FLOAT_UINT_MAX   = (float)  UINT_MAX;
+static const float  FLOAT_UINT_MIN   = (float)  UINT_MIN;
+static const double DOUBLE_UINT_MAX  = (double) UINT_MAX;
+static const double DOUBLE_UINT_MIN  = (double) UINT_MIN;
+static const float  FLOAT_ULONG_MAX  = (float)  ULONG_MAX;
+static const float  FLOAT_ULONG_MIN  = (float)  ULONG_MIN;
+static const double DOUBLE_ULONG_MAX = (double) ULONG_MAX;
+static const double DOUBLE_ULONG_MIN = (double) ULONG_MIN;
+
  /* Check for FP exception conditions:
       NaN raises IO
       Infinity raises IO
@@ -7522,14 +8199,15 @@ static const double DOUBLE_LONG_MIN = (double) LONG_MIN;
  static void
  fcvtszs32 (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    /* TODO : check that this rounds toward zero.  */
    float   f = aarch64_get_FP_float (cpu, sn);
    int32_t value = (int32_t) f;
  
    RAISE_EXCEPTIONS (f, value, FLOAT, INT);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* Avoid sign extension to 64 bit.  */
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (uint32_t) value);
  }
@@ -7538,13 +8216,14 @@ fcvtszs32 (sim_cpu *cpu)
  static void
  fcvtszs (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    float f = aarch64_get_FP_float (cpu, sn);
    int64_t value = (int64_t) f;
  
    RAISE_EXCEPTIONS (f, value, FLOAT, LONG);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_s64 (cpu, rd, NO_SP, value);
  }
  
@@ -7552,14 +8231,15 @@ fcvtszs (sim_cpu *cpu)
  static void
  fcvtszd32 (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    /* TODO : check that this rounds toward zero.  */
    double   d = aarch64_get_FP_double (cpu, sn);
    int32_t  value = (int32_t) d;
  
    RAISE_EXCEPTIONS (d, value, DOUBLE, INT);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* Avoid sign extension to 64 bit.  */
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (uint32_t) value);
  }
@@ -7568,8 +8248,8 @@ fcvtszd32 (sim_cpu *cpu)
  static void
  fcvtszd (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned sn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    /* TODO : check that this rounds toward zero.  */
    double  d = aarch64_get_FP_double (cpu, sn);
    int64_t value;
@@ -7578,6 +8258,7 @@ fcvtszd (sim_cpu *cpu)
  
    RAISE_EXCEPTIONS (d, value, DOUBLE, LONG);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_s64 (cpu, rd, NO_SP, value);
  }
  
@@ -7593,27 +8274,28 @@ do_fcvtzu (sim_cpu *cpu)
       instr[9,5]   = Rs
       instr[4,0]   = Rd.  */
  
-  unsigned rs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (30, 23, 0x3C);
    NYI_assert (20, 16, 0x19);
  
-  if (uimm (aarch64_get_instr (cpu), 21, 21) != 1)
+  if (INSTR (21, 21) != 1)
      /* Convert to fixed point.  */
      HALT_NYI;
  
-  if (uimm (aarch64_get_instr (cpu), 31, 31))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (31, 31))
      {
        /* Convert to unsigned 64-bit integer.  */
-      if (uimm (aarch64_get_instr (cpu), 22, 22))
+      if (INSTR (22, 22))
         {
           double  d = aarch64_get_FP_double (cpu, rs);
           uint64_t value = (uint64_t) d;
  
           /* Do not raise an exception if we have reached ULONG_MAX.  */
           if (value != (1UL << 63))
-           RAISE_EXCEPTIONS (d, value, DOUBLE, LONG);
+           RAISE_EXCEPTIONS (d, value, DOUBLE, ULONG);
  
           aarch64_set_reg_u64 (cpu, rd, NO_SP, value);
         }
@@ -7624,7 +8306,7 @@ do_fcvtzu (sim_cpu *cpu)
  
           /* Do not raise an exception if we have reached ULONG_MAX.  */
           if (value != (1UL << 63))
-           RAISE_EXCEPTIONS (f, value, FLOAT, LONG);
+           RAISE_EXCEPTIONS (f, value, FLOAT, ULONG);
  
           aarch64_set_reg_u64 (cpu, rd, NO_SP, value);
         }
@@ -7634,14 +8316,14 @@ do_fcvtzu (sim_cpu *cpu)
        uint32_t value;
  
        /* Convert to unsigned 32-bit integer.  */
-      if (uimm (aarch64_get_instr (cpu), 22, 22))
+      if (INSTR (22, 22))
         {
           double  d = aarch64_get_FP_double (cpu, rs);
  
           value = (uint32_t) d;
           /* Do not raise an exception if we have reached UINT_MAX.  */
           if (value != (1UL << 31))
-           RAISE_EXCEPTIONS (d, value, DOUBLE, INT);
+           RAISE_EXCEPTIONS (d, value, DOUBLE, UINT);
         }
        else
         {
@@ -7650,7 +8332,7 @@ do_fcvtzu (sim_cpu *cpu)
           value = (uint32_t) f;
           /* Do not raise an exception if we have reached UINT_MAX.  */
           if (value != (1UL << 31))
-           RAISE_EXCEPTIONS (f, value, FLOAT, INT);
+           RAISE_EXCEPTIONS (f, value, FLOAT, UINT);
         }
  
        aarch64_set_reg_u64 (cpu, rd, NO_SP, value);
@@ -7669,21 +8351,22 @@ do_UCVTF (sim_cpu *cpu)
       instr[9,5]   = Rs
       instr[4,0]   = Rd.  */
  
-  unsigned rs = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rs = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (30, 23, 0x3C);
    NYI_assert (20, 16, 0x03);
  
-  if (uimm (aarch64_get_instr (cpu), 21, 21) != 1)
+  if (INSTR (21, 21) != 1)
      HALT_NYI;
  
    /* FIXME: Add exception raising.  */
-  if (uimm (aarch64_get_instr (cpu), 31, 31))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (31, 31))
      {
        uint64_t value = aarch64_get_reg_u64 (cpu, rs, NO_SP);
  
-      if (uimm (aarch64_get_instr (cpu), 22, 22))
+      if (INSTR (22, 22))
         aarch64_set_FP_double (cpu, rd, (double) value);
        else
         aarch64_set_FP_float (cpu, rd, (float) value);
@@ -7692,7 +8375,7 @@ do_UCVTF (sim_cpu *cpu)
      {
        uint32_t value =  aarch64_get_reg_u32 (cpu, rs, NO_SP);
  
-      if (uimm (aarch64_get_instr (cpu), 22, 22))
+      if (INSTR (22, 22))
         aarch64_set_FP_double (cpu, rd, (double) value);
        else
         aarch64_set_FP_float (cpu, rd, (float) value);
@@ -7708,15 +8391,16 @@ float_vector_move (sim_cpu *cpu)
       instr[9,5]   ==> source
       instr[4,0]   ==> dest.  */
  
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (31, 17, 0x4F57);
  
-  if (uimm (aarch64_get_instr (cpu), 15, 10) != 0)
+  if (INSTR (15, 10) != 0)
      HALT_UNALLOC;
  
-  if (uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (16, 16))
      aarch64_set_vec_u64 (cpu, rd, 1, aarch64_get_reg_u64 (cpu, rn, NO_SP));
    else
      aarch64_set_reg_u64 (cpu, rd, NO_SP, aarch64_get_vec_u64 (cpu, rn, 1));
@@ -7742,22 +8426,22 @@ dexSimpleFPIntegerConvert (sim_cpu *cpu)
    uint32_t size;
    uint32_t S;
  
-  if (uimm (aarch64_get_instr (cpu), 31, 17) == 0x4F57)
+  if (INSTR (31, 17) == 0x4F57)
      {
        float_vector_move (cpu);
        return;
      }
  
-  size = uimm (aarch64_get_instr (cpu), 31, 31);
-  S = uimm (aarch64_get_instr (cpu), 29, 29);
+  size = INSTR (31, 31);
+  S = INSTR (29, 29);
    if (S != 0)
      HALT_UNALLOC;
  
-  type = uimm (aarch64_get_instr (cpu), 23, 22);
+  type = INSTR (23, 22);
    if (type > 1)
      HALT_UNALLOC;
  
-  rmode_opcode = uimm (aarch64_get_instr (cpu), 20, 16);
+  rmode_opcode = INSTR (20, 16);
    size_type = (size << 1) | type; /* 0==32f, 1==32d, 2==64f, 3==64d.  */
  
    switch (rmode_opcode)
@@ -7769,8 +8453,6 @@ dexSimpleFPIntegerConvert (sim_cpu *cpu)
         case 1: scvtd32 (cpu); return;
         case 2: scvtf (cpu); return;
         case 3: scvtd (cpu); return;
-       default:
-         HALT_UNREACHABLE;
         }
  
      case 6:                    /* FMOV GR, Vec.  */
@@ -7796,7 +8478,6 @@ dexSimpleFPIntegerConvert (sim_cpu *cpu)
         case 1: fcvtszd32 (cpu); return;
         case 2: fcvtszs (cpu); return;
         case 3: fcvtszd (cpu); return;
-       default: HALT_UNREACHABLE;
         }
  
      case 25: do_fcvtzu (cpu); return;
@@ -7820,8 +8501,22 @@ set_flags_for_float_compare (sim_cpu *cpu, float fvalue1, float fvalue2)
  {
    uint32_t flags;
  
+  /* FIXME: Add exception raising.  */
    if (isnan (fvalue1) || isnan (fvalue2))
      flags = C|V;
+  else if (isinf (fvalue1) && isinf (fvalue2))
+    {
+      /* Subtracting two infinities may give a NaN.  We only need to compare
+        the signs, which we can get from isinf.  */
+      int result = isinf (fvalue1) - isinf (fvalue2);
+
+      if (result == 0)
+       flags = Z|C;
+      else if (result < 0)
+       flags = N;
+      else /* (result > 0).  */
+       flags = C;
+    }
    else
      {
        float result = fvalue1 - fvalue2;
@@ -7840,12 +8535,13 @@ set_flags_for_float_compare (sim_cpu *cpu, float fvalue1, float fvalue2)
  static void
  fcmps (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
  
    float fvalue1 = aarch64_get_FP_float (cpu, sn);
    float fvalue2 = aarch64_get_FP_float (cpu, sm);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_float_compare (cpu, fvalue1, fvalue2);
  }
  
@@ -7854,9 +8550,10 @@ fcmps (sim_cpu *cpu)
  static void
  fcmpzs (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sn = INSTR ( 9,  5);
    float fvalue1 = aarch64_get_FP_float (cpu, sn);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_float_compare (cpu, fvalue1, 0.0f);
  }
  
@@ -7864,12 +8561,13 @@ fcmpzs (sim_cpu *cpu)
  static void
  fcmpes (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
  
    float fvalue1 = aarch64_get_FP_float (cpu, sn);
    float fvalue2 = aarch64_get_FP_float (cpu, sm);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_float_compare (cpu, fvalue1, fvalue2);
  }
  
@@ -7877,9 +8575,10 @@ fcmpes (sim_cpu *cpu)
  static void
  fcmpzes (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sn = INSTR ( 9,  5);
    float fvalue1 = aarch64_get_FP_float (cpu, sn);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_float_compare (cpu, fvalue1, 0.0f);
  }
  
@@ -7888,8 +8587,22 @@ set_flags_for_double_compare (sim_cpu *cpu, double dval1, double dval2)
  {
    uint32_t flags;
  
+  /* FIXME: Add exception raising.  */
    if (isnan (dval1) || isnan (dval2))
      flags = C|V;
+  else if (isinf (dval1) && isinf (dval2))
+    {
+      /* Subtracting two infinities may give a NaN.  We only need to compare
+        the signs, which we can get from isinf.  */
+      int result = isinf (dval1) - isinf (dval2);
+
+      if (result == 0)
+       flags = Z|C;
+      else if (result < 0)
+       flags = N;
+      else /* (result > 0).  */
+       flags = C;
+    }
    else
      {
        double result = dval1 - dval2;
@@ -7909,12 +8622,13 @@ set_flags_for_double_compare (sim_cpu *cpu, double dval1, double dval2)
  static void
  fcmpd (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
  
    double dvalue1 = aarch64_get_FP_double (cpu, sn);
    double dvalue2 = aarch64_get_FP_double (cpu, sm);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_double_compare (cpu, dvalue1, dvalue2);
  }
  
@@ -7923,9 +8637,10 @@ fcmpd (sim_cpu *cpu)
  static void
  fcmpzd (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sn = INSTR ( 9,  5);
    double dvalue1 = aarch64_get_FP_double (cpu, sn);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_double_compare (cpu, dvalue1, 0.0);
  }
  
@@ -7933,12 +8648,13 @@ fcmpzd (sim_cpu *cpu)
  static void
  fcmped (sim_cpu *cpu)
  {
-  unsigned sm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sm = INSTR (20, 16);
+  unsigned sn = INSTR ( 9,  5);
  
    double dvalue1 = aarch64_get_FP_double (cpu, sn);
    double dvalue2 = aarch64_get_FP_double (cpu, sm);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_double_compare (cpu, dvalue1, dvalue2);
  }
  
@@ -7946,9 +8662,10 @@ fcmped (sim_cpu *cpu)
  static void
  fcmpzed (sim_cpu *cpu)
  {
-  unsigned sn = uimm (aarch64_get_instr (cpu),  9,  5);
+  unsigned sn = INSTR ( 9,  5);
    double dvalue1 = aarch64_get_FP_double (cpu, sn);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    set_flags_for_double_compare (cpu, dvalue1, 0.0);
  }
  
@@ -7965,11 +8682,10 @@ dexSimpleFPCompare (sim_cpu *cpu)
                                01000 ==> FCMPZ, 11000 ==> FCMPEZ,
                                ow ==> UNALLOC  */
    uint32_t dispatch;
-  uint32_t M_S = (uimm (aarch64_get_instr (cpu), 31, 31) << 1)
-    | uimm (aarch64_get_instr (cpu), 29, 29);
-  uint32_t type = uimm (aarch64_get_instr (cpu), 23, 22);
-  uint32_t op = uimm (aarch64_get_instr (cpu), 15, 14);
-  uint32_t op2_2_0 = uimm (aarch64_get_instr (cpu), 2, 0);
+  uint32_t M_S = (INSTR (31, 31) << 1) | INSTR (29, 29);
+  uint32_t type = INSTR (23, 22);
+  uint32_t op = INSTR (15, 14);
+  uint32_t op2_2_0 = INSTR (2, 0);
  
    if (op2_2_0 != 0)
      HALT_UNALLOC;
@@ -7984,7 +8700,7 @@ dexSimpleFPCompare (sim_cpu *cpu)
      HALT_UNALLOC;
  
    /* dispatch on type and top 2 bits of opcode.  */
-  dispatch = (type << 2) | uimm (aarch64_get_instr (cpu), 4, 3);
+  dispatch = (type << 2) | INSTR (4, 3);
  
    switch (dispatch)
      {
@@ -7996,26 +8712,26 @@ dexSimpleFPCompare (sim_cpu *cpu)
      case 5: fcmpzd (cpu); return;
      case 6: fcmped (cpu); return;
      case 7: fcmpzed (cpu); return;
-    default: HALT_UNREACHABLE;
      }
  }
  
  static void
  do_scalar_FADDP (sim_cpu *cpu)
  {
-  /* instr [31,23] = 011111100
+  /* instr [31,23] = 0111 1110 0
       instr [22]    = single(0)/double(1)
-     instr [21,10] = 1100 0011 0110
+     instr [21,10] = 11 0000 1101 10
       instr [9,5]   = Fn
       instr [4,0]   = Fd.  */
  
-  unsigned Fn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned Fd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned Fn = INSTR (9, 5);
+  unsigned Fd = INSTR (4, 0);
  
    NYI_assert (31, 23, 0x0FC);
    NYI_assert (21, 10, 0xC36);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        double val1 = aarch64_get_vec_double (cpu, Fn, 0);
        double val2 = aarch64_get_vec_double (cpu, Fn, 1);
@@ -8044,15 +8760,16 @@ do_scalar_FABD (sim_cpu *cpu)
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (31, 23, 0x0FD);
    NYI_assert (21, 21, 1);
    NYI_assert (15, 10, 0x35);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      aarch64_set_FP_double (cpu, rd,
                            fabs (aarch64_get_FP_double (cpu, rn)
                                  - aarch64_get_FP_double (cpu, rm)));
@@ -8071,13 +8788,14 @@ do_scalar_CMGT (sim_cpu *cpu)
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (31, 21, 0x2F7);
    NYI_assert (15, 10, 0x0D);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, rd, 0,
                        aarch64_get_vec_u64 (cpu, rn, 0) >
                        aarch64_get_vec_u64 (cpu, rm, 0) ? -1L : 0L);
@@ -8092,38 +8810,79 @@ do_scalar_USHR (sim_cpu *cpu)
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned amount = 128 - uimm (aarch64_get_instr (cpu), 22, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned amount = 128 - INSTR (22, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    NYI_assert (31, 23, 0x0FE);
    NYI_assert (15, 10, 0x01);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, rd, 0,
                        aarch64_get_vec_u64 (cpu, rn, 0) >> amount);
  }
  
  static void
-do_scalar_SHL (sim_cpu *cpu)
+do_scalar_SSHL (sim_cpu *cpu)
+{
+  /* instr [31,21] = 0101 1110 111
+     instr [20,16] = Rm
+     instr [15,10] = 0100 01
+     instr [9, 5]  = Rn
+     instr [4, 0]  = Rd.  */
+
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  signed int shift = aarch64_get_vec_s8 (cpu, rm, 0);
+
+  NYI_assert (31, 21, 0x2F7);
+  NYI_assert (15, 10, 0x11);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (shift >= 0)
+    aarch64_set_vec_s64 (cpu, rd, 0,
+                        aarch64_get_vec_s64 (cpu, rn, 0) << shift);
+  else
+    aarch64_set_vec_s64 (cpu, rd, 0,
+                        aarch64_get_vec_s64 (cpu, rn, 0) >> - shift);
+}
+
+static void
+do_scalar_shift (sim_cpu *cpu)
  {
-  /* instr [31,23] = 0111 1101 0
+  /* instr [31,23] = 0101 1111 0
       instr [22,16] = shift amount
-     instr [15,10] = 0101 01
+     instr [15,10] = 0101 01   [SHL]
+     instr [15,10] = 0000 01   [SSHR]
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned amount = uimm (aarch64_get_instr (cpu), 22, 16) - 64;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned amount;
  
    NYI_assert (31, 23, 0x0BE);
-  NYI_assert (15, 10, 0x15);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22) == 0)
+  if (INSTR (22, 22) == 0)
      HALT_UNALLOC;
  
-  aarch64_set_vec_u64 (cpu, rd, 0,
-                      aarch64_get_vec_u64 (cpu, rn, 0) << amount);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  switch (INSTR (15, 10))
+    {
+    case 0x01: /* SSHR */
+      amount = 128 - INSTR (22, 16);
+      aarch64_set_vec_s64 (cpu, rd, 0,
+                          aarch64_get_vec_s64 (cpu, rn, 0) >> amount);
+      return;
+    case 0x15: /* SHL */
+      amount = INSTR (22, 16) - 64;
+      aarch64_set_vec_u64 (cpu, rd, 0,
+                          aarch64_get_vec_u64 (cpu, rn, 0) << amount);
+      return;
+    default:
+      HALT_NYI;
+    }
  }
  
  /* FCMEQ FCMGT FCMGE.  */
@@ -8143,12 +8902,10 @@ do_scalar_FCM (sim_cpu *cpu)
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned EUac = (uimm (aarch64_get_instr (cpu), 23, 23) << 2)
-    | (uimm (aarch64_get_instr (cpu), 29, 29) << 1)
-    | uimm (aarch64_get_instr (cpu), 11, 11);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  unsigned EUac = (INSTR (23, 23) << 2) | (INSTR (29, 29) << 1) | INSTR (11, 11);
    unsigned result;
    float val1;
    float val2;
@@ -8159,7 +8916,8 @@ do_scalar_FCM (sim_cpu *cpu)
    NYI_assert (15, 12, 0xE);
    NYI_assert (10, 10, 1);
  
-  if (uimm (aarch64_get_instr (cpu), 22, 22))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
      {
        double val1 = aarch64_get_FP_double (cpu, rn);
        double val2 = aarch64_get_FP_double (cpu, rm);
@@ -8236,38 +8994,39 @@ do_scalar_MOV (sim_cpu *cpu)
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    unsigned index;
  
    NYI_assert (31, 21, 0x2F0);
    NYI_assert (15, 10, 0x01);
  
-  if (uimm (aarch64_get_instr (cpu), 16, 16))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (16, 16))
      {
        /* 8-bit.  */
-      index = uimm (aarch64_get_instr (cpu), 20, 17);
+      index = INSTR (20, 17);
        aarch64_set_vec_u8
         (cpu, rd, 0, aarch64_get_vec_u8 (cpu, rn, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 17, 17))
+  else if (INSTR (17, 17))
      {
        /* 16-bit.  */
-      index = uimm (aarch64_get_instr (cpu), 20, 18);
+      index = INSTR (20, 18);
        aarch64_set_vec_u16
         (cpu, rd, 0, aarch64_get_vec_u16 (cpu, rn, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 18, 18))
+  else if (INSTR (18, 18))
      {
        /* 32-bit.  */
-      index = uimm (aarch64_get_instr (cpu), 20, 19);
+      index = INSTR (20, 19);
        aarch64_set_vec_u32
         (cpu, rd, 0, aarch64_get_vec_u32 (cpu, rn, index));
      }
-  else if (uimm (aarch64_get_instr (cpu), 19, 19))
+  else if (INSTR (19, 19))
      {
        /* 64-bit.  */
-      index = uimm (aarch64_get_instr (cpu), 20, 20);
+      index = INSTR (20, 20);
        aarch64_set_vec_u64
         (cpu, rd, 0, aarch64_get_vec_u64 (cpu, rn, index));
      }
@@ -8278,36 +9037,110 @@ do_scalar_MOV (sim_cpu *cpu)
  static void
  do_scalar_NEG (sim_cpu *cpu)
  {
-  /* instr [31,24] = 0111 1110
-     instr [23,22] = 11
-     instr [21,10] = 1000 0010 1110
+  /* instr [31,10] = 0111 1110 1110 0000 1011 10
       instr [9, 5]  = Rn
       instr [4, 0]  = Rd.  */
  
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
-  NYI_assert (31, 24, 0x7E);
-  NYI_assert (21, 10, 0x82E);
-  NYI_assert (23, 22, 3);
+  NYI_assert (31, 10, 0x1FB82E);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_vec_u64 (cpu, rd, 0, - aarch64_get_vec_u64 (cpu, rn, 0));
  }
  
  static void
+do_scalar_USHL (sim_cpu *cpu)
+{
+  /* instr [31,21] = 0111 1110 111
+     instr [20,16] = Rm
+     instr [15,10] = 0100 01
+     instr [9, 5]  = Rn
+     instr [4, 0]  = Rd.  */
+
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  signed int shift = aarch64_get_vec_s8 (cpu, rm, 0);
+
+  NYI_assert (31, 21, 0x3F7);
+  NYI_assert (15, 10, 0x11);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (shift >= 0)
+    aarch64_set_vec_u64 (cpu, rd, 0, aarch64_get_vec_u64 (cpu, rn, 0) << shift);
+  else
+    aarch64_set_vec_u64 (cpu, rd, 0, aarch64_get_vec_u64 (cpu, rn, 0) >> - shift);
+}
+
+static void
  do_double_add (sim_cpu *cpu)
  {
-  /* instr [28,25] = 1111.  */
+  /* instr [31,21] = 0101 1110 111
+     instr [20,16] = Fn
+     instr [15,10] = 1000 01
+     instr [9,5]   = Fm
+     instr [4,0]   = Fd.  */
    unsigned Fd;
    unsigned Fm;
    unsigned Fn;
    double val1;
    double val2;
  
-  switch (uimm (aarch64_get_instr (cpu), 31, 23))
+  NYI_assert (31, 21, 0x2F7);
+  NYI_assert (15, 10, 0x21);
+
+  Fd = INSTR (4, 0);
+  Fm = INSTR (9, 5);
+  Fn = INSTR (20, 16);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  val1 = aarch64_get_FP_double (cpu, Fm);
+  val2 = aarch64_get_FP_double (cpu, Fn);
+
+  aarch64_set_FP_double (cpu, Fd, val1 + val2);
+}
+
+static void
+do_scalar_UCVTF (sim_cpu *cpu)
+{
+  /* instr [31,23] = 0111 1110 0
+     instr [22]    = single(0)/double(1)
+     instr [21,10] = 10 0001 1101 10
+     instr [9,5]   = rn
+     instr [4,0]   = rd.  */
+
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+
+  NYI_assert (31, 23, 0x0FC);
+  NYI_assert (21, 10, 0x876);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (INSTR (22, 22))
+    {
+      uint64_t val = aarch64_get_vec_u64 (cpu, rn, 0);
+
+      aarch64_set_vec_double (cpu, rd, 0, (double) val);
+    }
+  else
+    {
+      uint32_t val = aarch64_get_vec_u32 (cpu, rn, 0);
+
+      aarch64_set_vec_float (cpu, rd, 0, (float) val);
+    }
+}
+
+static void
+do_scalar_vec (sim_cpu *cpu)
+{
+  /* instr [30] = 1.  */
+  /* instr [28,25] = 1111.  */
+  switch (INSTR (31, 23))
      {
      case 0xBC:
-      switch (uimm (aarch64_get_instr (cpu), 15, 10))
+      switch (INSTR (15, 10))
         {
         case 0x01: do_scalar_MOV (cpu); return;
         case 0x39: do_scalar_FCM (cpu); return;
@@ -8315,51 +9148,50 @@ do_double_add (sim_cpu *cpu)
         }
        break;
  
-    case 0xBE: do_scalar_SHL (cpu); return;
+    case 0xBE: do_scalar_shift (cpu); return;
  
      case 0xFC:
-      switch (uimm (aarch64_get_instr (cpu), 15, 10))
+      switch (INSTR (15, 10))
         {
-       case 0x36: do_scalar_FADDP (cpu); return;
+       case 0x36:
+         switch (INSTR (21, 16))
+           {
+           case 0x30: do_scalar_FADDP (cpu); return;
+           case 0x21: do_scalar_UCVTF (cpu); return;
+           }
+         HALT_NYI;
         case 0x39: do_scalar_FCM (cpu); return;
         case 0x3B: do_scalar_FCM (cpu); return;
         }
        break;
  
      case 0xFD:
-      switch (uimm (aarch64_get_instr (cpu), 15, 10))
+      switch (INSTR (15, 10))
         {
         case 0x0D: do_scalar_CMGT (cpu); return;
+       case 0x11: do_scalar_USHL (cpu); return;
+       case 0x2E: do_scalar_NEG (cpu); return;
         case 0x35: do_scalar_FABD (cpu); return;
         case 0x39: do_scalar_FCM (cpu); return;
         case 0x3B: do_scalar_FCM (cpu); return;
-       case 0x2E: do_scalar_NEG (cpu); return;
         default:
           HALT_NYI;
         }
  
      case 0xFE: do_scalar_USHR (cpu); return;
-    default:
-      break;
-    }
-
-  /* instr [31,21] = 0101 1110 111
-     instr [20,16] = Fn
-     instr [15,10] = 1000 01
-     instr [9,5]   = Fm
-     instr [4,0]   = Fd.  */
-  if (uimm (aarch64_get_instr (cpu), 31, 21) != 0x2F7
-      || uimm (aarch64_get_instr (cpu), 15, 10) != 0x21)
-    HALT_NYI;
-
-  Fd = uimm (aarch64_get_instr (cpu), 4, 0);
-  Fm = uimm (aarch64_get_instr (cpu), 9, 5);
-  Fn = uimm (aarch64_get_instr (cpu), 20, 16);
  
-  val1 = aarch64_get_FP_double (cpu, Fm);
-  val2 = aarch64_get_FP_double (cpu, Fn);
+    case 0xBD:
+      switch (INSTR (15, 10))
+       {
+       case 0x21: do_double_add (cpu); return;
+       case 0x11: do_scalar_SSHL (cpu); return;
+       default:
+         HALT_NYI;
+       }
  
-  aarch64_set_FP_double (cpu, Fd, val1 + val2);
+    default:
+      HALT_NYI;
+    }
  }
  
  static void
@@ -8367,25 +9199,25 @@ dexAdvSIMD1 (sim_cpu *cpu)
  {
    /* instr [28,25] = 1 111.  */
  
-  /* we are currently only interested in the basic
+  /* We are currently only interested in the basic
       scalar fp routines which all have bit 30 = 0.  */
-  if (uimm (aarch64_get_instr (cpu), 30, 30))
-    do_double_add (cpu);
+  if (INSTR (30, 30))
+    do_scalar_vec (cpu);
  
    /* instr[24] is set for FP data processing 3-source and clear for
       all other basic scalar fp instruction groups.  */
-  else if (uimm (aarch64_get_instr (cpu), 24, 24))
+  else if (INSTR (24, 24))
      dexSimpleFPDataProc3Source (cpu);
  
    /* instr[21] is clear for floating <-> fixed conversions and set for
       all other basic scalar fp instruction groups.  */
-  else if (!uimm (aarch64_get_instr (cpu), 21, 21))
+  else if (!INSTR (21, 21))
      dexSimpleFPFixedConvert (cpu);
  
    /* instr[11,10] : 01 ==> cond compare, 10 ==> Data Proc 2 Source
       11 ==> cond select,  00 ==> other.  */
    else
-    switch (uimm (aarch64_get_instr (cpu), 11, 10))
+    switch (INSTR (11, 10))
        {
        case 1: dexSimpleFPCondCompare (cpu); return;
        case 2: dexSimpleFPDataProc2Source (cpu); return;
@@ -8393,20 +9225,20 @@ dexAdvSIMD1 (sim_cpu *cpu)
  
        default:
         /* Now an ordered cascade of tests.
-          FP immediate has aarch64_get_instr (cpu)[12] == 1.
-          FP compare has aarch64_get_instr (cpu)[13] == 1.
-          FP Data Proc 1 Source has aarch64_get_instr (cpu)[14] == 1.
-          FP floating <--> integer conversions has aarch64_get_instr (cpu)[15] == 0.  */
-       if (uimm (aarch64_get_instr (cpu), 12, 12))
+          FP immediate has instr [12] == 1.
+          FP compare has   instr [13] == 1.
+          FP Data Proc 1 Source has instr [14] == 1.
+          FP floating <--> integer conversions has instr [15] == 0.  */
+       if (INSTR (12, 12))
           dexSimpleFPImmediate (cpu);
  
-       else if (uimm (aarch64_get_instr (cpu), 13, 13))
+       else if (INSTR (13, 13))
           dexSimpleFPCompare (cpu);
  
-       else if (uimm (aarch64_get_instr (cpu), 14, 14))
+       else if (INSTR (14, 14))
           dexSimpleFPDataProc1Source (cpu);
  
-       else if (!uimm (aarch64_get_instr (cpu), 15, 15))
+       else if (!INSTR (15, 15))
           dexSimpleFPIntegerConvert (cpu);
  
         else
@@ -8424,14 +9256,14 @@ pcadr (sim_cpu *cpu)
       instr[30,29] = immlo
       instr[23,5] = immhi.  */
    uint64_t address;
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  uint32_t isPage = uimm (aarch64_get_instr (cpu), 31, 31);
+  unsigned rd = INSTR (4, 0);
+  uint32_t isPage = INSTR (31, 31);
    union { int64_t u64; uint64_t s64; } imm;
    uint64_t offset;
  
    imm.s64 = simm64 (aarch64_get_instr (cpu), 23, 5);
    offset = imm.u64;
-  offset = (offset << 2) | uimm (aarch64_get_instr (cpu), 30, 29);
+  offset = (offset << 2) | INSTR (30, 29);
  
    address = aarch64_get_PC (cpu);
  
@@ -8441,6 +9273,7 @@ pcadr (sim_cpu *cpu)
        address &= ~0xfff;
      }
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, address + offset);
  }
  
@@ -8467,9 +9300,10 @@ dexPCRelAddressing (sim_cpu *cpu)
  static void
  and32 (sim_cpu *cpu, uint32_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP) & bimm);
  }
@@ -8478,9 +9312,10 @@ and32 (sim_cpu *cpu, uint32_t bimm)
  static void
  and64 (sim_cpu *cpu, uint64_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP) & bimm);
  }
@@ -8489,12 +9324,13 @@ and64 (sim_cpu *cpu, uint64_t bimm)
  static void
  ands32 (sim_cpu *cpu, uint32_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = bimm;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 & value2);
    set_flags_for_binop32 (cpu, value1 & value2);
  }
@@ -8503,12 +9339,13 @@ ands32 (sim_cpu *cpu, uint32_t bimm)
  static void
  ands64 (sim_cpu *cpu, uint64_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = bimm;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 & value2);
    set_flags_for_binop64 (cpu, value1 & value2);
  }
@@ -8517,9 +9354,10 @@ ands64 (sim_cpu *cpu, uint64_t bimm)
  static void
  eor32 (sim_cpu *cpu, uint32_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP) ^ bimm);
  }
@@ -8528,9 +9366,10 @@ eor32 (sim_cpu *cpu, uint32_t bimm)
  static void
  eor64 (sim_cpu *cpu, uint64_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP) ^ bimm);
  }
@@ -8539,9 +9378,10 @@ eor64 (sim_cpu *cpu, uint64_t bimm)
  static void
  orr32 (sim_cpu *cpu, uint32_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u32 (cpu, rn, NO_SP) | bimm);
  }
@@ -8550,9 +9390,10 @@ orr32 (sim_cpu *cpu, uint32_t bimm)
  static void
  orr64 (sim_cpu *cpu, uint64_t bimm)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, SP_OK,
                        aarch64_get_reg_u64 (cpu, rn, NO_SP) | bimm);
  }
@@ -8566,10 +9407,11 @@ orr64 (sim_cpu *cpu, uint64_t bimm)
  static void
  and32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u32 (cpu, rn, NO_SP)
       & shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP), shift, count));
@@ -8579,10 +9421,11 @@ and32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  and64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u64 (cpu, rn, NO_SP)
       & shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP), shift, count));
@@ -8592,14 +9435,15 @@ and64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  ands32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 & value2);
    set_flags_for_binop32 (cpu, value1 & value2);
  }
@@ -8608,14 +9452,15 @@ ands32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  ands64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP),
                                shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 & value2);
    set_flags_for_binop64 (cpu, value1 & value2);
  }
@@ -8624,10 +9469,11 @@ ands64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  bic32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u32 (cpu, rn, NO_SP)
       & ~ shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP), shift, count));
@@ -8637,10 +9483,11 @@ bic32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  bic64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u64 (cpu, rn, NO_SP)
       & ~ shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP), shift, count));
@@ -8650,14 +9497,15 @@ bic64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  bics32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint32_t value1 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t value2 = ~ shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                  shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 & value2);
    set_flags_for_binop32 (cpu, value1 & value2);
  }
@@ -8666,14 +9514,15 @@ bics32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  bics64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    uint64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t value2 = ~ shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP),
                                  shift, count);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value1 & value2);
    set_flags_for_binop64 (cpu, value1 & value2);
  }
@@ -8682,10 +9531,11 @@ bics64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  eon32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u32 (cpu, rn, NO_SP)
       ^ ~ shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP), shift, count));
@@ -8695,10 +9545,11 @@ eon32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  eon64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u64 (cpu, rn, NO_SP)
       ^ ~ shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP), shift, count));
@@ -8708,10 +9559,11 @@ eon64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  eor32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u32 (cpu, rn, NO_SP)
       ^ shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP), shift, count));
@@ -8721,10 +9573,11 @@ eor32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  eor64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u64 (cpu, rn, NO_SP)
       ^ shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP), shift, count));
@@ -8734,10 +9587,11 @@ eor64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  orr32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u32 (cpu, rn, NO_SP)
       | shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP), shift, count));
@@ -8747,10 +9601,11 @@ orr32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  orr64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u64 (cpu, rn, NO_SP)
       | shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP), shift, count));
@@ -8760,10 +9615,11 @@ orr64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  orn32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u32 (cpu, rn, NO_SP)
       | ~ shifted32 (aarch64_get_reg_u32 (cpu, rm, NO_SP), shift, count));
@@ -8773,10 +9629,11 @@ orn32_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  static void
  orn64_shift (sim_cpu *cpu, Shift shift, uint32_t count)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, aarch64_get_reg_u64 (cpu, rn, NO_SP)
       | ~ shifted64 (aarch64_get_reg_u64 (cpu, rm, NO_SP), shift, count));
@@ -8795,13 +9652,13 @@ dexLogicalImmediate (sim_cpu *cpu)
       instr[4,0] = Rd  */
  
    /* 32 bit operations must have N = 0 or else we have an UNALLOC.  */
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  uint32_t N = uimm (aarch64_get_instr (cpu), 22, 22);
-  /* uint32_t immr = uimm (aarch64_get_instr (cpu), 21, 16);.  */
-  /* uint32_t imms = uimm (aarch64_get_instr (cpu), 15, 10);.  */
-  uint32_t index = uimm (aarch64_get_instr (cpu), 22, 10);
+  uint32_t size = INSTR (31, 31);
+  uint32_t N = INSTR (22, 22);
+  /* uint32_t immr = INSTR (21, 16);.  */
+  /* uint32_t imms = INSTR (15, 10);.  */
+  uint32_t index = INSTR (22, 10);
    uint64_t bimm64 = LITable [index];
-  uint32_t dispatch = uimm (aarch64_get_instr (cpu), 30, 29);
+  uint32_t dispatch = INSTR (30, 29);
  
    if (~size & N)
      HALT_UNALLOC;
@@ -8846,8 +9703,9 @@ dexLogicalImmediate (sim_cpu *cpu)
  static void
  movz32 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, val << (pos * 16));
  }
  
@@ -8855,8 +9713,9 @@ movz32 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  static void
  movz64 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, ((uint64_t) val) << (pos * 16));
  }
  
@@ -8864,8 +9723,9 @@ movz64 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  static void
  movn32 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, ((val << (pos * 16)) ^ 0xffffffffU));
  }
  
@@ -8873,8 +9733,9 @@ movn32 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  static void
  movn64 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, ((((uint64_t) val) << (pos * 16))
                       ^ 0xffffffffffffffffULL));
@@ -8884,11 +9745,12 @@ movn64 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  static void
  movk32 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
    uint32_t current = aarch64_get_reg_u32 (cpu, rd, NO_SP);
    uint32_t value = val << (pos * 16);
    uint32_t mask = ~(0xffffU << (pos * 16));
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (value | (current & mask)));
  }
  
@@ -8896,11 +9758,12 @@ movk32 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  static void
  movk64 (sim_cpu *cpu, uint32_t val, uint32_t pos)
  {
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rd = INSTR (4, 0);
    uint64_t current = aarch64_get_reg_u64 (cpu, rd, NO_SP);
    uint64_t value = (uint64_t) val << (pos * 16);
    uint64_t mask = ~(0xffffULL << (pos * 16));
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (value | (current & mask)));
  }
  
@@ -8918,9 +9781,9 @@ dexMoveWideImmediate (sim_cpu *cpu)
       we just pass the multiplier.  */
  
    uint32_t imm;
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  uint32_t op = uimm (aarch64_get_instr (cpu), 30, 29);
-  uint32_t shift = uimm (aarch64_get_instr (cpu), 22, 21);
+  uint32_t size = INSTR (31, 31);
+  uint32_t op = INSTR (30, 29);
+  uint32_t shift = INSTR (22, 21);
  
    /* 32 bit can only shift 0 or 1 lot of 16.
       anything else is an unallocated instruction.  */
@@ -8930,7 +9793,7 @@ dexMoveWideImmediate (sim_cpu *cpu)
    if (op == 1)
      HALT_UNALLOC;
  
-  imm = uimm (aarch64_get_instr (cpu), 20, 5);
+  imm = INSTR (20, 5);
  
    if (size == 0)
      {
@@ -8967,7 +9830,7 @@ static void
  ubfm32 (sim_cpu *cpu, uint32_t r, uint32_t s)
  {
    unsigned rd;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    uint32_t value = aarch64_get_reg_u32 (cpu, rn, NO_SP);
  
    /* Pick either s+1-r or s+1 consecutive bits out of the original word.  */
@@ -8992,7 +9855,8 @@ ubfm32 (sim_cpu *cpu, uint32_t r, uint32_t s)
        value >>= r - (s + 1);
      }
  
-  rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  rd = INSTR (4, 0);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value);
  }
  
@@ -9002,7 +9866,7 @@ static void
  ubfm (sim_cpu *cpu, uint32_t r, uint32_t s)
  {
    unsigned rd;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    uint64_t value = aarch64_get_reg_u64 (cpu, rn, NO_SP);
  
    if (r <= s)
@@ -9026,7 +9890,8 @@ ubfm (sim_cpu *cpu, uint32_t r, uint32_t s)
        value >>= r - (s + 1);
      }
  
-  rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  rd = INSTR (4, 0);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, value);
  }
  
@@ -9042,7 +9907,7 @@ static void
  sbfm32 (sim_cpu *cpu, uint32_t r, uint32_t s)
  {
    unsigned rd;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    /* as per ubfm32 but use an ASR instead of an LSR.  */
    int32_t value = aarch64_get_reg_s32 (cpu, rn, NO_SP);
  
@@ -9057,7 +9922,8 @@ sbfm32 (sim_cpu *cpu, uint32_t r, uint32_t s)
        value >>= r - (s + 1);
      }
  
-  rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  rd = INSTR (4, 0);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, (uint32_t) value);
  }
  
@@ -9067,7 +9933,7 @@ static void
  sbfm (sim_cpu *cpu, uint32_t r, uint32_t s)
  {
    unsigned rd;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    /* acpu per ubfm but use an ASR instead of an LSR.  */
    int64_t value = aarch64_get_reg_s64 (cpu, rn, NO_SP);
  
@@ -9082,7 +9948,8 @@ sbfm (sim_cpu *cpu, uint32_t r, uint32_t s)
        value >>= r - (s + 1);
      }
  
-  rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  rd = INSTR (4, 0);
    aarch64_set_reg_s64 (cpu, rd, NO_SP, value);
  }
  
@@ -9096,7 +9963,7 @@ sbfm (sim_cpu *cpu, uint32_t r, uint32_t s)
  static void
  bfm32 (sim_cpu *cpu, uint32_t r, uint32_t s)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    uint32_t value = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t mask = -1;
    unsigned rd;
@@ -9130,12 +9997,13 @@ bfm32 (sim_cpu *cpu, uint32_t r, uint32_t s)
        mask >>= r - (s + 1);
      }
  
-  rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  rd = INSTR (4, 0);
    value2 = aarch64_get_reg_u32 (cpu, rd, NO_SP);
  
    value2 &= ~mask;
    value2 |= value;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, (aarch64_get_reg_u32 (cpu, rd, NO_SP) & ~mask) | value);
  }
@@ -9146,7 +10014,7 @@ static void
  bfm (sim_cpu *cpu, uint32_t r, uint32_t s)
  {
    unsigned rd;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    uint64_t value = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t mask = 0xffffffffffffffffULL;
  
@@ -9177,7 +10045,8 @@ bfm (sim_cpu *cpu, uint32_t r, uint32_t s)
        mask >>= r - (s + 1);
      }
  
-  rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  rd = INSTR (4, 0);
    aarch64_set_reg_u64
      (cpu, rd, NO_SP, (aarch64_get_reg_u64 (cpu, rd, NO_SP) & ~mask) | value);
  }
@@ -9197,11 +10066,11 @@ dexBitfieldImmediate (sim_cpu *cpu)
    /* 32 bit operations must have N = 0 or else we have an UNALLOC.  */
    uint32_t dispatch;
    uint32_t imms;
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  uint32_t N = uimm (aarch64_get_instr (cpu), 22, 22);
+  uint32_t size = INSTR (31, 31);
+  uint32_t N = INSTR (22, 22);
    /* 32 bit operations must have immr[5] = 0 and imms[5] = 0.  */
    /* or else we have an UNALLOC.  */
-  uint32_t immr = uimm (aarch64_get_instr (cpu), 21, 16);
+  uint32_t immr = INSTR (21, 16);
  
    if (~size & N)
      HALT_UNALLOC;
@@ -9209,12 +10078,12 @@ dexBitfieldImmediate (sim_cpu *cpu)
    if (!size && uimm (immr, 5, 5))
      HALT_UNALLOC;
  
-  imms = uimm (aarch64_get_instr (cpu), 15, 10);
+  imms = INSTR (15, 10);
    if (!size && uimm (imms, 5, 5))
      HALT_UNALLOC;
  
    /* Switch on combined size and op.  */
-  dispatch = uimm (aarch64_get_instr (cpu), 31, 29);
+  dispatch = INSTR (31, 29);
    switch (dispatch)
      {
      case 0: sbfm32 (cpu, immr, imms); return;
@@ -9235,10 +10104,10 @@ do_EXTR_32 (sim_cpu *cpu)
       instr[15,10] = imms :  0xxxxx for 32 bit
       instr[9,5]   = Rn
       instr[4,0]   = Rd  */
-  unsigned rm   = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned imms = uimm (aarch64_get_instr (cpu), 15, 10) & 31;
-  unsigned rn   = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned rd   = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned rm   = INSTR (20, 16);
+  unsigned imms = INSTR (15, 10) & 31;
+  unsigned rn   = INSTR ( 9,  5);
+  unsigned rd   = INSTR ( 4,  0);
    uint64_t val1;
    uint64_t val2;
  
@@ -9247,6 +10116,7 @@ do_EXTR_32 (sim_cpu *cpu)
    val2 = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    val2 <<= (32 - imms);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP, val1 | val2);
  }
  
@@ -9258,10 +10128,10 @@ do_EXTR_64 (sim_cpu *cpu)
       instr[15,10] = imms
       instr[9,5]   = Rn
       instr[4,0]   = Rd  */
-  unsigned rm   = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned imms = uimm (aarch64_get_instr (cpu), 15, 10) & 63;
-  unsigned rn   = uimm (aarch64_get_instr (cpu),  9,  5);
-  unsigned rd   = uimm (aarch64_get_instr (cpu),  4,  0);
+  unsigned rm   = INSTR (20, 16);
+  unsigned imms = INSTR (15, 10) & 63;
+  unsigned rn   = INSTR ( 9,  5);
+  unsigned rd   = INSTR ( 4,  0);
    uint64_t val;
  
    val = aarch64_get_reg_u64 (cpu, rm, NO_SP);
@@ -9287,11 +10157,11 @@ dexExtractImmediate (sim_cpu *cpu)
    /* 32 bit operations must have N = 0 or else we have an UNALLOC.  */
    /* 64 bit operations must have N = 1 or else we have an UNALLOC.  */
    uint32_t dispatch;
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  uint32_t N = uimm (aarch64_get_instr (cpu), 22, 22);
+  uint32_t size = INSTR (31, 31);
+  uint32_t N = INSTR (22, 22);
    /* 32 bit operations must have imms[5] = 0
       or else we have an UNALLOC.  */
-  uint32_t imms = uimm (aarch64_get_instr (cpu), 15, 10);
+  uint32_t imms = INSTR (15, 10);
  
    if (size ^ N)
      HALT_UNALLOC;
@@ -9300,7 +10170,7 @@ dexExtractImmediate (sim_cpu *cpu)
      HALT_UNALLOC;
  
    /* Switch on combined size and op.  */
-  dispatch = uimm (aarch64_get_instr (cpu), 31, 29);
+  dispatch = INSTR (31, 29);
  
    if (dispatch == 0)
      do_EXTR_32 (cpu);
@@ -9367,10 +10237,9 @@ dexLoadUnscaledImmediate (sim_cpu *cpu)
       instr[23,22] = opc
       instr[20,12] = simm9
       instr[9,5] = rn may be SP.  */
-  /* unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);  */
-  uint32_t V = uimm (aarch64_get_instr (cpu), 26, 26);
-  uint32_t dispatch = ( (uimm (aarch64_get_instr (cpu), 31, 30) << 2)
-                       | uimm (aarch64_get_instr (cpu), 23, 22));
+  /* unsigned rt = INSTR (4, 0);  */
+  uint32_t V = INSTR (26, 26);
+  uint32_t dispatch = ((INSTR (31, 30) << 2) | INSTR (23, 22));
    int32_t imm = simm32 (aarch64_get_instr (cpu), 20, 12);
  
    if (!V)
@@ -9444,8 +10313,8 @@ dexLoadUnscaledImmediate (sim_cpu *cpu)
  static void
  ldrsb32_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int rt = INSTR (4, 0);
  
    /* The target register may not be SP but the source may be
       there is no scaling required for a byte load.  */
@@ -9459,9 +10328,9 @@ ldrsb32_abs (sim_cpu *cpu, uint32_t offset)
  static void
  ldrsb32_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned int rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rm = INSTR (20, 16);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int rt = INSTR (4, 0);
  
    /* rn may reference SP, rm and rt must reference ZR.  */
  
@@ -9481,8 +10350,8 @@ static void
  ldrsb32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
    uint64_t address;
-  unsigned int rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned int rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned int rn = INSTR (9, 5);
+  unsigned int rt = INSTR (4, 0);
  
    if (rn == rt && wb != NoWriteBack)
      HALT_UNALLOC;
@@ -9506,8 +10375,8 @@ ldrsb32_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  fstrb_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned st = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
  
    aarch64_set_mem_u8 (cpu,
                       aarch64_get_reg_u64 (cpu, rn, SP_OK) + offset,
@@ -9519,14 +10388,14 @@ fstrb_abs (sim_cpu *cpu, uint32_t offset)
  static void
  fstrb_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t  address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t   extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                extension);
-  uint64_t  displacement = OPT_SCALE (extended, 32, scaling);
+  uint64_t  displacement = scaling == Scaled ? extended : 0;
  
    aarch64_set_mem_u8
      (cpu, address + displacement, aarch64_get_vec_u8 (cpu, st, 0));
@@ -9536,8 +10405,8 @@ fstrb_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  fstrh_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned st = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
  
    aarch64_set_mem_u16
      (cpu,
@@ -9550,14 +10419,14 @@ fstrh_abs (sim_cpu *cpu, uint32_t offset)
  static void
  fstrh_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t  address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t   extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
                                extension);
-  uint64_t  displacement = OPT_SCALE (extended, 32, scaling);
+  uint64_t  displacement = OPT_SCALE (extended, 16, scaling);
  
    aarch64_set_mem_u16
      (cpu, address + displacement, aarch64_get_vec_u16 (cpu, st, 0));
@@ -9567,8 +10436,8 @@ fstrh_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  fstrs_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned st = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
  
    aarch64_set_mem_u32
      (cpu,
@@ -9580,8 +10449,8 @@ fstrs_abs (sim_cpu *cpu, uint32_t offset)
  static void
  fstrs_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
@@ -9602,9 +10471,9 @@ fstrs_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  fstrs_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t  address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t   extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
@@ -9619,8 +10488,8 @@ fstrs_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  fstrd_abs (sim_cpu *cpu, uint32_t offset)
  {
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned st = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
  
    aarch64_set_mem_u64
      (cpu,
@@ -9632,8 +10501,8 @@ fstrd_abs (sim_cpu *cpu, uint32_t offset)
  static void
  fstrd_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
@@ -9654,9 +10523,9 @@ fstrd_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  fstrd_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t  address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t   extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
@@ -9672,8 +10541,8 @@ static void
  fstrq_abs (sim_cpu *cpu, uint32_t offset)
  {
    FRegister a;
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned st = INSTR (4, 0);
+  unsigned rn = INSTR (9, 5);
    uint64_t addr;
  
    aarch64_get_FP_long_double (cpu, st, & a);
@@ -9687,8 +10556,8 @@ static void
  fstrq_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
    FRegister a;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
  
    if (wb != Post)
@@ -9709,9 +10578,9 @@ fstrq_wb (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  fstrq_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned st = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned st = INSTR (4, 0);
  
    uint64_t  address = aarch64_get_reg_u64 (cpu, rn, SP_OK);
    int64_t   extended = extend (aarch64_get_reg_u32 (cpu, rm, NO_SP),
@@ -9727,21 +10596,22 @@ fstrq_scale_ext (sim_cpu *cpu, Scaling scaling, Extension extension)
  static void
  dexLoadImmediatePrePost (sim_cpu *cpu)
  {
-  /* instr[29,24] == 111_00
-     instr[21] == 0
-     instr[11,10] == 00
-     instr[31,30] = size
-     instr[26] = V
+  /* instr[31,30] = size
+     instr[29,27] = 111
+     instr[26]    = V
+     instr[25,24] = 00
       instr[23,22] = opc
+     instr[21]    = 0
       instr[20,12] = simm9
-     instr[11] = wb : 0 ==> Post, 1 ==> Pre
-     instr[9,5] = rn may be SP.  */
-  /* unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0); */
-  uint32_t V = uimm (aarch64_get_instr (cpu), 26, 26);
-  uint32_t dispatch = ( (uimm (aarch64_get_instr (cpu), 31, 30) << 2)
-                      | uimm (aarch64_get_instr (cpu), 23, 22));
-  int32_t imm = simm32 (aarch64_get_instr (cpu), 20, 12);
-  WriteBack wb = writeback (aarch64_get_instr (cpu), 11);
+     instr[11]    = wb : 0 ==> Post, 1 ==> Pre
+     instr[10]    = 0
+     instr[9,5]   = Rn may be SP.
+     instr[4,0]   = Rt */
+
+  uint32_t  V        = INSTR (26, 26);
+  uint32_t  dispatch = ((INSTR (31, 30) << 2) | INSTR (23, 22));
+  int32_t   imm      = simm32 (aarch64_get_instr (cpu), 20, 12);
+  WriteBack wb       = INSTR (11, 11);
  
    if (!V)
      {
@@ -9815,11 +10685,10 @@ dexLoadRegisterOffset (sim_cpu *cpu)
       instr[9,5]   = rn
       instr[4,0]   = rt.  */
  
-  uint32_t V = uimm (aarch64_get_instr (cpu), 26,26);
-  uint32_t dispatch = ( (uimm (aarch64_get_instr (cpu), 31, 30) << 2)
-                      | uimm (aarch64_get_instr (cpu), 23, 22));
-  Scaling scale = scaling (aarch64_get_instr (cpu), 12);
-  Extension extensionType = extension (aarch64_get_instr (cpu), 13);
+  uint32_t  V = INSTR (26, 26);
+  uint32_t  dispatch = ((INSTR (31, 30) << 2) | INSTR (23, 22));
+  Scaling   scale = INSTR (12, 12);
+  Extension extensionType = INSTR (15, 13);
  
    /* Check for illegal extension types.  */
    if (uimm (extensionType, 1, 1) == 0)
@@ -9886,17 +10755,17 @@ dexLoadRegisterOffset (sim_cpu *cpu)
  static void
  dexLoadUnsignedImmediate (sim_cpu *cpu)
  {
-  /* assert instr[29,24] == 111_01
+  /* instr[29,24] == 111_01
       instr[31,30] = size
-     instr[26] = V
+     instr[26]    = V
       instr[23,22] = opc
       instr[21,10] = uimm12 : unsigned immediate offset
-     instr[9,5] = rn may be SP.  */
-  /* unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0); */
-  uint32_t V = uimm (aarch64_get_instr (cpu), 26,26);
-  uint32_t dispatch = ( (uimm (aarch64_get_instr (cpu), 31, 30) << 2)
-                      | uimm (aarch64_get_instr (cpu), 23, 22));
-  uint32_t imm = uimm (aarch64_get_instr (cpu), 21, 10);
+     instr[9,5]   = rn may be SP.
+     instr[4,0]   = rt.  */
+
+  uint32_t V = INSTR (26,26);
+  uint32_t dispatch = ((INSTR (31, 30) << 2) | INSTR (23, 22));
+  uint32_t imm = INSTR (21, 10);
  
    if (!V)
      {
@@ -9928,19 +10797,17 @@ dexLoadUnsignedImmediate (sim_cpu *cpu)
    /* FReg operations.  */
    switch (dispatch)
      {
-    case 3:  fldrq_abs (cpu, imm); return;
-    case 9:  fldrs_abs (cpu, imm); return;
-    case 13: fldrd_abs (cpu, imm); return;
-
      case 0:  fstrb_abs (cpu, imm); return;
-    case 2:  fstrq_abs (cpu, imm); return;
      case 4:  fstrh_abs (cpu, imm); return;
      case 8:  fstrs_abs (cpu, imm); return;
      case 12: fstrd_abs (cpu, imm); return;
+    case 2:  fstrq_abs (cpu, imm); return;
  
-    case 1: /* LDR 8 bit FP.  */
-    case 5: /* LDR 8 bit FP.  */
-      HALT_NYI;
+    case 1:  fldrb_abs (cpu, imm); return;
+    case 5:  fldrh_abs (cpu, imm); return;
+    case 9:  fldrs_abs (cpu, imm); return;
+    case 13: fldrd_abs (cpu, imm); return;
+    case 3:  fldrq_abs (cpu, imm); return;
  
      default:
      case 6:
@@ -9967,7 +10834,7 @@ dexLoadExclusive (sim_cpu *cpu)
       instr[9,5] = Rn
       instr[4.0] = Rt.  */
  
-  switch (uimm (aarch64_get_instr (cpu), 22, 21))
+  switch (INSTR (22, 21))
      {
      case 2:   ldxr (cpu); return;
      case 0:   stxr (cpu); return;
@@ -9983,14 +10850,13 @@ dexLoadOther (sim_cpu *cpu)
    /* instr[29,25] = 111_0
       instr[24] == 0 ==> dispatch, 1 ==> ldst reg unsigned immediate
       instr[21:11,10] is the secondary dispatch.  */
-  if (uimm (aarch64_get_instr (cpu), 24, 24))
+  if (INSTR (24, 24))
      {
        dexLoadUnsignedImmediate (cpu);
        return;
      }
  
-  dispatch = ( (uimm (aarch64_get_instr (cpu), 21, 21) << 2)
-             | uimm (aarch64_get_instr (cpu), 11, 10));
+  dispatch = ((INSTR (21, 21) << 2) | INSTR (11, 10));
    switch (dispatch)
      {
      case 0: dexLoadUnscaledImmediate (cpu); return;
@@ -10010,9 +10876,9 @@ dexLoadOther (sim_cpu *cpu)
  static void
  store_pair_u32 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    if ((rn == rd || rm == rd) && wb != NoWriteBack)
@@ -10038,9 +10904,9 @@ store_pair_u32 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  store_pair_u64 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    if ((rn == rd || rm == rd) && wb != NoWriteBack)
@@ -10052,9 +10918,9 @@ store_pair_u64 (sim_cpu *cpu, int32_t offset, WriteBack wb)
      address += offset;
  
    aarch64_set_mem_u64 (cpu, address,
-                      aarch64_get_reg_u64 (cpu, rm, SP_OK));
+                      aarch64_get_reg_u64 (cpu, rm, NO_SP));
    aarch64_set_mem_u64 (cpu, address + 8,
-                      aarch64_get_reg_u64 (cpu, rn, SP_OK));
+                      aarch64_get_reg_u64 (cpu, rn, NO_SP));
  
    if (wb == Post)
      address += offset;
@@ -10066,12 +10932,12 @@ store_pair_u64 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  load_pair_u32 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
-  /* treat this as unalloc to make sure we don't do it.  */
+  /* Treat this as unalloc to make sure we don't do it.  */
    if (rn == rm)
      HALT_UNALLOC;
  
@@ -10093,9 +10959,9 @@ load_pair_u32 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  load_pair_s32 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    /* Treat this as unalloc to make sure we don't do it.  */
@@ -10120,9 +10986,9 @@ load_pair_s32 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  load_pair_u64 (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    /* Treat this as unalloc to make sure we don't do it.  */
@@ -10157,8 +11023,7 @@ dex_load_store_pair_gr (sim_cpu *cpu)
       instr[ 9, 5] = Rd
       instr[ 4, 0] = Rm.  */
  
-  uint32_t dispatch = ((uimm (aarch64_get_instr (cpu), 31, 30) << 3)
-                       | uimm (aarch64_get_instr (cpu), 24, 22));
+  uint32_t dispatch = ((INSTR (31, 30) << 3) | INSTR (24, 22));
    int32_t offset = simm32 (aarch64_get_instr (cpu), 21, 15);
  
    switch (dispatch)
@@ -10189,9 +11054,9 @@ dex_load_store_pair_gr (sim_cpu *cpu)
  static void
  store_pair_float (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    offset <<= 2;
@@ -10212,9 +11077,9 @@ store_pair_float (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  store_pair_double (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    offset <<= 3;
@@ -10236,9 +11101,9 @@ static void
  store_pair_long_double (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
    FRegister a;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    offset <<= 4;
@@ -10261,9 +11126,9 @@ store_pair_long_double (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  load_pair_float (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    if (rm == rn)
@@ -10287,9 +11152,9 @@ load_pair_float (sim_cpu *cpu, int32_t offset, WriteBack wb)
  static void
  load_pair_double (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    if (rm == rn)
@@ -10314,9 +11179,9 @@ static void
  load_pair_long_double (sim_cpu *cpu, int32_t offset, WriteBack wb)
  {
    FRegister a;
-  unsigned rn = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rm = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (14, 10);
+  unsigned rd = INSTR (9, 5);
+  unsigned rm = INSTR (4, 0);
    uint64_t address = aarch64_get_reg_u64 (cpu, rd, SP_OK);
  
    if (rm == rn)
@@ -10351,8 +11216,7 @@ dex_load_store_pair_fp (sim_cpu *cpu)
       instr[ 9, 5] = Rd
       instr[ 4, 0] = Rm  */
  
-  uint32_t dispatch = ((uimm (aarch64_get_instr (cpu), 31, 30) << 3)
-                       | uimm (aarch64_get_instr (cpu), 24, 22));
+  uint32_t dispatch = ((INSTR (31, 30) << 3) | INSTR (24, 22));
    int32_t offset = simm32 (aarch64_get_instr (cpu), 21, 15);
  
    switch (dispatch)
@@ -10393,9 +11257,9 @@ vec_reg (unsigned v, unsigned o)
  static void
  vec_load (sim_cpu *cpu, uint64_t address, unsigned N)
  {
-  int      all  = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned size = uimm (aarch64_get_instr (cpu), 11, 10);
-  unsigned vd   = uimm (aarch64_get_instr (cpu), 4, 0);
+  int      all  = INSTR (30, 30);
+  unsigned size = INSTR (11, 10);
+  unsigned vd   = INSTR (4, 0);
    unsigned i;
  
    switch (size)
@@ -10443,9 +11307,6 @@ vec_load (sim_cpu *cpu, uint64_t address, unsigned N)
           aarch64_set_vec_u64 (cpu, vec_reg (vd, i), 0,
                                aarch64_get_mem_u64 (cpu, address + i * 8));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -10474,9 +11335,9 @@ LD2 (sim_cpu *cpu, uint64_t address)
  static void
  LD1_1 (sim_cpu *cpu, uint64_t address)
  {
-  int      all  = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned size = uimm (aarch64_get_instr (cpu), 11, 10);
-  unsigned vd   = uimm (aarch64_get_instr (cpu), 4, 0);
+  int      all  = INSTR (30, 30);
+  unsigned size = INSTR (11, 10);
+  unsigned vd   = INSTR (4, 0);
    unsigned i;
  
    switch (size)
@@ -10512,9 +11373,6 @@ LD1_1 (sim_cpu *cpu, uint64_t address)
         aarch64_set_vec_u64 (cpu, vd, i,
                              aarch64_get_mem_u64 (cpu, address + i * 8));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -10552,9 +11410,9 @@ LD1_4 (sim_cpu *cpu, uint64_t address)
  static void
  vec_store (sim_cpu *cpu, uint64_t address, unsigned N)
  {
-  int      all  = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned size = uimm (aarch64_get_instr (cpu), 11, 10);
-  unsigned vd   = uimm (aarch64_get_instr (cpu), 4, 0);
+  int      all  = INSTR (30, 30);
+  unsigned size = INSTR (11, 10);
+  unsigned vd   = INSTR (4, 0);
    unsigned i;
  
    switch (size)
@@ -10610,9 +11468,6 @@ vec_store (sim_cpu *cpu, uint64_t address, unsigned N)
             (cpu, address + i * 8,
              aarch64_get_vec_u64 (cpu, vec_reg (vd, i), 0));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -10641,9 +11496,9 @@ ST2 (sim_cpu *cpu, uint64_t address)
  static void
  ST1_1 (sim_cpu *cpu, uint64_t address)
  {
-  int      all  = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned size = uimm (aarch64_get_instr (cpu), 11, 10);
-  unsigned vd   = uimm (aarch64_get_instr (cpu), 4, 0);
+  int      all  = INSTR (30, 30);
+  unsigned size = INSTR (11, 10);
+  unsigned vd   = INSTR (4, 0);
    unsigned i;
  
    switch (size)
@@ -10671,9 +11526,6 @@ ST1_1 (sim_cpu *cpu, uint64_t address)
         aarch64_set_mem_u64 (cpu, address + i * 8,
                              aarch64_get_vec_u64 (cpu, vd, i));
        return;
-
-    default:
-      HALT_UNREACHABLE;
      }
  }
  
@@ -10726,9 +11578,9 @@ do_vec_LDnR (sim_cpu *cpu, uint64_t address)
       instr[9,5]   = address
       instr[4,0]   = Vd  */
  
-  unsigned full = uimm (aarch64_get_instr (cpu), 30, 30);
-  unsigned vd = uimm (aarch64_get_instr (cpu), 4, 0);
-  unsigned size = uimm (aarch64_get_instr (cpu), 11, 10);
+  unsigned full = INSTR (30, 30);
+  unsigned vd = INSTR (4, 0);
+  unsigned size = INSTR (11, 10);
    int i;
  
    NYI_assert (29, 24, 0x0D);
@@ -10736,8 +11588,7 @@ do_vec_LDnR (sim_cpu *cpu, uint64_t address)
    NYI_assert (15, 14, 3);
    NYI_assert (12, 12, 0);
  
-  switch ((uimm (aarch64_get_instr (cpu), 13, 13) << 1)
-         | uimm (aarch64_get_instr (cpu), 21, 21))
+  switch ((INSTR (13, 13) << 1) | INSTR (21, 21))
      {
      case 0: /* LD1R.  */
        switch (size)
@@ -11030,22 +11881,21 @@ do_vec_load_store (sim_cpu *cpu)
    uint64_t address;
    int type;
  
-  if (uimm (aarch64_get_instr (cpu), 31, 31) != 0
-      || uimm (aarch64_get_instr (cpu), 29, 25) != 0x06)
+  if (INSTR (31, 31) != 0 || INSTR (29, 25) != 0x06)
      HALT_NYI;
  
-  type = uimm (aarch64_get_instr (cpu), 15, 12);
-  if (type != 0xE && type != 0xE && uimm (aarch64_get_instr (cpu), 21, 21) != 0)
+  type = INSTR (15, 12);
+  if (type != 0xE && type != 0xE && INSTR (21, 21) != 0)
      HALT_NYI;
  
-  post = uimm (aarch64_get_instr (cpu), 23, 23);
-  load = uimm (aarch64_get_instr (cpu), 22, 22);
-  vn = uimm (aarch64_get_instr (cpu), 9, 5);
+  post = INSTR (23, 23);
+  load = INSTR (22, 22);
+  vn = INSTR (9, 5);
    address = aarch64_get_reg_u64 (cpu, vn, SP_OK);
  
    if (post)
      {
-      unsigned vm = uimm (aarch64_get_instr (cpu), 20, 16);
+      unsigned vm = INSTR (20, 16);
  
        if (vm == R31)
         {
@@ -11058,20 +11908,20 @@ do_vec_load_store (sim_cpu *cpu)
             case 8: sizeof_operation = 16; break;
  
             case 0xC:
-             sizeof_operation = uimm (aarch64_get_instr (cpu), 21, 21) ? 2 : 1;
-             sizeof_operation <<= uimm (aarch64_get_instr (cpu), 11, 10);
+             sizeof_operation = INSTR (21, 21) ? 2 : 1;
+             sizeof_operation <<= INSTR (11, 10);
               break;
  
             case 0xE:
-             sizeof_operation = uimm (aarch64_get_instr (cpu), 21, 21) ? 8 : 4;
-             sizeof_operation <<= uimm (aarch64_get_instr (cpu), 11, 10);
+             sizeof_operation = INSTR (21, 21) ? 8 : 4;
+             sizeof_operation <<= INSTR (11, 10);
               break;
  
             case 7:
               /* One register, immediate offset variant.  */
               sizeof_operation = 8;
               break;
-             
+
             case 10:
               /* Two registers, immediate offset variant.  */
               sizeof_operation = 16;
@@ -11091,7 +11941,7 @@ do_vec_load_store (sim_cpu *cpu)
               HALT_UNALLOC;
             }
  
-         if (uimm (aarch64_get_instr (cpu), 30, 30))
+         if (INSTR (30, 30))
             sizeof_operation *= 2;
  
           aarch64_set_reg_u64 (cpu, vn, SP_OK, address + sizeof_operation);
@@ -11182,36 +12032,27 @@ dexLdSt (sim_cpu *cpu)
  static void
  dexLogicalShiftedRegister (sim_cpu *cpu)
  {
-  /* assert instr[28:24] = 01010
-     instr[31] = size : 0 ==> 32 bit, 1 ==> 64 bit
-     instr[30,29:21] = op,N : 000 ==> AND, 001 ==> BIC,
-                               010 ==> ORR, 011 ==> ORN
-                               100 ==> EOR, 101 ==> EON,
-                               110 ==> ANDS, 111 ==> BICS
+  /* instr[31]    = size : 0 ==> 32 bit, 1 ==> 64 bit
+     instr[30,29] = op
+     instr[28:24] = 01010
       instr[23,22] = shift : 0 ==> LSL, 1 ==> LSR, 2 ==> ASR, 3 ==> ROR
+     instr[21]    = N
+     instr[20,16] = Rm
       instr[15,10] = count : must be 0xxxxx for 32 bit
-     instr[9,5] = Rn
-     instr[4,0] = Rd  */
-
-  /* unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16); */
-  uint32_t dispatch;
-  Shift shiftType;
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
+     instr[9,5]   = Rn
+     instr[4,0]   = Rd  */
  
-  /* 32 bit operations must have count[5] = 0.  */
-  /* or else we have an UNALLOC.  */
-  uint32_t count = uimm (aarch64_get_instr (cpu), 15, 10);
+  uint32_t size      = INSTR (31, 31);
+  Shift    shiftType = INSTR (23, 22);
+  uint32_t count     = INSTR (15, 10);
  
-  if (!size && uimm (count, 5, 5))
+  /* 32 bit operations must have count[5] = 0.
+     or else we have an UNALLOC.  */
+  if (size == 0 && uimm (count, 5, 5))
      HALT_UNALLOC;
  
-  shiftType = shift (aarch64_get_instr (cpu), 22);
-
-  /* dispatch on size:op:N i.e aarch64_get_instr (cpu)[31,29:21].  */
-  dispatch = ( (uimm (aarch64_get_instr (cpu), 31, 29) << 1)
-             | uimm (aarch64_get_instr (cpu), 21, 21));
-
-  switch (dispatch)
+  /* Dispatch on size:op:N.  */
+  switch ((INSTR (31, 29) << 1) | INSTR (21, 21))
      {
      case 0: and32_shift  (cpu, shiftType, count); return;
      case 1: bic32_shift  (cpu, shiftType, count); return;
@@ -11229,7 +12070,6 @@ dexLogicalShiftedRegister (sim_cpu *cpu)
      case 13:eon64_shift  (cpu, shiftType, count); return;
      case 14:ands64_shift (cpu, shiftType, count); return;
      case 15:bics64_shift (cpu, shiftType, count); return;
-    default: HALT_UNALLOC;
      }
  }
  
@@ -11237,9 +12077,9 @@ dexLogicalShiftedRegister (sim_cpu *cpu)
  static void
  csel32 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11251,9 +12091,9 @@ csel32 (sim_cpu *cpu, CondCode cc)
  static void
  csel64 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11265,9 +12105,9 @@ csel64 (sim_cpu *cpu, CondCode cc)
  static void
  csinc32 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11279,9 +12119,9 @@ csinc32 (sim_cpu *cpu, CondCode cc)
  static void
  csinc64 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11293,9 +12133,9 @@ csinc64 (sim_cpu *cpu, CondCode cc)
  static void
  csinv32 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11307,9 +12147,9 @@ csinv32 (sim_cpu *cpu, CondCode cc)
  static void
  csinv64 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11321,9 +12161,9 @@ csinv64 (sim_cpu *cpu, CondCode cc)
  static void
  csneg32 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11335,9 +12175,9 @@ csneg32 (sim_cpu *cpu, CondCode cc)
  static void
  csneg64 (sim_cpu *cpu, CondCode cc)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        testConditionCode (cpu, cc)
@@ -11348,8 +12188,8 @@ csneg64 (sim_cpu *cpu, CondCode cc)
  static void
  dexCondSelect (sim_cpu *cpu)
  {
-  /* assert instr[28,21] = 11011011
-     instr[31] = size : 0 ==> 32 bit, 1 ==> 64 bit
+  /* instr[28,21] = 11011011
+     instr[31]    = size : 0 ==> 32 bit, 1 ==> 64 bit
       instr[30:11,10] = op : 000 ==> CSEL, 001 ==> CSINC,
                              100 ==> CSINV, 101 ==> CSNEG,
                              _1_ ==> UNALLOC
@@ -11357,10 +12197,9 @@ dexCondSelect (sim_cpu *cpu)
       instr[15,12] = cond
       instr[29] = S : 0 ==> ok, 1 ==> UNALLOC  */
  
-  CondCode cc;
-  uint32_t dispatch;
-  uint32_t S = uimm (aarch64_get_instr (cpu), 29, 29);
-  uint32_t op2 = uimm (aarch64_get_instr (cpu), 11, 10);
+  CondCode cc = INSTR (15, 12);
+  uint32_t S = INSTR (29, 29);
+  uint32_t op2 = INSTR (11, 10);
  
    if (S == 1)
      HALT_UNALLOC;
@@ -11368,10 +12207,7 @@ dexCondSelect (sim_cpu *cpu)
    if (op2 & 0x2)
      HALT_UNALLOC;
  
-  cc = condcode (aarch64_get_instr (cpu), 12);
-  dispatch = ((uimm (aarch64_get_instr (cpu), 31, 30) << 1) | op2);
-
-  switch (dispatch)
+  switch ((INSTR (31, 30) << 1) | op2)
      {
      case 0: csel32  (cpu, cc); return;
      case 1: csinc32 (cpu, cc); return;
@@ -11381,7 +12217,6 @@ dexCondSelect (sim_cpu *cpu)
      case 5: csinc64 (cpu, cc); return;
      case 6: csinv64 (cpu, cc); return;
      case 7: csneg64 (cpu, cc); return;
-    default: HALT_UNALLOC;
      }
  }
  
@@ -11482,8 +12317,8 @@ leading64 (uint64_t value)
  static void
  cls32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* N.B. the result needs to exclude the leading bit.  */
    aarch64_set_reg_u64
@@ -11494,8 +12329,8 @@ cls32 (sim_cpu *cpu)
  static void
  cls64 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* N.B. the result needs to exclude the leading bit.  */
    aarch64_set_reg_u64
@@ -11506,8 +12341,8 @@ cls64 (sim_cpu *cpu)
  static void
  clz32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint32_t value = aarch64_get_reg_u32 (cpu, rn, NO_SP);
  
    /* if the sign (top) bit is set then the count is 0.  */
@@ -11521,8 +12356,8 @@ clz32 (sim_cpu *cpu)
  static void
  clz64 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint64_t value = aarch64_get_reg_u64 (cpu, rn, NO_SP);
  
    /* if the sign (top) bit is set then the count is 0.  */
@@ -11536,8 +12371,8 @@ clz64 (sim_cpu *cpu)
  static void
  rbit32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint32_t value = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t result = 0;
    int i;
@@ -11555,8 +12390,8 @@ rbit32 (sim_cpu *cpu)
  static void
  rbit64 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint64_t value = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t result = 0;
    int i;
@@ -11574,8 +12409,8 @@ rbit64 (sim_cpu *cpu)
  static void
  rev32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint32_t value = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t result = 0;
    int i;
@@ -11593,8 +12428,8 @@ rev32 (sim_cpu *cpu)
  static void
  rev64 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint64_t value = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t result = 0;
    int i;
@@ -11613,8 +12448,8 @@ rev64 (sim_cpu *cpu)
  static void
  revh32 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint32_t value = aarch64_get_reg_u32 (cpu, rn, NO_SP);
    uint32_t result = 0;
    int i;
@@ -11633,8 +12468,8 @@ revh32 (sim_cpu *cpu)
  static void
  revh64 (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    uint64_t value = aarch64_get_reg_u64 (cpu, rn, NO_SP);
    uint64_t result = 0;
    int i;
@@ -11651,22 +12486,22 @@ revh64 (sim_cpu *cpu)
  static void
  dexDataProc1Source (sim_cpu *cpu)
  {
-  /* assert instr[30] == 1
-     aarch64_get_instr (cpu)[28,21] == 111010110
-     instr[31] = size : 0 ==> 32 bit, 1 ==> 64 bit
-     instr[29] = S : 0 ==> ok, 1 ==> UNALLOC
+  /* instr[30]    = 1
+     instr[28,21] = 111010110
+     instr[31]    = size : 0 ==> 32 bit, 1 ==> 64 bit
+     instr[29]    = S : 0 ==> ok, 1 ==> UNALLOC
       instr[20,16] = opcode2 : 00000 ==> ok, ow ==> UNALLOC
       instr[15,10] = opcode : 000000 ==> RBIT, 000001 ==> REV16,
                               000010 ==> REV, 000011 ==> UNALLOC
                               000100 ==> CLZ, 000101 ==> CLS
                               ow ==> UNALLOC
-     instr[9,5] = rn : may not be SP
-     instr[4,0] = rd : may not be SP.  */
+     instr[9,5]   = rn : may not be SP
+     instr[4,0]   = rd : may not be SP.  */
  
-  uint32_t S = uimm (aarch64_get_instr (cpu), 29, 29);
-  uint32_t opcode2 = uimm (aarch64_get_instr (cpu), 20, 16);
-  uint32_t opcode = uimm (aarch64_get_instr (cpu), 15, 10);
-  uint32_t dispatch = ((uimm (aarch64_get_instr (cpu), 31, 31) << 3) | opcode);
+  uint32_t S = INSTR (29, 29);
+  uint32_t opcode2 = INSTR (20, 16);
+  uint32_t opcode = INSTR (15, 10);
+  uint32_t dispatch = ((INSTR (31, 31) << 3) | opcode);
  
    if (S == 1)
      HALT_UNALLOC;
@@ -11706,9 +12541,9 @@ dexDataProc1Source (sim_cpu *cpu)
  static void
  asrv32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11720,9 +12555,9 @@ asrv32 (sim_cpu *cpu)
  static void
  asrv64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11734,9 +12569,9 @@ asrv64 (sim_cpu *cpu)
  static void
  lslv32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11748,9 +12583,9 @@ lslv32 (sim_cpu *cpu)
  static void
  lslv64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11762,9 +12597,9 @@ lslv64 (sim_cpu *cpu)
  static void
  lsrv32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11776,9 +12611,9 @@ lsrv32 (sim_cpu *cpu)
  static void
  lsrv64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11790,9 +12625,9 @@ lsrv64 (sim_cpu *cpu)
  static void
  rorv32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11804,9 +12639,9 @@ rorv32 (sim_cpu *cpu)
  static void
  rorv64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    aarch64_set_reg_u64
      (cpu, rd, NO_SP,
@@ -11821,9 +12656,9 @@ rorv64 (sim_cpu *cpu)
  static void
  cpuiv32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
    /* N.B. the pseudo-code does the divide using 64 bit data.  */
    /* TODO : check that this rounds towards zero as required.  */
    int64_t dividend = aarch64_get_reg_s32 (cpu, rn, NO_SP);
@@ -11837,9 +12672,9 @@ cpuiv32 (sim_cpu *cpu)
  static void
  cpuiv64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* TODO : check that this rounds towards zero as required.  */
    int64_t divisor = aarch64_get_reg_s64 (cpu, rm, NO_SP);
@@ -11853,9 +12688,9 @@ cpuiv64 (sim_cpu *cpu)
  static void
  udiv32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* N.B. the pseudo-code does the divide using 64 bit data.  */
    uint64_t dividend = aarch64_get_reg_u32 (cpu, rn, NO_SP);
@@ -11869,9 +12704,9 @@ udiv32 (sim_cpu *cpu)
  static void
  udiv64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* TODO : check that this rounds towards zero as required.  */
    uint64_t divisor = aarch64_get_reg_u64 (cpu, rm, NO_SP);
@@ -11894,8 +12729,8 @@ dexDataProc2Source (sim_cpu *cpu)
                               ow ==> UNALLOC.  */
  
    uint32_t dispatch;
-  uint32_t S = uimm (aarch64_get_instr (cpu), 29, 29);
-  uint32_t opcode = uimm (aarch64_get_instr (cpu), 15, 10);
+  uint32_t S = INSTR (29, 29);
+  uint32_t opcode = INSTR (15, 10);
  
    if (S == 1)
      HALT_UNALLOC;
@@ -11903,7 +12738,7 @@ dexDataProc2Source (sim_cpu *cpu)
    if (opcode & 0x34)
      HALT_UNALLOC;
  
-  dispatch = (  (uimm (aarch64_get_instr (cpu), 31, 31) << 3)
+  dispatch = (  (INSTR (31, 31) << 3)
               | (uimm (opcode, 3, 3) << 2)
               |  uimm (opcode, 1, 0));
    switch (dispatch)
@@ -11931,11 +12766,12 @@ dexDataProc2Source (sim_cpu *cpu)
  static void
  madd32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u32 (cpu, ra, NO_SP)
                        + aarch64_get_reg_u32 (cpu, rn, NO_SP)
@@ -11946,26 +12782,28 @@ madd32 (sim_cpu *cpu)
  static void
  madd64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u64 (cpu, ra, NO_SP)
-                      + aarch64_get_reg_u64 (cpu, rn, NO_SP)
-                      * aarch64_get_reg_u64 (cpu, rm, NO_SP));
+                      + (aarch64_get_reg_u64 (cpu, rn, NO_SP)
+                         * aarch64_get_reg_u64 (cpu, rm, NO_SP)));
  }
  
  /* 32 bit multiply and sub.  */
  static void
  msub32 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u32 (cpu, ra, NO_SP)
                        - aarch64_get_reg_u32 (cpu, rn, NO_SP)
@@ -11976,11 +12814,12 @@ msub32 (sim_cpu *cpu)
  static void
  msub64 (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        aarch64_get_reg_u64 (cpu, ra, NO_SP)
                        - aarch64_get_reg_u64 (cpu, rn, NO_SP)
@@ -11991,10 +12830,10 @@ msub64 (sim_cpu *cpu)
  static void
  smaddl (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* N.B. we need to multiply the signed 32 bit values in rn, rm to
       obtain a 64 bit product.  */
@@ -12009,10 +12848,10 @@ smaddl (sim_cpu *cpu)
  static void
  smsubl (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
    /* N.B. we need to multiply the signed 32 bit values in rn, rm to
       obtain a 64 bit product.  */
@@ -12065,7 +12904,6 @@ mul64hi (uint64_t value1, uint64_t value2)
    uint64_t value2_hi = highWordToU64 (value2);
  
    /* Cross-multiply and collect results.  */
-
    uint64_t xproductlo = value1_lo * value2_lo;
    uint64_t xproductmid1 = value1_lo * value2_hi;
    uint64_t xproductmid2 = value1_hi * value2_lo;
@@ -12104,16 +12942,16 @@ static void
  smulh (sim_cpu *cpu)
  {
    uint64_t uresult;
-  int64_t result;
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  GReg ra = greg (aarch64_get_instr (cpu), 10);
-  int64_t value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
-  int64_t value2 = aarch64_get_reg_u64 (cpu, rm, NO_SP);
+  int64_t  result;
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  GReg     ra = INSTR (14, 10);
+  int64_t  value1 = aarch64_get_reg_u64 (cpu, rn, NO_SP);
+  int64_t  value2 = aarch64_get_reg_u64 (cpu, rm, NO_SP);
    uint64_t uvalue1;
    uint64_t uvalue2;
-  int64_t signum = 1;
+  int64_t  signum = 1;
  
    if (ra != R31)
      HALT_UNALLOC;
@@ -12140,6 +12978,7 @@ smulh (sim_cpu *cpu)
        uvalue2 = value2;
      }
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    uresult = mul64hi (uvalue1, uvalue2);
    result = uresult;
    result *= signum;
@@ -12152,11 +12991,12 @@ smulh (sim_cpu *cpu)
  static void
  umaddl (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* N.B. we need to multiply the signed 32 bit values in rn, rm to
       obtain a 64 bit product.  */
    aarch64_set_reg_u64
@@ -12170,11 +13010,12 @@ umaddl (sim_cpu *cpu)
  static void
  umsubl (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned ra = uimm (aarch64_get_instr (cpu), 14, 10);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rm = INSTR (20, 16);
+  unsigned ra = INSTR (14, 10);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* N.B. we need to multiply the signed 32 bit values in rn, rm to
       obtain a 64 bit product.  */
    aarch64_set_reg_u64
@@ -12189,14 +13030,15 @@ umsubl (sim_cpu *cpu)
  static void
  umulh (sim_cpu *cpu)
  {
-  unsigned rm = uimm (aarch64_get_instr (cpu), 20, 16);
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
-  unsigned rd = uimm (aarch64_get_instr (cpu), 4, 0);
-  GReg ra = greg (aarch64_get_instr (cpu), 10);
+  unsigned rm = INSTR (20, 16);
+  unsigned rn = INSTR (9, 5);
+  unsigned rd = INSTR (4, 0);
+  GReg     ra = INSTR (14, 10);
  
    if (ra != R31)
      HALT_UNALLOC;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rd, NO_SP,
                        mul64hi (aarch64_get_reg_u64 (cpu, rn, NO_SP),
                                 aarch64_get_reg_u64 (cpu, rm, NO_SP)));
@@ -12218,10 +13060,10 @@ dexDataProc3Source (sim_cpu *cpu)
                                ow ==> UNALLOC.  */
  
    uint32_t dispatch;
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  uint32_t op54 = uimm (aarch64_get_instr (cpu), 30, 29);
-  uint32_t op31 = uimm (aarch64_get_instr (cpu), 23, 21);
-  uint32_t o0 = uimm (aarch64_get_instr (cpu), 15, 15);
+  uint32_t size = INSTR (31, 31);
+  uint32_t op54 = INSTR (30, 29);
+  uint32_t op31 = INSTR (23, 21);
+  uint32_t o0 = INSTR (15, 15);
  
    if (op54 != 0)
      HALT_UNALLOC;
@@ -12350,6 +13192,7 @@ static unsigned stack_depth = 0;
  static void
  bl (sim_cpu *cpu, int32_t offset)
  {
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_save_LR (cpu);
    aarch64_set_next_PC_by_offset (cpu, offset);
  
@@ -12360,7 +13203,8 @@ bl (sim_cpu *cpu, int32_t offset)
                     " %*scall %" PRIx64 " [%s]"
                     " [args: %" PRIx64 " %" PRIx64 " %" PRIx64 "]",
                     stack_depth, " ", aarch64_get_next_PC (cpu),
-                   aarch64_get_func (aarch64_get_next_PC (cpu)),
+                   aarch64_get_func (CPU_STATE (cpu),
+                                     aarch64_get_next_PC (cpu)),
                     aarch64_get_reg_u64 (cpu, 0, NO_SP),
                     aarch64_get_reg_u64 (cpu, 1, NO_SP),
                     aarch64_get_reg_u64 (cpu, 2, NO_SP)
@@ -12375,7 +13219,8 @@ bl (sim_cpu *cpu, int32_t offset)
  static void
  br (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_next_PC (cpu, aarch64_get_reg_u64 (cpu, rn, NO_SP));
  }
  
@@ -12383,8 +13228,9 @@ br (sim_cpu *cpu)
  static void
  blr (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    /* The pseudo code in the spec says we update LR before fetching.
       the value from the rn.  */
    aarch64_save_LR (cpu);
@@ -12397,7 +13243,8 @@ blr (sim_cpu *cpu)
                     " %*scall %" PRIx64 " [%s]"
                     " [args: %" PRIx64 " %" PRIx64 " %" PRIx64 "]",
                     stack_depth, " ", aarch64_get_next_PC (cpu),
-                   aarch64_get_func (aarch64_get_next_PC (cpu)),
+                   aarch64_get_func (CPU_STATE (cpu),
+                                     aarch64_get_next_PC (cpu)),
                     aarch64_get_reg_u64 (cpu, 0, NO_SP),
                     aarch64_get_reg_u64 (cpu, 1, NO_SP),
                     aarch64_get_reg_u64 (cpu, 2, NO_SP)
@@ -12411,9 +13258,10 @@ blr (sim_cpu *cpu)
  static void
  ret (sim_cpu *cpu)
  {
-  unsigned rn = uimm (aarch64_get_instr (cpu), 9, 5);
+  unsigned rn = INSTR (9, 5);
    aarch64_set_next_PC (cpu, aarch64_get_reg_u64 (cpu, rn, NO_SP));
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (TRACE_BRANCH_P (cpu))
      {
        TRACE_BRANCH (cpu,
@@ -12429,6 +13277,7 @@ ret (sim_cpu *cpu)
  static void
  nop (sim_cpu *cpu)
  {
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
  }
  
  /* Data synchronization barrier.  */
@@ -12436,6 +13285,7 @@ nop (sim_cpu *cpu)
  static void
  dsb (sim_cpu *cpu)
  {
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
  }
  
  /* Data memory barrier.  */
@@ -12443,6 +13293,7 @@ dsb (sim_cpu *cpu)
  static void
  dmb (sim_cpu *cpu)
  {
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
  }
  
  /* Instruction synchronization barrier.  */
@@ -12450,6 +13301,7 @@ dmb (sim_cpu *cpu)
  static void
  isb (sim_cpu *cpu)
  {
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
  }
  
  static void
@@ -12459,7 +13311,7 @@ dexBranchImmediate (sim_cpu *cpu)
       instr[31] ==> 0 == B, 1 == BL
       instr[25,0] == imm26 branch offset counted in words.  */
  
-  uint32_t top = uimm (aarch64_get_instr (cpu), 31, 31);
+  uint32_t top = INSTR (31, 31);
    /* We have a 26 byte signed word offset which we need to pass to the
       execute routine as a signed byte offset.  */
    int32_t offset = simm32 (aarch64_get_instr (cpu), 25, 0) << 2;
@@ -12484,7 +13336,8 @@ dexBranchImmediate (sim_cpu *cpu)
  static void
  bcc (sim_cpu *cpu, int32_t offset, CondCode cc)
  {
-  /* the test returns TRUE if CC is met.  */
+  /* The test returns TRUE if CC is met.  */
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (testConditionCode (cpu, cc))
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
@@ -12493,8 +13346,9 @@ bcc (sim_cpu *cpu, int32_t offset, CondCode cc)
  static void
  cbnz32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (aarch64_get_reg_u32 (cpu, rt, NO_SP) != 0)
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
@@ -12503,8 +13357,9 @@ cbnz32 (sim_cpu *cpu, int32_t offset)
  static void
  cbnz (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (aarch64_get_reg_u64 (cpu, rt, NO_SP) != 0)
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
@@ -12513,8 +13368,9 @@ cbnz (sim_cpu *cpu, int32_t offset)
  static void
  cbz32 (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (aarch64_get_reg_u32 (cpu, rt, NO_SP) == 0)
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
@@ -12523,8 +13379,9 @@ cbz32 (sim_cpu *cpu, int32_t offset)
  static void
  cbz (sim_cpu *cpu, int32_t offset)
  {
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rt = INSTR (4, 0);
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (aarch64_get_reg_u64 (cpu, rt, NO_SP) == 0)
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
@@ -12533,19 +13390,21 @@ cbz (sim_cpu *cpu, int32_t offset)
  static void
  tbnz (sim_cpu *cpu, uint32_t  pos, int32_t offset)
  {
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rt = INSTR (4, 0);
  
-  if (aarch64_get_reg_u64 (cpu, rt, NO_SP) & (1 << pos))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (aarch64_get_reg_u64 (cpu, rt, NO_SP) & (((uint64_t) 1) << pos))
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
  
-/* branch on register bit test zero -- one size fits all.  */
+/* Branch on register bit test zero -- one size fits all.  */
  static void
  tbz (sim_cpu *cpu, uint32_t  pos, int32_t offset)
  {
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
+  unsigned rt = INSTR (4, 0);
  
-  if (!(aarch64_get_reg_u64 (cpu, rt, NO_SP) & (1 << pos)))
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  if (!(aarch64_get_reg_u64 (cpu, rt, NO_SP) & (((uint64_t) 1) << pos)))
      aarch64_set_next_PC_by_offset (cpu, offset);
  }
  
@@ -12558,8 +13417,8 @@ dexCompareBranchImmediate (sim_cpu *cpu)
       instr[23,5]  = simm19 branch offset counted in words
       instr[4,0]   = rt  */
  
-  uint32_t size = uimm (aarch64_get_instr (cpu), 31, 31);
-  uint32_t op   = uimm (aarch64_get_instr (cpu), 24, 24);
+  uint32_t size = INSTR (31, 31);
+  uint32_t op   = INSTR (24, 24);
    int32_t offset = simm32 (aarch64_get_instr (cpu), 23, 5) << 2;
  
    if (size == 0)
@@ -12588,13 +13447,12 @@ dexTestBranchImmediate (sim_cpu *cpu)
       instr[18,5]  = simm14 : signed offset counted in words
       instr[4,0]   = uimm5  */
  
-  uint32_t pos = ((uimm (aarch64_get_instr (cpu), 31, 31) << 4)
-                 | uimm (aarch64_get_instr (cpu), 23,19));
+  uint32_t pos = ((INSTR (31, 31) << 5) | INSTR (23, 19));
    int32_t offset = simm32 (aarch64_get_instr (cpu), 18, 5) << 2;
  
    NYI_assert (30, 25, 0x1b);
  
-  if (uimm (aarch64_get_instr (cpu), 24, 24) == 0)
+  if (INSTR (24, 24) == 0)
      tbz (cpu, pos, offset);
    else
      tbnz (cpu, pos, offset);
@@ -12610,9 +13468,7 @@ dexCondBranchImmediate (sim_cpu *cpu)
       instr[3,0]   = cond  */
  
    int32_t offset;
-  CondCode cc;
-  uint32_t op = ((uimm (aarch64_get_instr (cpu), 24, 24) << 1)
-                | uimm (aarch64_get_instr (cpu), 4, 4));
+  uint32_t op = ((INSTR (24, 24) << 1) | INSTR (4, 4));
  
    NYI_assert (31, 25, 0x2a);
  
@@ -12620,9 +13476,8 @@ dexCondBranchImmediate (sim_cpu *cpu)
      HALT_UNALLOC;
  
    offset = simm32 (aarch64_get_instr (cpu), 23, 5) << 2;
-  cc = condcode (aarch64_get_instr (cpu), 0);
  
-  bcc (cpu, offset, cc);
+  bcc (cpu, offset, INSTR (3, 0));
  }
  
  static void
@@ -12634,10 +13489,10 @@ dexBranchRegister (sim_cpu *cpu)
       instr[15,10] = op3 : must be 000000
       instr[4,0]   = op2 : must be 11111.  */
  
-  uint32_t op = uimm (aarch64_get_instr (cpu), 24, 21);
-  uint32_t op2 = uimm (aarch64_get_instr (cpu), 20, 16);
-  uint32_t op3 = uimm (aarch64_get_instr (cpu), 15, 10);
-  uint32_t op4 = uimm (aarch64_get_instr (cpu), 4, 0);
+  uint32_t op = INSTR (24, 21);
+  uint32_t op2 = INSTR (20, 16);
+  uint32_t op3 = INSTR (15, 10);
+  uint32_t op4 = INSTR (4, 0);
  
    NYI_assert (31, 25, 0x6b);
  
@@ -12655,9 +13510,9 @@ dexBranchRegister (sim_cpu *cpu)
  
    else
      {
-      /* ERET and DRPS accept 0b11111 for rn = aarch64_get_instr (cpu)[4,0].  */
+      /* ERET and DRPS accept 0b11111 for rn = instr [4,0].  */
        /* anything else is unallocated.  */
-      uint32_t rn = greg (aarch64_get_instr (cpu), 0);
+      uint32_t rn = INSTR (4, 0);
  
        if (rn != 0x1f)
         HALT_UNALLOC;
@@ -12696,6 +13551,7 @@ handle_halt (sim_cpu *cpu, uint32_t val)
  {
    uint64_t result = 0;
  
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    if (val != 0xf000)
      {
        TRACE_SYSCALL (cpu, " HLT [0x%x]", val);
@@ -12879,9 +13735,9 @@ dexExcpnGen (sim_cpu *cpu)
       instr[4,2]   = opc2 000 ==> OK, ow ==> UNALLOC
       instr[1,0]   = LL : discriminates opc  */
  
-  uint32_t opc = uimm (aarch64_get_instr (cpu), 23, 21);
-  uint32_t imm16 = uimm (aarch64_get_instr (cpu), 20, 5);
-  uint32_t opc2 = uimm (aarch64_get_instr (cpu), 4, 2);
+  uint32_t opc = INSTR (23, 21);
+  uint32_t imm16 = INSTR (20, 5);
+  uint32_t opc2 = INSTR (4, 2);
    uint32_t LL;
  
    NYI_assert (31, 24, 0xd4);
@@ -12889,7 +13745,7 @@ dexExcpnGen (sim_cpu *cpu)
    if (opc2 != 0)
      HALT_UNALLOC;
  
-  LL = uimm (aarch64_get_instr (cpu), 1, 0);
+  LL = INSTR (1, 0);
  
    /* We only implement HLT and BRK for now.  */
    if (opc == 1 && LL == 0)
@@ -12909,9 +13765,7 @@ dexExcpnGen (sim_cpu *cpu)
      HALT_UNALLOC;
  }
  
-/* Stub for accessing system registers.
-   We implement support for the DCZID register since this is used
-   by the C library's memset function.  */
+/* Stub for accessing system registers.  */
  
  static uint64_t
  system_get (sim_cpu *cpu, unsigned op0, unsigned op1, unsigned crn,
@@ -12920,34 +13774,148 @@ system_get (sim_cpu *cpu, unsigned op0, unsigned op1, unsigned crn,
    if (crn == 0 && op1 == 3 && crm == 0 && op2 == 7)
      /* DCZID_EL0 - the Data Cache Zero ID register.
         We do not support DC ZVA at the moment, so
-       we return a value with the disable bit set.  */
+       we return a value with the disable bit set.
+       We implement support for the DCZID register since
+       it is used by the C library's memset function.  */
      return ((uint64_t) 1) << 4;
  
+  if (crn == 0 && op1 == 3 && crm == 0 && op2 == 1)
+    /* Cache Type Register.  */
+    return 0x80008000UL;
+
+  if (crn == 13 && op1 == 3 && crm == 0 && op2 == 2)
+    /* TPIDR_EL0 - thread pointer id.  */
+    return aarch64_get_thread_id (cpu);
+
+  if (op1 == 3 && crm == 4 && op2 == 0)
+    return aarch64_get_FPCR (cpu);
+
+  if (op1 == 3 && crm == 4 && op2 == 1)
+    return aarch64_get_FPSR (cpu);
+
+  else if (op1 == 3 && crm == 2 && op2 == 0)
+    return aarch64_get_CPSR (cpu);
+
    HALT_NYI;
  }
  
  static void
+system_set (sim_cpu *cpu, unsigned op0, unsigned op1, unsigned crn,
+           unsigned crm, unsigned op2, uint64_t val)
+{
+  if (op1 == 3 && crm == 4 && op2 == 0)
+    aarch64_set_FPCR (cpu, val);
+
+  else if (op1 == 3 && crm == 4 && op2 == 1)
+    aarch64_set_FPSR (cpu, val);
+
+  else if (op1 == 3 && crm == 2 && op2 == 0)
+    aarch64_set_CPSR (cpu, val);
+
+  else
+    HALT_NYI;
+}
+
+static void
  do_mrs (sim_cpu *cpu)
  {
-  /* instr[31:20] = 1101 01010 0011
+  /* instr[31:20] = 1101 0101 0001 1
       instr[19]    = op0
       instr[18,16] = op1
       instr[15,12] = CRn
       instr[11,8]  = CRm
       instr[7,5]   = op2
       instr[4,0]   = Rt  */
-  unsigned sys_op0 = uimm (aarch64_get_instr (cpu), 19, 19) + 2;
-  unsigned sys_op1 = uimm (aarch64_get_instr (cpu), 18, 16);
-  unsigned sys_crn = uimm (aarch64_get_instr (cpu), 15, 12);
-  unsigned sys_crm = uimm (aarch64_get_instr (cpu), 11, 8);
-  unsigned sys_op2 = uimm (aarch64_get_instr (cpu), 7, 5);
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
-
+  unsigned sys_op0 = INSTR (19, 19) + 2;
+  unsigned sys_op1 = INSTR (18, 16);
+  unsigned sys_crn = INSTR (15, 12);
+  unsigned sys_crm = INSTR (11, 8);
+  unsigned sys_op2 = INSTR (7, 5);
+  unsigned rt = INSTR (4, 0);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
    aarch64_set_reg_u64 (cpu, rt, NO_SP,
                        system_get (cpu, sys_op0, sys_op1, sys_crn, sys_crm, sys_op2));
  }
  
  static void
+do_MSR_immediate (sim_cpu *cpu)
+{
+  /* instr[31:19] = 1101 0101 0000 0
+     instr[18,16] = op1
+     instr[15,12] = 0100
+     instr[11,8]  = CRm
+     instr[7,5]   = op2
+     instr[4,0]   = 1 1111  */
+
+  unsigned op1 = INSTR (18, 16);
+  /*unsigned crm = INSTR (11, 8);*/
+  unsigned op2 = INSTR (7, 5);
+
+  NYI_assert (31, 19, 0x1AA0);
+  NYI_assert (15, 12, 0x4);
+  NYI_assert (4,  0,  0x1F);
+
+  if (op1 == 0)
+    {
+      if (op2 == 5)
+       HALT_NYI; /* set SPSel.  */
+      else
+       HALT_UNALLOC;
+    }
+  else if (op1 == 3)
+    {
+      if (op2 == 6)
+       HALT_NYI; /* set DAIFset.  */
+      else if (op2 == 7)
+       HALT_NYI; /* set DAIFclr.  */
+      else
+       HALT_UNALLOC;
+    }
+  else
+    HALT_UNALLOC;
+}
+
+static void
+do_MSR_reg (sim_cpu *cpu)
+{
+  /* instr[31:20] = 1101 0101 0001
+     instr[19]    = op0
+     instr[18,16] = op1
+     instr[15,12] = CRn
+     instr[11,8]  = CRm
+     instr[7,5]   = op2
+     instr[4,0]   = Rt  */
+
+  unsigned sys_op0 = INSTR (19, 19) + 2;
+  unsigned sys_op1 = INSTR (18, 16);
+  unsigned sys_crn = INSTR (15, 12);
+  unsigned sys_crm = INSTR (11, 8);
+  unsigned sys_op2 = INSTR (7, 5);
+  unsigned rt = INSTR (4, 0);
+
+  NYI_assert (31, 20, 0xD51);
+
+  TRACE_DECODE (cpu, "emulated at line %d", __LINE__);
+  system_set (cpu, sys_op0, sys_op1, sys_crn, sys_crm, sys_op2,
+             aarch64_get_reg_u64 (cpu, rt, NO_SP));
+}
+
+static void
+do_SYS (sim_cpu *cpu)
+{
+  /* instr[31,19] = 1101 0101 0000 1
+     instr[18,16] = op1
+     instr[15,12] = CRn
+     instr[11,8]  = CRm
+     instr[7,5]   = op2
+     instr[4,0]   = Rt  */
+  NYI_assert (31, 19, 0x1AA1);
+
+  /* FIXME: For now we just silently accept system ops.  */
+}
+
+static void
  dexSystem (sim_cpu *cpu)
  {
    /* instr[31:22] = 1101 01010 0
@@ -12976,20 +13944,19 @@ dexSystem (sim_cpu *cpu)
       types :  01 ==> Reads, 10 ==> Writes,
                11 ==> All, 00 ==> All (domain == FullSystem).  */
  
-  unsigned rt = uimm (aarch64_get_instr (cpu), 4, 0);
-  uint32_t l_op0_op1_crn = uimm (aarch64_get_instr (cpu), 21, 12);
+  unsigned rt = INSTR (4, 0);
  
    NYI_assert (31, 22, 0x354);
  
-  switch (l_op0_op1_crn)
+  switch (INSTR (21, 12))
      {
      case 0x032:
        if (rt == 0x1F)
         {
           /* NOP has CRm != 0000 OR.  */
           /*         (CRm == 0000 AND (op2 == 000 OR op2 > 101)).  */
-         uint32_t crm = uimm (aarch64_get_instr (cpu), 11, 8);
-         uint32_t op2 = uimm (aarch64_get_instr (cpu), 7, 5);
+         uint32_t crm = INSTR (11, 8);
+         uint32_t op2 = INSTR (7, 5);
  
           if (crm != 0 || (op2 == 0 || op2 > 5))
             {
@@ -13002,7 +13969,7 @@ dexSystem (sim_cpu *cpu)
  
      case 0x033:
        {
-       uint32_t op2 =  uimm (aarch64_get_instr (cpu), 7, 5);
+       uint32_t op2 =  INSTR (7, 5);
  
         switch (op2)
           {
@@ -13010,31 +13977,27 @@ dexSystem (sim_cpu *cpu)
           case 4: dsb (cpu); return;
           case 5: dmb (cpu); return;
           case 6: isb (cpu); return;
-         case 7:
           default: HALT_UNALLOC;
         }
        }
  
      case 0x3B0:
-      /* MRS Wt, sys-reg.  */
-      do_mrs (cpu);
-      return;
-
      case 0x3B4:
      case 0x3BD:
-      /* MRS Xt, sys-reg.  */
        do_mrs (cpu);
        return;
  
      case 0x0B7:
-      /* DC <type>, x<n>.  */
-      HALT_NYI;
+      do_SYS (cpu); /* DC is an alias of SYS.  */
        return;
  
      default:
-      /* if (uimm (aarch64_get_instr (cpu), 21, 20) == 0x1)
-         MRS Xt, sys-reg.  */
-      HALT_NYI;
+      if (INSTR (21, 20) == 0x1)
+       do_MSR_reg (cpu);
+      else if (INSTR (21, 19) == 0 && INSTR (15, 12) == 0x4)
+       do_MSR_immediate (cpu);
+      else
+       HALT_NYI;
        return;
      }
  }
@@ -13054,7 +14017,7 @@ dexBr (sim_cpu *cpu)
  
      case BR_IMMCMP_001:
        /* Compare has bit 25 clear while test has it set.  */
-      if (!uimm (aarch64_get_instr (cpu), 25, 25))
+      if (!INSTR (25, 25))
         dexCompareBranchImmediate (cpu);
        else
         dexTestBranchImmediate (cpu);
@@ -13063,7 +14026,7 @@ dexBr (sim_cpu *cpu)
      case BR_IMMCOND_010:
        /* This is a conditional branch if bit 25 is clear otherwise
           unallocated.  */
-      if (!uimm (aarch64_get_instr (cpu), 25, 25))
+      if (!INSTR (25, 25))
         dexCondBranchImmediate (cpu);
        else
         HALT_UNALLOC;
@@ -13078,7 +14041,7 @@ dexBr (sim_cpu *cpu)
  
      case BR_IMMCMP_101:
        /* Compare has bit 25 clear while test has it set.  */
-      if (!uimm (aarch64_get_instr (cpu), 25, 25))
+      if (!INSTR (25, 25))
         dexCompareBranchImmediate (cpu);
        else
         dexTestBranchImmediate (cpu);
@@ -13086,20 +14049,20 @@ dexBr (sim_cpu *cpu)
  
      case BR_REG_110:
        /* Unconditional branch reg has bit 25 set.  */
-      if (uimm (aarch64_get_instr (cpu), 25, 25))
+      if (INSTR (25, 25))
         dexBranchRegister (cpu);
  
        /* This includes both Excpn Gen, System and unalloc operations.
           We need to decode the Excpn Gen operation BRK so we can plant
           debugger entry points.
-         Excpn Gen operations have aarch64_get_instr (cpu)[24] = 0.
+         Excpn Gen operations have instr [24] = 0.
           we need to decode at least one of the System operations NOP
           which is an alias for HINT #0.
-         System operations have aarch64_get_instr (cpu)[24,22] = 100.  */
-      else if (uimm (aarch64_get_instr (cpu), 24, 24) == 0)
+         System operations have instr [24,22] = 100.  */
+      else if (INSTR (24, 24) == 0)
         dexExcpnGen (cpu);
  
-      else if (uimm (aarch64_get_instr (cpu), 24, 22) == 4)
+      else if (INSTR (24, 22) == 4)
         dexSystem (cpu);
  
        else
@@ -13160,7 +14123,11 @@ aarch64_step (sim_cpu *cpu)
      return FALSE;
  
    aarch64_set_next_PC (cpu, pc + 4);
-  aarch64_get_instr (cpu) = aarch64_get_mem_u32 (cpu, pc);
+
+  /* Code is always little-endian.  */
+  sim_core_read_buffer (CPU_STATE (cpu), cpu, read_map,
+                       & aarch64_get_instr (cpu), pc, 4);
+  aarch64_get_instr (cpu) = endian_le2h_4 (aarch64_get_instr (cpu));
  
    TRACE_INSN (cpu, " pc = %" PRIx64 " instr = %08x", pc,
               aarch64_get_instr (cpu));
@@ -13177,10 +14144,15 @@ aarch64_run (SIM_DESC sd)
    sim_cpu *cpu = STATE_CPU (sd, 0);
  
    while (aarch64_step (cpu))
-    aarch64_update_PC (cpu);
+    {
+      aarch64_update_PC (cpu);
+
+      if (sim_events_tick (sd))
+       sim_events_process (sd);
+    }
  
-  sim_engine_halt (sd, NULL, NULL, aarch64_get_PC (cpu),
-                  sim_exited, aarch64_get_reg_s32 (cpu, R0, SP_OK));
+  sim_engine_halt (sd, cpu, NULL, aarch64_get_PC (cpu),
+                  sim_exited, aarch64_get_reg_s32 (cpu, R0, NO_SP));
  }
  
  void