Merge pull request #1226 from ashwinyes/develop_arm_clang_ual_fix
[platform/upstream/openblas.git] / symcopy.h
index ed6e5b4..16172c0 100644 (file)
--- a/symcopy.h
+++ b/symcopy.h
@@ -43,7 +43,7 @@
 
 #if !defined(XDOUBLE) || !defined(QUAD_PRECISION)
 
-static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -61,11 +61,11 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 2;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 1 * m;
     b1 += 2 * m + 2;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 1 * m;
     b2 += 2 * m + 2;
@@ -74,9 +74,9 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
-      
+
       a22 = *(aa2 + 1);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb2 + 0) = a21;
@@ -85,7 +85,7 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 2;
       bb1 += 2;
       bb2 += 2;
-      
+
       cc1 += 2 * m;
       cc2 += 2 * m;
 
@@ -96,10 +96,10 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        aa1 += 2;
        aa2 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -124,7 +124,7 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       if (is == 1){
        a11 = *(aa1 + 0);
        a12 = *(aa2 + 0);
-       
+
        *(bb1 + 0) = a11;
        *(bb2 + 0) = a12;
 
@@ -132,7 +132,7 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 1) = a12;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       *(bb1 + 0) = a11;
@@ -141,7 +141,7 @@ static inline void SYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void SYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void SYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -159,11 +159,11 @@ static inline void SYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 1 * m;
     b1 += 2 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 1 * m;
     b2 += 2;
@@ -171,7 +171,7 @@ static inline void SYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
@@ -179,48 +179,48 @@ static inline void SYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 2;
        aa2 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
        *(bb2 + 1) = a22;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a12;
        *(cc2 + 0) = a21;
        *(cc2 + 1) = a22;
-       
+
        bb1 += 2;
        bb2 += 2;
-       
+
        cc1 += 2 * m;
        cc2 += 2 * m;
       }
 
       a11 = *(aa1 + 0);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a12;
       *(bb2 + 0) = a12;
       *(bb2 + 1) = a22;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        aa1 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(cc1 + 0) = a11;
        *(cc2 + 0) = a21;
        bb1 += 2;
-       
+
        cc1 += 2 * m;
        cc2 += 2 * m;
       }
@@ -232,7 +232,7 @@ static inline void SYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 }
 
 
-static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -252,11 +252,11 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 4;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m + 4;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4 * m + 4;
@@ -267,10 +267,10 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       a21 = *(aa1 + 1);
       a31 = *(aa1 + 2);
       a41 = *(aa1 + 3);
-  
+
       a12 = *(aa2 + 2);
       a22 = *(aa2 + 3);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb1 + 2) = a31;
@@ -285,7 +285,7 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 4;
       bb1 += 4;
       bb2 += 4;
-      
+
       cc1 += 4 * m;
       cc2 += 4 * m;
 
@@ -301,10 +301,10 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a22 = *(aa2 + 1);
        a32 = *(aa2 + 2);
        a42 = *(aa2 + 3);
-       
+
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -339,7 +339,7 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -351,7 +351,7 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 3) = a22;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
@@ -362,7 +362,7 @@ static inline void ZSYMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -382,11 +382,11 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4;
@@ -394,7 +394,7 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
@@ -407,7 +407,7 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -417,7 +417,7 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(bb2 + 1) = a22;
        *(bb2 + 2) = a32;
        *(bb2 + 3) = a42;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a21;
        *(cc1 + 2) = a12;
@@ -427,22 +427,22 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 1) = a41;
        *(cc2 + 2) = a32;
        *(cc2 + 3) = a42;
-       
+
        bb1 += 4;
        bb2 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
 
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
       a32 = *(aa2 + 2);
       a42 = *(aa2 + 3);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb1 + 2) = a12;
@@ -453,16 +453,16 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       *(bb2 + 2) = a32;
       *(bb2 + 3) = a42;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
        a41 = *(aa1 + 3);
        aa1 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -473,7 +473,7 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 0) = a31;
        *(cc2 + 1) = a41;
        bb1 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
@@ -486,7 +486,7 @@ static inline void ZSYMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -506,11 +506,11 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 4;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m + 4;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4 * m + 4;
@@ -520,9 +520,9 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       a11 = *(aa1 + 0);
       a31 = *(aa1 + 2);
       a41 = *(aa1 + 3);
-  
+
       a12 = *(aa2 + 2);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = 0.;
       *(bb1 + 2) = a31;
@@ -537,7 +537,7 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 4;
       bb1 += 4;
       bb2 += 4;
-      
+
       cc1 += 4 * m;
       cc2 += 4 * m;
 
@@ -553,10 +553,10 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a22 = *(aa2 + 1);
        a32 = *(aa2 + 2);
        a42 = *(aa2 + 3);
-       
+
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -591,7 +591,7 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -603,7 +603,7 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 3) = -a22;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       *(bb1 + 0) = a11;
@@ -613,7 +613,7 @@ static inline void ZHEMCOPY_L(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -633,11 +633,11 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4;
@@ -645,7 +645,7 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
@@ -658,7 +658,7 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -668,7 +668,7 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(bb2 + 1) = a22;
        *(bb2 + 2) = a32;
        *(bb2 + 3) = a42;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = -a21;
        *(cc1 + 2) = a12;
@@ -678,20 +678,20 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 1) = -a41;
        *(cc2 + 2) = a32;
        *(cc2 + 3) = -a42;
-       
+
        bb1 += 4;
        bb2 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
 
       a11 = *(aa1 + 0);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
       a32 = *(aa2 + 2);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = 0.;
       *(bb1 + 2) = a12;
@@ -702,16 +702,16 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       *(bb2 + 2) = a32;
       *(bb2 + 3) = 0.;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
        a41 = *(aa1 + 3);
        aa1 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -722,7 +722,7 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 0) = a31;
        *(cc2 + 1) = -a41;
        bb1 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
@@ -735,7 +735,7 @@ static inline void ZHEMCOPY_U(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 }
 
 
-static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -755,11 +755,11 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 4;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m + 4;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4 * m + 4;
@@ -769,9 +769,9 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       a11 = *(aa1 + 0);
       a31 = *(aa1 + 2);
       a41 = *(aa1 + 3);
-  
+
       a12 = *(aa2 + 2);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = 0.;
       *(bb1 + 2) = a31;
@@ -786,7 +786,7 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 4;
       bb1 += 4;
       bb2 += 4;
-      
+
       cc1 += 4 * m;
       cc2 += 4 * m;
 
@@ -802,10 +802,10 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a22 = *(aa2 + 1);
        a32 = *(aa2 + 2);
        a42 = *(aa2 + 3);
-       
+
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = -a21;
        *(bb1 + 2) = a31;
@@ -840,7 +840,7 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = -a21;
        *(bb2 + 0) = a12;
@@ -852,7 +852,7 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 3) = a22;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       *(bb1 + 0) = a11;
@@ -862,7 +862,7 @@ static inline void ZHEMCOPY_M(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -882,11 +882,11 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4;
@@ -894,7 +894,7 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
@@ -907,7 +907,7 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = -a21;
        *(bb1 + 2) = a31;
@@ -917,7 +917,7 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(bb2 + 1) = -a22;
        *(bb2 + 2) = a32;
        *(bb2 + 3) = -a42;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a21;
        *(cc1 + 2) = a12;
@@ -927,20 +927,20 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 1) = a41;
        *(cc2 + 2) = a32;
        *(cc2 + 3) = a42;
-       
+
        bb1 += 4;
        bb2 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
 
       a11 = *(aa1 + 0);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
       a32 = *(aa2 + 2);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = 0.;
       *(bb1 + 2) = a12;
@@ -951,16 +951,16 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       *(bb2 + 2) = a32;
       *(bb2 + 3) = 0.;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
        a41 = *(aa1 + 3);
        aa1 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = -a21;
        *(bb1 + 2) = a31;
@@ -971,7 +971,7 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 0) = a31;
        *(cc2 + 1) = a41;
        bb1 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
@@ -984,7 +984,7 @@ static inline void ZHEMCOPY_V(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 }
 
 
-static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1002,11 +1002,11 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 2;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 1 * m;
     b1 += 2 * m + 2;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 1 * m;
     b2 += 2 * m + 2;
@@ -1015,9 +1015,9 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
-      
+
       a22 = *(aa2 + 1);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb2 + 0) = a21;
@@ -1026,7 +1026,7 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 2;
       bb1 += 2;
       bb2 += 2;
-      
+
       cc1 += 2 * m;
       cc2 += 2 * m;
 
@@ -1037,10 +1037,10 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        aa1 += 2;
        aa2 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -1065,7 +1065,7 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       if (is == 1){
        a11 = *(aa1 + 0);
        a12 = *(aa2 + 0);
-       
+
        *(bb1 + 0) = a11;
        *(bb2 + 0) = a12;
 
@@ -1073,7 +1073,7 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 1) = a12;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       *(bb1 + 0) = a11;
@@ -1082,7 +1082,7 @@ static inline void TRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1100,11 +1100,11 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 2;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 1 * m;
     b1 += 2 * m + 2;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 1 * m;
     b2 += 2 * m + 2;
@@ -1113,9 +1113,9 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
-      
+
       a22 = *(aa2 + 1);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb2 + 0) = a21;
@@ -1124,7 +1124,7 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 2;
       bb1 += 2;
       bb2 += 2;
-      
+
       cc1 += 2 * m;
       cc2 += 2 * m;
 
@@ -1135,10 +1135,10 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        aa1 += 2;
        aa2 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -1163,7 +1163,7 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       if (is == 1){
        a11 = *(aa1 + 0);
        a12 = *(aa2 + 0);
-       
+
        *(bb1 + 0) = a11;
        *(bb2 + 0) = a12;
 
@@ -1171,7 +1171,7 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 1) = a12;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       *(bb1 + 0) = a11;
@@ -1180,7 +1180,7 @@ static inline void TRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void TRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void TRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1198,11 +1198,11 @@ static inline void TRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 1 * m;
     b1 += 2 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 1 * m;
     b2 += 2;
@@ -1210,7 +1210,7 @@ static inline void TRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
@@ -1218,48 +1218,48 @@ static inline void TRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 2;
        aa2 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
        *(bb2 + 1) = a22;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a12;
        *(cc2 + 0) = a21;
        *(cc2 + 1) = a22;
-       
+
        bb1 += 2;
        bb2 += 2;
-       
+
        cc1 += 2 * m;
        cc2 += 2 * m;
       }
 
       a11 = *(aa1 + 0);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a12;
       *(bb2 + 0) = a12;
       *(bb2 + 1) = a22;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        aa1 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(cc1 + 0) = a11;
        *(cc2 + 0) = a21;
        bb1 += 2;
-       
+
        cc1 += 2 * m;
        cc2 += 2 * m;
       }
@@ -1270,7 +1270,7 @@ static inline void TRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void TRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void TRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1288,11 +1288,11 @@ static inline void TRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 1 * m;
     b1 += 2 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 1 * m;
     b2 += 2;
@@ -1300,7 +1300,7 @@ static inline void TRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
@@ -1308,48 +1308,48 @@ static inline void TRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 2;
        aa2 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
        *(bb2 + 1) = a22;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a12;
        *(cc2 + 0) = a21;
        *(cc2 + 1) = a22;
-       
+
        bb1 += 2;
        bb2 += 2;
-       
+
        cc1 += 2 * m;
        cc2 += 2 * m;
       }
 
       a11 = *(aa1 + 0);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a12;
       *(bb2 + 0) = a12;
       *(bb2 + 1) = a22;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        aa1 += 2;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(cc1 + 0) = a11;
        *(cc2 + 0) = a21;
        bb1 += 2;
-       
+
        cc1 += 2 * m;
        cc2 += 2 * m;
       }
@@ -1360,7 +1360,7 @@ static inline void TRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1380,11 +1380,11 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 4;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m + 4;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4 * m + 4;
@@ -1395,10 +1395,10 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       a21 = *(aa1 + 1);
       a31 = *(aa1 + 2);
       a41 = *(aa1 + 3);
-  
+
       a12 = *(aa2 + 2);
       a22 = *(aa2 + 3);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb1 + 2) = a31;
@@ -1413,7 +1413,7 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 4;
       bb1 += 4;
       bb2 += 4;
-      
+
       cc1 += 4 * m;
       cc2 += 4 * m;
 
@@ -1429,10 +1429,10 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a22 = *(aa2 + 1);
        a32 = *(aa2 + 2);
        a42 = *(aa2 + 3);
-       
+
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -1467,7 +1467,7 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -1479,7 +1479,7 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 3) = a22;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
@@ -1490,7 +1490,7 @@ static inline void ZTRMCOPY_NL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1510,11 +1510,11 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda + 4;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m + 4;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4 * m + 4;
@@ -1525,10 +1525,10 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       a21 = *(aa1 + 1);
       a31 = *(aa1 + 2);
       a41 = *(aa1 + 3);
-  
+
       a12 = *(aa2 + 2);
       a22 = *(aa2 + 3);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb1 + 2) = a31;
@@ -1543,7 +1543,7 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       aa2 += 4;
       bb1 += 4;
       bb2 += 4;
-      
+
       cc1 += 4 * m;
       cc2 += 4 * m;
 
@@ -1559,10 +1559,10 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a22 = *(aa2 + 1);
        a32 = *(aa2 + 2);
        a42 = *(aa2 + 3);
-       
+
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -1597,7 +1597,7 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        a21 = *(aa1 + 1);
        a12 = *(aa2 + 0);
        a22 = *(aa2 + 1);
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb2 + 0) = a12;
@@ -1609,7 +1609,7 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc1 + 3) = a22;
       }
     }
-    
+
     if (m - js == 1){
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
@@ -1620,7 +1620,7 @@ static inline void ZTRMCOPY_TL(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1640,11 +1640,11 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4;
@@ -1652,7 +1652,7 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
@@ -1665,7 +1665,7 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -1675,7 +1675,7 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(bb2 + 1) = a22;
        *(bb2 + 2) = a32;
        *(bb2 + 3) = a42;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a21;
        *(cc1 + 2) = a12;
@@ -1685,22 +1685,22 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 1) = a41;
        *(cc2 + 2) = a32;
        *(cc2 + 3) = a42;
-       
+
        bb1 += 4;
        bb2 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
 
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
       a32 = *(aa2 + 2);
       a42 = *(aa2 + 3);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb1 + 2) = a12;
@@ -1711,16 +1711,16 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       *(bb2 + 2) = a32;
       *(bb2 + 3) = a42;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
        a41 = *(aa1 + 3);
        aa1 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -1731,7 +1731,7 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 0) = a31;
        *(cc2 + 1) = a41;
        bb1 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
@@ -1744,7 +1744,7 @@ static inline void ZTRMCOPY_NU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   }
 }
 
-static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
+static __inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
   BLASLONG is, js;
 
   FLOAT *aa1, *aa2;
@@ -1764,11 +1764,11 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     aa1 = a + 0 * lda;
     aa2 = a + 1 * lda;
     a  += 2 * lda;
-    
+
     bb1 = b1 + 0 * m;
     bb2 = b1 + 2 * m;
     b1 += 4 * m;
-         
+
     cc1 = b2 + 0 * m;
     cc2 = b2 + 2 * m;
     b2 += 4;
@@ -1776,7 +1776,7 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
     if (m - js >= 2){
 
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
@@ -1789,7 +1789,7 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
 
        aa1 += 4;
        aa2 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -1799,7 +1799,7 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(bb2 + 1) = a22;
        *(bb2 + 2) = a32;
        *(bb2 + 3) = a42;
-       
+
        *(cc1 + 0) = a11;
        *(cc1 + 1) = a21;
        *(cc1 + 2) = a12;
@@ -1809,22 +1809,22 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 1) = a41;
        *(cc2 + 2) = a32;
        *(cc2 + 3) = a42;
-       
+
        bb1 += 4;
        bb2 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }
 
       a11 = *(aa1 + 0);
       a21 = *(aa1 + 1);
-      
+
       a12 = *(aa2 + 0);
       a22 = *(aa2 + 1);
       a32 = *(aa2 + 2);
       a42 = *(aa2 + 3);
-      
+
       *(bb1 + 0) = a11;
       *(bb1 + 1) = a21;
       *(bb1 + 2) = a12;
@@ -1835,16 +1835,16 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
       *(bb2 + 2) = a32;
       *(bb2 + 3) = a42;
     }
-    
+
     if (m - js == 1){
       for (is = 0; is < js; is += 2){
-      
+
        a11 = *(aa1 + 0);
        a21 = *(aa1 + 1);
        a31 = *(aa1 + 2);
        a41 = *(aa1 + 3);
        aa1 += 4;
-       
+
        *(bb1 + 0) = a11;
        *(bb1 + 1) = a21;
        *(bb1 + 2) = a31;
@@ -1855,7 +1855,7 @@ static inline void ZTRMCOPY_TU(BLASLONG m, FLOAT *a, BLASLONG lda, FLOAT *b){
        *(cc2 + 0) = a31;
        *(cc2 + 1) = a41;
        bb1 += 4;
-       
+
        cc1 += 4 * m;
        cc2 += 4 * m;
       }