ggml-org
diff --git a/‎ggml/src/ggml-igpu/ggml-igpu.cpp‎
Lines changed: 10 additions & 162 deletions b/‎ggml/src/ggml-igpu/ggml-igpu.cpp‎
Lines changed: 10 additions & 162 deletions
@@ -15,7 +15,10 @@
 //#define IGPU_TRACE(...) std::cout << "#> ggml-igpu: " << __VA_ARGS__ << std::endl
 #define IGPU_TRACE(...)
 
+#define BLOC_V1
+#ifdef BLOC_V1
 #include "mulmat-bf16bloc.h"
+#endif
 
 /*
 #> version bloc-bf16 V0.
@@ -36,12 +39,6 @@
 
 namespace ggml::backend::igpu {
 
-    // taille de repacking:
-    static constexpr std::size_t BLOC_M0 = 16;
-    // static constexpr std::size_t BLOC_N0 = 16;
-    static constexpr std::size_t BLOC_K0 = 16;
-    static constexpr std::size_t BLOC_K1 = 512;
-
     static bool IS_WEIGHT = true;
     static bool IS_OTHER = true;
     enum class BUFFER_TYPE {
@@ -126,39 +123,8 @@ namespace ggml::backend::igpu {
             const auto la = tensor.nb[1]/tensor.nb[0];
             bfloat16_t* ref = (bfloat16_t*)data;
             bfloat16_t* bloc = (bfloat16_t*)tensor.data;
-            // TODO: @ optimiser...
-            /*
-//#           pragma omp parallel for num_threads(4)
-#           pragma omp parallel for
-            for (std::size_t i=0; i<M; i++) {
-                for (std::size_t k=0; k<K; k++) {
-                    bloc[posBloc2D<BLOC_K1,BLOC_M0,1,TYPE_BLOC::PERFECT>(K, M, k, i)] = ref[pos2D(la, M, k, i)];
-                }
-            }
-*/
-            // Ca sera important quand on fera le codage en fp8...
-#           pragma omp parallel for num_threads(2) collapse(2) //  private(tmp)
-            for (std::size_t k2=0; k2<K; k2+=BLOC_K1) {
-                for (std::size_t i1=0; i1<M; i1+=BLOC_M0) {
-                    for (std::size_t k1=0; k1<BLOC_K1; k1+=16) {
-                        bfloat16_t tmp[16][16];
-                        for (std::size_t i0=0; i0<BLOC_M0; i0++) {
-#                           pragma omp simd
-                            for (std::size_t k0=0; k0<16; k0++) {
-                                tmp[i0][k0] = ref[pos2D(la, M, k2+k1+k0, i1+i0)];
-                            }
-                        }
-                        for (std::size_t k0=0; k0<16; k0++) {
-#                           pragma omp simd
-                            for (std::size_t i0=0; i0<BLOC_M0; i0++) {
-                                bloc[posBloc2D<BLOC_K1,BLOC_M0,1,TYPE_BLOC::PERFECT>(K, M, k2+k1+k0, i1+i0)] = tmp[i0][k0];
-                            }
-                        }
-                        // bloc[posBloc2D<BLOC_K1,BLOC_M0,1,TYPE_BLOC::PERFECT>(K, M, k, i)] = ref[pos2D(la, M, k, i)];
-                    }
-                }
-            }
 
+            op_mul_mat::repack(ref, la, bloc, M, K);
         }
         void get_tensor(const ggml_tensor & tensor, void * data, std::size_t offset, std::size_t size) override {
             const auto K = tensor.ne[0];
@@ -252,10 +218,7 @@ namespace ggml::backend::igpu {
             ggml::cpp::backend::backend(dev), m_deviceId(deviceId)
         {
             IGPU_TRACE("backend[" << get_name() << "]: create <" << params << ">");
-            // if (B_cache.ensure_size(K1 * block_size<N0*N1>(N) * M4)) {
-            if (B_cache.ensure_size(BLOC_K1 * 1024)) { // @ optimiser la taille de N < 768 * 16
-                IGPU_TRACE("B_cache[" << BLOC_K1 << ", " << 1024 <<"]");
-            }
+            op_mul_mat::init_caches();
         }
 
         virtual ~backend() {
@@ -312,95 +275,9 @@ namespace ggml::backend::igpu {
                             GGML_ASSERT(B->nb[0] == sizeof(float32_t));
                             GGML_ASSERT(C->nb[0] == sizeof(float32_t));
                             GGML_ASSERT(K % 16 == 0);
-                            GGML_ASSERT(K % BLOC_K1 == 0);
                             GGML_ASSERT(M % (4*2*16) == 0); // pas une contraite forte mais plus simple pour l'instant.
-                            // TODO: voir comment decouper ca
-                            //> ggml::backend::igpu::sgemm_wmma<M1,N1,M2,M4,K1>(a1,b1,c1,  M,N,K, K,M);
-                            // if (N==1) {} else
-                            if (N == 0) {
-                                std::cout << "BUG? " << N << " / " << A->name << " | "
-                                        << A->ne[0] << "," << A->ne[1] << " "
-                                        << B->ne[0] << "," << B->ne[1] << " "
-                                        << C->ne[0] << "," << C->ne[1] << " "
-                                        << std::endl;
-                            } else
-                            if (N<=16) {
-                                if (M%(4*2*16*16)==0) { // M=2048
-                                    sgemm_wmma<4,1,2,16,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*8)==0) { // M=1024
-                                    sgemm_wmma<4,1,2,8,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*4)==0) { // M=512
-                                    sgemm_wmma<4,1,2,4,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*2)==0) { // M=256
-                                    sgemm_wmma<4,1,2,2,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,1,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            } else if (N<=32) {
-                                if (M%(4*2*16*16)==0) { // M=2048
-                                    sgemm_wmma<4,2,2,16,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*8)==0) { // M=1024
-                                    sgemm_wmma<4,2,2,8,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*4)==0) { // M=512
-                                    sgemm_wmma<4,2,2,4,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*2)==0) { // M=256
-                                    sgemm_wmma<4,2,2,2,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,2,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            } else if (N<=48) { // 3 blocs pour N => 4CU / M
-                                if (M%(4*2*16*8)==0) { // M=1024
-                                    sgemm_wmma<4,1,2,8,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*4)==0) { // M=512
-                                    sgemm_wmma<4,1,2,4,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*2)==0) { // M=256
-                                    sgemm_wmma<4,1,2,2,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,1,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            } else if (N<=64) { // N1=2 => 2CU/N => 6 restant
-                                if (M%(4*2*16*8)==0) { // M=1024
-                                    sgemm_wmma<4,2,2,8,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*4)==0) { // M=512
-                                    sgemm_wmma<4,2,2,4,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*2)==0) { // M=256
-                                    sgemm_wmma<4,2,2,2,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,2,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            } else if (N<=192) {
-                                if (M%(4*2*16*4)==0) { // M=512
-                                    sgemm_wmma<4,2,2,4,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*2)==0) { // M=256
-                                    sgemm_wmma<4,2,2,2,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,2,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            } else if (N<=384) {
-                                if (M%(4*2*16*2)==0) { // M=256
-                                    sgemm_wmma<4,2,2,2,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,2,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            } else {
-                                if (M%(4*2*16*1)==0) { // M=128
-                                    sgemm_wmma<4,2,2,1,BLOC_K1>((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, lb,lc);
-                                } else { // est-ce que l'on fait les cas 3,5,6,7,... ?
-                                    // on va s'arreter la pour l'instant:
-                                }
-                            }
+
+                            op_mul_mat::compute((const bfloat16_t*)A->data, (const float32_t*)B->data, (float32_t*)C->data, M,N,K, la,lb,lc);
                             //matmul_ref((bfloat16_t*)A->data, (float32_t*)B->data, (float32_t*)C->data, M,N,K, la,lb,lc);
                         }
                     }
@@ -428,9 +305,6 @@ namespace ggml::backend::igpu {
         buffer_type* m_extra_buffer_type;
         buffer_type* m_device_buffer_type;
         buffer_type* m_host_buffer_type;
-        std::size_t K_MAX = 0;
-        std::size_t M_MAX = 0;
-        std::size_t N_MAX = 768; // taille optimale pour 780...
 
     public:
         device(const std::string& name, int deviceId, const std::string& desc = "...") : m_name(name), m_desc(desc), m_id(deviceId) {
@@ -516,7 +390,8 @@ namespace ggml::backend::igpu {
             case GGML_OP_MUL_MAT:
             {
                 const struct ggml_tensor * A = op.src[0];  // les poids
-                const struct ggml_tensor * B = op.src[1];  // le
+                const struct ggml_tensor * B = op.src[1];  // l'entrée
+                const struct ggml_tensor * C = &op;        // la sortie
 
                 if (!ggml_is_contiguous(A)) return false;
                 if (!ggml_is_contiguous(B)) return false;
@@ -530,34 +405,7 @@ namespace ggml::backend::igpu {
                         //return true;
                         return false;
                     case GGML_TYPE_BF16:
-                        // qq limites...
-                        if (A->ne[0]*A->ne[1] >= 0x80000000) {
-                            IGPU_TRACE( op.name << "(" << A->name << ") K*M trop grand: " << A->ne[0] << ", " << A->ne[1]);
-                            return false;
-                        }
-                        if ((A->ne[0] % BLOC_K1)  != 0) {
-                            IGPU_TRACE( op.name << ": K non supporte : " << BLOC_K1 << "/" << A->ne[1]);
-                            return false;
-                        }
-                        if ((A->ne[1] % (4*2*16)) != 0) {
-                            IGPU_TRACE( op.name << ": M non supporte : " << 4*2*16 << "/" << A->ne[2]);
-                            return false;
-                        }
-                        // TODO: memoriser les tailles max de M et K pour allocation des caches
-                        if (K_MAX<A->ne[0]) {
-                            K_MAX=A->ne[0];
-                            IGPU_TRACE("K_MAX: " << K_MAX);
-                        }
-                        if (M_MAX<A->ne[1]) {
-                            M_MAX=A->ne[1];
-                            IGPU_TRACE("M_MAX: " << M_MAX);
-                        }
-                        // ordre:
-                        //  - supports_op
-                        //  - init_tensor
-                        //  - set_tensor
-                        // GGML_LOG_INFO("ggml-igpu: MATMUL(%s): supported!\n", A->name);
-                        return true;
+                        return op_mul_mat::supported<bfloat16_t, float32_t, float32_t>(*A,*B,*C);
                     default:
                         return false;
                     }