plaidml · adam-smnk · Oct 3, 2024 · Sep 16, 2024 · Oct 2, 2024
diff --git a/lib/TPP/GPU/GpuConversion.cpp b/lib/TPP/GPU/GpuConversion.cpp
@@ -56,6 +56,11 @@ struct GpuConversion : public tpp::impl::GpuConversionBase<GpuConversion>,
 
 private:
   void constructPipeline() override {
+    // Map loops into GPU kernels.
+    pm.addNestedPass<func::FuncOp>(createGpuMapParallelLoopsPass());
+    pm.addNestedPass<func::FuncOp>(createParallelLoopToGpuPass());
+    pm.addPass(createCleanup());
+
     // First lower linalg using custom patterns then fall back to
     // the default lowering for any remaining ops.
     pm.addNestedPass<func::FuncOp>(createLinalgDeGeneralize());
@@ -64,11 +69,6 @@ struct GpuConversion : public tpp::impl::GpuConversionBase<GpuConversion>,
           createLinalgToXeGPU(LinalgToXeGPUOptions{kTile, stages, dpasTile}));
     }
     pm.addNestedPass<func::FuncOp>(createConvertLinalgToLoopsPass());
-
-    // Map loops into GPU kernels.
-    pm.addNestedPass<func::FuncOp>(createGpuMapParallelLoopsPass());
-    pm.addNestedPass<func::FuncOp>(createParallelLoopToGpuPass());
-
     pm.addPass(createCleanup());
 
     // Create GPU kernels.

diff --git a/lib/TPP/GPU/LinalgToXeGPU.cpp b/lib/TPP/GPU/LinalgToXeGPU.cpp
@@ -385,7 +385,7 @@ static FailureOr<SmallVector<int64_t>> getStaticBlockSizes(Operation *op) {
     return std::nullopt;
   };
 
-  if (auto launchOp = dyn_cast<gpu::LaunchOp>(op)) {
+  if (auto launchOp = op->getParentOfType<gpu::LaunchOp>()) {
     auto sizeX = getConstVal(launchOp.getBlockSizeX());
     auto sizeY = getConstVal(launchOp.getBlockSizeY());
     auto sizeZ = getConstVal(launchOp.getBlockSizeZ());
@@ -398,7 +398,7 @@ static FailureOr<SmallVector<int64_t>> getStaticBlockSizes(Operation *op) {
   // TODO: Remove when the lowering only occurs within a gpu.launch op.
   //       Manually computing this is brittle and duplicated parallel
   //       loops to gpu conversion.
-  if (auto blockLoop = dyn_cast<scf::ParallelOp>(op)) {
+  if (auto blockLoop = op->getParentOfType<scf::ParallelOp>()) {
     auto gridLoop = blockLoop->getParentOfType<scf::ParallelOp>();
 
     // Blocks or number of threads are represented by the first parallel loop
@@ -934,8 +934,7 @@ static LogicalResult createDPASKernel(linalg::LinalgOp linalgOp,
 
   // Create input prefetch tiles.
   int64_t numThreads = 1;
-  auto blockDims =
-      getStaticBlockSizes(linalgOp->getParentOfType<scf::ParallelOp>());
+  auto blockDims = getStaticBlockSizes(linalgOp);
   if (succeeded(blockDims)) {
     numThreads = std::accumulate(blockDims->begin(), blockDims->end(), 1,
                                  std::multiplies<int64_t>());