[FRONTEND] more modular dialect registration; remove some unnecessary includes (triton-lang#2847)

ptillet · web-flow · commit 7d3f045045eb · 2023-12-26T00:11:33.000-08:00
diff --git a/python/src/ir.cc b/python/src/ir.cc
@@ -12,12 +12,12 @@
 #include "mlir/Pass/Pass.h"
 #include "mlir/Pass/PassManager.h"
 #include "mlir/Support/FileUtilities.h"
+#include "mlir/Target/LLVMIR/Dialect/Builtin/BuiltinToLLVMIRTranslation.h"
+#include "mlir/Target/LLVMIR/Dialect/LLVMIR/LLVMToLLVMIRTranslation.h"
 #include "mlir/Transforms/Passes.h"
 #include "triton/Analysis/Allocation.h"
-#include "triton/Dialect/NVGPU/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Dialect.h"
 #include "triton/Dialect/Triton/IR/Types.h"
-#include "triton/Dialect/TritonNvidiaGPU/IR/Dialect.h"
 #include "triton/Tools/Sys/GetEnv.hpp"
 #include <pybind11/pybind11.h>
 #include <pybind11/stl.h>
@@ -184,17 +184,20 @@ void init_triton_ir(py::module &&m) {
       .value("RTNE", mlir::triton::RoundingMode::RTNE);
 
   py::class_<mlir::MLIRContext>(m, "context", py::module_local())
-      .def(py::init<>())
-      .def("load_triton", [](mlir::MLIRContext &self) {
-        self.getOrLoadDialect<mlir::triton::TritonDialect>();
-        self.getOrLoadDialect<mlir::index::IndexDialect>();
-        self.getOrLoadDialect<mlir::triton::TritonDialect>();
-        self.getOrLoadDialect<mlir::gpu::GPUDialect>();
-        // we load LLVM because the frontend uses LLVM.undef for
-        // some placeholders
-        self.getOrLoadDialect<mlir::LLVM::LLVMDialect>();
-        self.getOrLoadDialect<mlir::tensor::TensorDialect>();
-      });
+      .def(py::init<>());
+
+  m.def("load_dialects", [](mlir::MLIRContext &context) {
+    mlir::DialectRegistry registry;
+    registry.insert<mlir::triton::TritonDialect,
+                    mlir::triton::gpu::TritonGPUDialect,
+                    mlir::math::MathDialect, mlir::arith::ArithDialect,
+                    mlir::index::IndexDialect, mlir::scf::SCFDialect,
+                    mlir::cf::ControlFlowDialect, mlir::LLVM::LLVMDialect>();
+    mlir::registerBuiltinDialectTranslation(registry);
+    mlir::registerLLVMDialectTranslation(registry);
+    context.appendDialectRegistry(registry);
+    context.loadAllAvailableDialects();
+  });
 
   py::class_<mlir::Type>(m, "type", py::module_local())
       .def("is_integer", &mlir::Type::isInteger)
@@ -426,19 +429,6 @@ void init_triton_ir(py::module &&m) {
   m.def(
       "parse_mlir_module",
       [](const std::string &inputFilename, mlir::MLIRContext &context) {
-        // initialize registry
-        // note: we initialize llvm for undef
-        mlir::DialectRegistry registry;
-        registry.insert<
-            mlir::triton::TritonDialect, mlir::triton::gpu::TritonGPUDialect,
-            mlir::triton::nvidia_gpu::TritonNvidiaGPUDialect,
-            mlir::triton::nvgpu::NVGPUDialect, mlir::math::MathDialect,
-            mlir::arith::ArithDialect, mlir::index::IndexDialect,
-            mlir::scf::SCFDialect, mlir::cf::ControlFlowDialect,
-            mlir::LLVM::LLVMDialect>();
-        context.appendDialectRegistry(registry);
-        context.loadAllAvailableDialects();
-
         // parse module
         mlir::OwningOpRef<mlir::ModuleOp> module =
             mlir::parseSourceFile<mlir::ModuleOp>(inputFilename, &context);
diff --git a/python/src/llvm.cc b/python/src/llvm.cc
@@ -1,66 +1,24 @@
 ﻿#include "mlir/IR/BuiltinOps.h" // mlir::ModuleOp
-#include "mlir/Target/LLVMIR/Dialect/Builtin/BuiltinToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Dialect/LLVMIR/LLVMToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Dialect/NVVM/NVVMToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Dialect/ROCDL/ROCDLToLLVMIRTranslation.h"
 #include "mlir/Target/LLVMIR/LLVMTranslationInterface.h"
 #include "mlir/Target/LLVMIR/ModuleTranslation.h"
 #include "llvm/ADT/SmallVector.h"
 #include "llvm/IR/LLVMContext.h"
-#include "llvm/IR/Module.h"
-#include "llvm/IR/PassManager.h"
-#include "llvm/IRReader/IRReader.h"
-#include "llvm/Pass.h"
-#include "llvm/Passes/OptimizationLevel.h"
-#include "llvm/Passes/PassBuilder.h"
-#include "llvm/Support/CodeGen.h"
-#include "llvm/Target/TargetMachine.h"
-#include "llvm/Transforms/InstCombine/InstCombine.h"
-#include <pybind11/pybind11.h>
-#include <pybind11/stl.h>
-
-#ifdef _WIN32
-#define WIN32_LEAN_AND_MEAN
-#include <windows.h>
-#else
-#include <dlfcn.h>
-#endif
-#include "mlir/Dialect/LLVMIR/LLVMDialect.h"
-#include "mlir/Target/LLVMIR/Dialect/Builtin/BuiltinToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Dialect/LLVMIR/LLVMToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Dialect/NVVM/NVVMToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Dialect/ROCDL/ROCDLToLLVMIRTranslation.h"
-#include "mlir/Target/LLVMIR/Export.h"
-#include "mlir/Target/LLVMIR/LLVMTranslationInterface.h"
-#include "triton/Tools/Sys/GetEnv.hpp"
-#include "llvm/Linker/Linker.h"
-#include <filesystem>
-#include <iterator>
-
-#include "llvm/ADT/APInt.h"
-#include "llvm/ADT/STLExtras.h"
-#include "llvm/ADT/SmallVector.h"
-#include "llvm/Analysis/TargetTransformInfo.h"
-#include "llvm/IR/CallingConv.h"
-#include "llvm/IR/Constants.h"
-#include "llvm/IR/IRBuilder.h"
 #include "llvm/IR/LegacyPassManager.h"
 #include "llvm/IR/Module.h"
+#include "llvm/IR/PassManager.h"
 #include "llvm/IR/Verifier.h"
 #include "llvm/IRReader/IRReader.h"
 #include "llvm/Linker/Linker.h"
 #include "llvm/MC/TargetRegistry.h"
 #include "llvm/Pass.h"
 #include "llvm/Passes/OptimizationLevel.h"
 #include "llvm/Passes/PassBuilder.h"
-#include "llvm/Support/CommandLine.h"
-#include "llvm/Support/Error.h"
-#include "llvm/Support/FormatVariadic.h"
-#include "llvm/Support/SourceMgr.h"
-#include "llvm/Support/TargetSelect.h"
+#include "llvm/Support/CodeGen.h"
 #include "llvm/Target/TargetMachine.h"
 #include "llvm/Transforms/IPO/AlwaysInliner.h"
 #include "llvm/Transforms/InstCombine/InstCombine.h"
+#include <pybind11/pybind11.h>
+#include <pybind11/stl.h>
 
 namespace py = pybind11;
 
@@ -72,23 +30,6 @@ struct BreakStructPhiNodesPass : PassInfoMixin<BreakStructPhiNodesPass> {
 } // namespace llvm
 
 using namespace llvm;
-//
-// TODO: move to python
-static void initLLVM() {
-  static std::once_flag init_flag;
-  std::call_once(init_flag, []() {
-    LLVMInitializeNVPTXTargetInfo();
-    LLVMInitializeNVPTXTarget();
-    LLVMInitializeNVPTXTargetMC();
-    LLVMInitializeNVPTXAsmPrinter();
-
-    LLVMInitializeAMDGPUTarget();
-    LLVMInitializeAMDGPUTargetInfo();
-    LLVMInitializeAMDGPUTargetMC();
-    LLVMInitializeAMDGPUAsmParser();
-    LLVMInitializeAMDGPUAsmPrinter();
-  });
-}
 
 std::string translateLLVMIRToASM(llvm::Module &module,
                                  const std::string &triple,
@@ -97,7 +38,6 @@ std::string translateLLVMIRToASM(llvm::Module &module,
                                  const std::vector<std::string> &flags,
                                  bool enable_fp_fusion, bool isObject) {
   using namespace mlir;
-  initLLVM();
   // options
   auto options = llvm::cl::getRegisteredOptions();
   for (std::string flag : flags) {
@@ -152,26 +92,6 @@ std::string translateLLVMIRToASM(llvm::Module &module,
 
 using ret = py::return_value_policy;
 
-void findKernels(llvm::Module &M, std::set<llvm::Function *> &functions) {
-  llvm::NamedMDNode *annotations = M.getNamedMetadata("nvvm.annotations");
-  assert(annotations);
-  for (auto *Node : annotations->operands()) {
-    if (Node->getNumOperands() < 3)
-      continue;
-    llvm::Metadata *Op = Node->getOperand(0).get();
-    auto *ValueAsMetadata = llvm::dyn_cast<llvm::ValueAsMetadata>(Op);
-    if (!ValueAsMetadata)
-      continue;
-    auto *F = llvm::dyn_cast<llvm::Function>(ValueAsMetadata->getValue());
-    if (!F)
-      continue;
-    llvm::Metadata *Property = Node->getOperand(1).get();
-    if (auto *MDString = llvm::dyn_cast<llvm::MDString>(Property))
-      if (MDString->getString() == "kernel")
-        functions.insert(F);
-  }
-}
-
 void init_triton_llvm(py::module &&m) {
 
   py::class_<llvm::LLVMContext>(m, "context", py::module_local())
@@ -198,18 +118,9 @@ void init_triton_llvm(py::module &&m) {
   m.attr("OPTIMIZE_Os") = (llvm::OptimizationLevel::Os);
   m.attr("OPTIMIZE_Oz") = (llvm::OptimizationLevel::Oz);
 
-  m.def("to_module",
-        [](mlir::ModuleOp &mod, llvm::LLVMContext &ctx, std::string name) {
-          // TODO: dialects can be registered earlier...
-          // This shouldn't depend on ROCDL or NVVM
-          mlir::DialectRegistry registry;
-          mlir::registerBuiltinDialectTranslation(registry);
-          mlir::registerLLVMDialectTranslation(registry);
-          mlir::registerROCDLDialectTranslation(registry);
-          mlir::registerNVVMDialectTranslation(registry);
-          mod->getContext()->appendDialectRegistry(registry);
-          return mlir::translateModuleToLLVMIR(mod, ctx);
-        });
+  m.def("to_module", [](mlir::ModuleOp &mod, llvm::LLVMContext &ctx) {
+    return mlir::translateModuleToLLVMIR(mod, ctx);
+  });
 
   m.def("optimize_module", [](llvm::Module *mod,
                               const llvm::OptimizationLevel &opt) {
@@ -255,8 +166,7 @@ void init_triton_llvm(py::module &&m) {
       "translate_to_asm",
       [](std::string llvmIR, std::string triple, std::string proc,
          std::string features, std::vector<std::string> flags,
-         bool enable_fp_fusion,
-         bool isObject) -> std::tuple<py::object, std::string> {
+         bool enable_fp_fusion, bool isObject) -> py::object {
         py::gil_scoped_release allow_threads;
         // create LLVM module from C++
         llvm::LLVMContext context;
@@ -270,35 +180,15 @@ void init_triton_llvm(py::module &&m) {
               "failed to parse IR: " + error.getMessage() +
               "lineno: " + std::to_string(error.getLineNo()));
         }
-        // Get name of kernel in the module
-        std::set<llvm::Function *> kernels;
-        findKernels(*module, kernels);
-        assert(kernels.size() == 1);
-        std::string name = (*kernels.begin())->getName().str();
         std::string obj = translateLLVMIRToASM(
             *module, triple, proc, features, flags, enable_fp_fusion, isObject);
         if (isObject)
-          return std::make_tuple(py::bytes(obj), name);
+          return py::bytes(obj);
         else
-          return std::make_tuple(py::str(obj), name);
+          return py::str(obj);
       },
       ret::take_ownership);
 
-  m.def("set_nvvm_reflect_ftz", [](llvm::Module *mod) {
-    // please check https://llvm.org/docs/NVPTXUsage.html#reflection-parameters
-    // this will enable fast math path in libdevice
-    // for example, when enable nvvm-reflect-ftz, sqrt.approx.f32 will change to
-    // sqrt.approx.ftz.f32
-    using namespace llvm;
-    auto &ctx = mod->getContext();
-    Type *i32 = Type::getInt32Ty(ctx);
-    Metadata *mdFour = ConstantAsMetadata::get(ConstantInt::getSigned(i32, 4));
-    Metadata *mdName = MDString::get(ctx, "nvvm-reflect-ftz");
-    Metadata *mdOne = ConstantAsMetadata::get(ConstantInt::getSigned(i32, 1));
-    MDNode *reflect = MDNode::get(ctx, {mdFour, mdName, mdOne});
-    mod->addModuleFlag(reflect);
-  });
-
   m.def("link_extern_lib", [](llvm::Module *mod, std::string path) {
     llvm::SMDiagnostic err;
     auto &ctx = mod->getContext();
diff --git a/python/src/nvidia.cc b/python/src/nvidia.cc
@@ -1,10 +1,14 @@
 ﻿#include "mlir/Pass/Pass.h"
 #include "mlir/Pass/PassManager.h"
+#include "mlir/Target/LLVMIR/Dialect/NVVM/NVVMToLLVMIRTranslation.h"
 #include "passes.h"
 #include "triton/Conversion/NVGPUToLLVM/Passes.h"
 #include "triton/Conversion/TritonGPUToLLVM/Passes.h"
+#include "triton/Dialect/NVGPU/IR/Dialect.h"
 #include "triton/Dialect/TritonNvidiaGPU/IR/Dialect.h"
 #include "triton/Dialect/TritonNvidiaGPU/Transforms/Passes.h"
+#include "llvm/IR/Constants.h"
+#include "llvm/Support/TargetSelect.h"
 #include <pybind11/pybind11.h>
 #include <pybind11/stl.h>
 #include <pybind11/stl_bind.h>
@@ -18,7 +22,7 @@ void init_triton_nvidia_passes_ttgpuir(py::module &&m) {
   ADD_PASS_WRAPPER_1("add_rewrite_tensor_pointer",
                      mlir::createTritonGPURewriteTensorPointerPass, int);
   // TODO: it is weird to pass mlir::triton::NVVM here since the conversion is
-  // nvidia-specific
+  // nvidia-specificontext
   m.def("add_to_llvmir", [](mlir::PassManager &pm, int32_t capability,
                             mlir::triton::gpu::TMAMetadataTy *tmaMetadata) {
     pm.addPass(createConvertTritonGPUToLLVMPass(capability, mlir::triton::NVVM,
@@ -98,4 +102,41 @@ void init_triton_nvidia(py::module &&m) {
       .def_readwrite("TMADescArgIdx",
                      &mlir::triton::gpu::TMAInfo::TMADescArgIdx);
   py::bind_vector<std::vector<mlir::triton::gpu::TMAInfo>>(m, "TMAInfos");
+
+  // load dialects
+  m.def("load_dialects", [](mlir::MLIRContext &context) {
+    mlir::DialectRegistry registry;
+    registry.insert<mlir::triton::nvidia_gpu::TritonNvidiaGPUDialect,
+                    mlir::triton::nvgpu::NVGPUDialect>();
+    mlir::registerNVVMDialectTranslation(registry);
+    context.appendDialectRegistry(registry);
+    context.loadAllAvailableDialects();
+  });
+
+  // init llvm
+  m.def("init_llvm", []() {
+    static std::once_flag init_flag;
+    std::call_once(init_flag, []() {
+      LLVMInitializeNVPTXTargetInfo();
+      LLVMInitializeNVPTXTarget();
+      LLVMInitializeNVPTXTargetMC();
+      LLVMInitializeNVPTXAsmPrinter();
+    });
+  });
+
+  // TODO: could be done in python if we had a generic interface to set metadata
+  m.def("set_nvvm_reflect_ftz", [](llvm::Module *mod) {
+    // please check https://llvm.org/docs/NVPTXUsage.html#reflection-parameters
+    // this will enable fast math path in libdevice
+    // for example, when enable nvvm-reflect-ftz, sqrt.approx.f32 will change to
+    // sqrt.approx.ftz.f32
+    using namespace llvm;
+    auto &ctx = mod->getContext();
+    Type *i32 = Type::getInt32Ty(ctx);
+    auto *mdFour = ConstantAsMetadata::get(ConstantInt::getSigned(i32, 4));
+    auto *mdName = MDString::get(ctx, "nvvm-reflect-ftz");
+    auto *mdOne = ConstantAsMetadata::get(ConstantInt::getSigned(i32, 1));
+    auto *reflect = MDNode::get(ctx, {mdFour, mdName, mdOne});
+    mod->addModuleFlag(reflect);
+  });
 }
diff --git a/python/triton/compiler/backends/cuda.py b/python/triton/compiler/backends/cuda.py
@@ -74,6 +74,10 @@ def parse_options(self, opts) -> Any:
         args["max_num_imprecise_acc_default"] = 2**30 if self.capability == 90 else 0
         return CUDAOptions(**args)
 
+    @staticmethod
+    def load_dialects(ctx):
+        nvidia.load_dialects(ctx)
+
     @staticmethod
     def make_ttir(mod, metadata, opt):
         pm = ir.pass_manager(mod.context)
@@ -179,9 +183,10 @@ def make_llir(src, metadata, options, capability):
             passes.llvmir.add_di_scope(pm)
         pm.run(mod)
         # LLVM-IR (MLIR) -> LLVM-IR (LLVM)
+        nvidia.init_llvm()
         context = llvm.context()
-        llvm_mod = llvm.to_module(mod, context, "LLVMModule")
-        llvm.set_nvvm_reflect_ftz(llvm_mod)
+        llvm_mod = llvm.to_module(mod, context)
+        nvidia.set_nvvm_reflect_ftz(llvm_mod)
         if options.extern_libs:
             for name, path in options.extern_libs:
                 llvm.link_extern_lib(llvm_mod, path)
@@ -201,9 +206,12 @@ def make_llir(src, metadata, options, capability):
     @staticmethod
     def make_ptx(src, metadata, opt, capability):
         proc = 'sm_90a' if capability == 90 else f'sm_{capability}'
-        ret, name = llvm.translate_to_asm(src, 'nvptx64-nvidia-cuda', proc, '', ['nvptx-short-ptr'],
-                                          opt.enable_fp_fusion, False)
-        metadata["name"] = name
+        ret = llvm.translate_to_asm(src, 'nvptx64-nvidia-cuda', proc, '', ['nvptx-short-ptr'], opt.enable_fp_fusion,
+                                    False)
+        # Find kernel names (there should only be one)
+        names = re.findall(r".visible .entry ([a-zA-Z_][a-zA-Z0-9_]*)", ret)
+        assert len(names) == 1
+        metadata["name"] = names[0]
         # post-process
         ptx_version = opt.ptx_version
         if ptx_version is None:
diff --git a/python/triton/compiler/code_generator.py b/python/triton/compiler/code_generator.py
@@ -1189,10 +1189,8 @@ def kernel_suffix(signature, specialization):
     return suffix
 
 
-def ast_to_ttir(fn, specialization, options):
+def ast_to_ttir(fn, specialization, context, options):
     attrs = specialization.attrs
-    context = ir.context()
-    context.load_triton()
     # create kernel prototype
     cst_key = lambda i: fn.arg_names.index(i) if isinstance(i, str) else i
     constants = {cst_key(key): value for key, value in specialization.constants.items()}
diff --git a/python/triton/compiler/compiler.py b/python/triton/compiler/compiler.py
diff --git a/python/tutorials/01-vector-add.py b/python/tutorials/01-vector-add.py