accel-sim
diff --git a/‎gpu-simulator/configs/tested-cfgs/Volta-V100-HBM-mcm/128SM/Baseline/config_fermi_islip.icnt‎
Lines changed: 74 additions & 0 deletions b/‎gpu-simulator/configs/tested-cfgs/Volta-V100-HBM-mcm/128SM/Baseline/config_fermi_islip.icnt‎
Lines changed: 74 additions & 0 deletions
diff --git a/‎gpu-simulator/configs/tested-cfgs/Volta-V100-HBM-mcm/128SM/Baseline/gpgpusim.config‎
Lines changed: 193 additions & 0 deletions b/‎gpu-simulator/configs/tested-cfgs/Volta-V100-HBM-mcm/128SM/Baseline/gpgpusim.config‎
Lines changed: 193 additions & 0 deletions
diff --git a/‎gpu-simulator/configs/tested-cfgs/Volta-V100-HBM-mcm/128SM/RR_Parition/16xBW/anynet_file_4xBW.icnt‎
Lines changed: 116 additions & 0 deletions b/‎gpu-simulator/configs/tested-cfgs/Volta-V100-HBM-mcm/128SM/RR_Parition/16xBW/anynet_file_4xBW.icnt‎
Lines changed: 116 additions & 0 deletions
@@ -0,0 +1,74 @@
+//21*1 fly with 32 flits per packet under gpgpusim injection mode
+use_map = 0;
+flit_size = 40; 
+
+// currently we do not use this, see subnets below
+network_count = 2;
+
+// Topology
+topology = fly;
+k = 128;
+n = 1;
+
+// Routing
+
+routing_function = dest_tag;
+
+
+// Flow control
+
+num_vcs     = 1;
+vc_buf_size = 128;
+input_buffer_size = 256;
+ejection_buffer_size = 128;
+boundary_buffer_size = 128;
+
+wait_for_tail_credit = 0;
+
+// Router architecture
+
+vc_allocator = islip; //separable_input_first;
+sw_allocator = islip; //separable_input_first;
+alloc_iters  = 1;
+
+credit_delay   = 0;
+routing_delay  = 0;
+vc_alloc_delay = 1;
+sw_alloc_delay = 1;
+
+input_speedup     = 2;
+output_speedup    = 1;
+internal_speedup  = 2.0;
+
+// Traffic, GPGPU-Sim does not use this
+
+traffic                = uniform;
+packet_size ={{1,2,3,4},{10,20}};
+packet_size_rate={{1,1,1,1},{2,1}};
+
+// Simulation - Don't change
+
+sim_type       = gpgpusim;
+//sim_type = latency;
+injection_rate = 0.1;
+
+subnets = 2;
+
+// Always use read and write no matter following line
+//use_read_write = 1;
+
+
+read_request_subnet = 0;
+read_reply_subnet = 1;
+write_request_subnet = 0;
+write_reply_subnet = 1;
+
+read_request_begin_vc = 0;
+read_request_end_vc = 0;
+write_request_begin_vc = 0;
+write_request_end_vc = 0;
+read_reply_begin_vc = 0;
+read_reply_end_vc = 0;
+write_reply_begin_vc = 0;
+write_reply_end_vc = 0;
+
@@ -0,0 +1,193 @@
+# functional simulator specification
+-gpgpu_ptx_instruction_classification 0
+-gpgpu_ptx_sim_mode 0
+-gpgpu_ptx_force_max_capability 60 
+
+# SASS execution (only supported with CUDA >= 4.0)
+-gpgpu_ptx_convert_to_ptxplus 0
+-gpgpu_ptx_save_converted_ptxplus 0
+
+# high level architecture configuration
+-gpgpu_n_clusters 64
+-gpgpu_n_cores_per_cluster 2
+-gpgpu_n_mem 64
+-gpgpu_n_sub_partition_per_mchannel 1 
+
+# Pscal clock domains
+#-gpgpu_clock_domains <Core Clock>:<Interconnect Clock>:<L2 Clock>:<DRAM Clock>
+# Pascal NVIDIA GP100  clock domains are adopted from 
+# https://en.wikipedia.org/wiki/Nvidia_Tesla
+-gpgpu_clock_domains 1480.0:1480.0:1480.0:715.0
+
+# shader core pipeline config
+-gpgpu_shader_registers 65536
+
+# This implies a maximum of 64 warps/SM
+-gpgpu_shader_core_pipeline 2048:32 
+-gpgpu_shader_cta 32
+-gpgpu_simd_model 1 
+
+# Pipeline widths and number of FUs
+# ID_OC_SP,ID_OC_DP,ID_OC_SFU,ID_OC_MEM,OC_EX_SP,OC_EX_DP,OC_EX_SFU,OC_EX_MEM,EX_WB
+## Pascal GP100 has 2 SP SIMD units, 2 SFU units, 2 DP units per core
+## we need to scale the number of pipeline registers to be equal to the number of SP units
+-gpgpu_pipeline_widths 4,4,4,1,4,4,4,1,12
+-gpgpu_num_sp_units 4
+-gpgpu_num_sfu_units 4
+-gpgpu_num_dp_units 4
+
+# Instruction latencies and initiation intervals
+# "ADD,MAX,MUL,MAD,DIV"
+# All Div operations are executed on SFU unit
+# Throughput (initiation latency) are adopted from CUDA SDK document V8, section 5.4.1, Table 2
+-ptx_opcode_latency_int 4,13,4,5,145
+-ptx_opcode_initiation_int 1,1,1,1,4
+-ptx_opcode_latency_fp 4,13,4,5,39
+-ptx_opcode_initiation_fp 1,2,1,1,4
+-ptx_opcode_latency_dp 8,19,8,8,330
+-ptx_opcode_initiation_dp 2,2,2,2,130
+-ptx_opcode_latency_sfu 8
+-ptx_opcode_initiation_sfu 4
+
+
+# <nsets>:<bsize>:<assoc>,<rep>:<wr>:<alloc>:<wr_alloc>:<set_index_fn>,<mshr>:<N>:<merge>,<mq>:**<fifo_entry>
+# ** Optional parameter - Required when mshr_type==Texture Fifo
+# Note: Hashing set index function (H) only applies to a set size of 32 or 64. 
+# Pascal GP100 has 64KB Shared memory
+-gpgpu_cache:dl1  S:64:128:8,L:L:f:N:H,A:256:8,16:0,32
+-gpgpu_cache:dl1PrefL1  S:64:128:16,L:L:f:N:H,A:256:8,16:0,32
+-gpgpu_cache:dl1PrefShared  S:32:128:6,L:L:f:N:H,A:256:8,16:0,32
+-gpgpu_shmem_size 65536
+-gpgpu_shmem_size_PrefL1 1
+-gpgpu_shmem_size_PrefShared 98304
+-gmem_skip_L1D 1
+-icnt_flit_size 40
+-gpgpu_n_cluster_ejection_buffer_size 32
+
+# 32 sets, each 128 bytes 16-way for each memory sub partition (128 KB per memory sub partition). This gives  4MB L2 cache
+-gpgpu_cache:dl2 S:64:128:16,L:B:m:L:L,A:256:4,32:0,32
+-gpgpu_cache:dl2_texture_only 0 
+-gpgpu_dram_partition_queues 64:64:64:64
+-perf_sim_memcpy 0
+-memory_partition_indexing 0
+
+# 4 KB Inst.
+-gpgpu_cache:il1 N:8:128:4,L:R:f:N:L,S:2:48,4
+# 48 KB Tex 
+-gpgpu_tex_cache:l1 N:16:128:24,L:R:m:N:L,F:128:4,128:2
+# 12 KB Const
+-gpgpu_const_cache:l1 N:128:64:2,L:R:f:N:L,S:2:64,4
+
+# enable operand collector 
+-gpgpu_operand_collector_num_units_sp 12
+-gpgpu_operand_collector_num_units_sfu 6
+-gpgpu_operand_collector_num_units_mem 8
+-gpgpu_operand_collector_num_units_dp 6
+-gpgpu_operand_collector_num_in_ports_sp 4
+-gpgpu_operand_collector_num_out_ports_sp 4
+-gpgpu_operand_collector_num_in_ports_sfu 1
+-gpgpu_operand_collector_num_out_ports_sfu 1
+-gpgpu_operand_collector_num_in_ports_mem 1
+-gpgpu_operand_collector_num_out_ports_mem 1
+-gpgpu_operand_collector_num_in_ports_dp 1
+-gpgpu_operand_collector_num_out_ports_dp 1
+# gpgpu_num_reg_banks should be increased to 32
+-gpgpu_num_reg_banks 32
+
+# shared memory bankconflict detection 
+-gpgpu_shmem_num_banks 32
+-gpgpu_shmem_limited_broadcast 0
+-gpgpu_shmem_warp_parts 1
+-gpgpu_coalesce_arch 60
+
+## In Pascal, a warp scheduler can issue 2 insts per cycle using 2 diff execution units
+-gpgpu_max_insn_issue_per_warp 2
+-gpgpu_dual_issue_diff_exec_units 1
+
+# interconnection
+-network_mode 1 
+-inter_config_file config_fermi_islip.icnt
+
+# memory partition latency config 
+-rop_latency 120
+# DRAM latency should be lower compared to other configs, due to high-speed interposer connection
+-dram_latency 100
+
+# dram model config
+-gpgpu_dram_scheduler 1
+# The DRAM return queue and the scheduler queue together should provide buffer
+# to sustain the memory level parallelism to tolerate DRAM latency 
+# To allow 100% DRAM utility, there should at least be enough buffer to sustain
+# the minimum DRAM latency (100 core cycles).  I.e. 
+#   Total buffer space required = 100 x 924MHz / 700MHz = 132
+-gpgpu_frfcfs_dram_sched_queue_size 64
+-gpgpu_dram_return_queue_size 192
+
+# for HBM, 32 channles, each (128 bits) 16 bytes width
+-gpgpu_n_mem_per_ctrlr 1
+-gpgpu_dram_buswidth 16
+-gpgpu_dram_burst_length 2
+-dram_data_command_freq_ratio 2  # HBM is DDR
+-gpgpu_mem_address_mask 1
+-gpgpu_mem_addr_mapping dramid@8;00000000.00000000.00000000.00000000.0000RRRR.RRRRRRRR.RBBBBCCC.CCCSSSSS
+
+# HBM timing are adopted from hynix JESD235 standered and nVidia HPCA 2017 paper (http://www.cs.utah.edu/~nil/pubs/hpca17.pdf)
+# Timing for 1 GHZ
+# tRRDl and tWTR are missing, need to be added
+#-gpgpu_dram_timing_opt "nbk=16:CCD=1:RRD=4:RCD=14:RAS=33:RP=14:RC=47:
+#                        CL=14:WL=2:CDLR=3:WR=12:nbkgrp=4:CCDL=2:RTPL=4"
+
+# Timing for 715 MHZ, Tesla Pascal P100 HBM runs at 715 MHZ
+-gpgpu_dram_timing_opt "nbk=16:CCD=1:RRD=3:RCD=10:RAS=24:RP=10:RC=34:
+                        CL=10:WL=2:CDLR=3:WR=9:nbkgrp=4:CCDL=2:RTPL=3"
+
+# HBM has dual bus interface, in which it can issue two col and row commands at a time
+-dual_bus_interface 1
+# select lower bits for bnkgrp to increase bnkgrp parallelism
+-dram_bnk_indexing_policy 0
+-dram_bnkgrp_indexing_policy 1
+
+#-Seperate_Write_Queue_Enable 1
+#-Write_Queue_Size 64:56:32
+
+# Pascal has two schedulers per core
+-gpgpu_num_sched_per_core 4
+# Two Level Scheduler with active and pending pools
+#-gpgpu_scheduler two_level_active:6:0:1
+# Loose round robbin scheduler
+#-gpgpu_scheduler lrr
+# Greedy then oldest scheduler
+-gpgpu_scheduler gto
+
+# stat collection
+-gpgpu_memlatency_stat 14 
+-gpgpu_runtime_stat 500
+-enable_ptx_file_line_stats 1
+-visualizer_enabled 0
+
+# power model configs, disable it untill we create a real energy model for Pascal 100
+-power_simulation_enabled 0
+-gpuwattch_xml_file gpuwattch_gtx480.xml
+
+# tracing functionality
+#-trace_enabled 1
+#-trace_components WARP_SCHEDULER,SCOREBOARD
+#-trace_sampling_core 0
+
+# Multichip config
+#if you change the parition mapping, ensure you change the any_net file as well
+#if FT policy is used, then it is impo to use parition_mapping = 0 (i.e. consecutive)
+-multi_chip_mode 0
+-n_gpu_chips 1
+-mcm_partition_mapping 1
+-mcm_vm_ft_policy 0
+-mcm_vm_pagesize 2048
+-mcm_coarse_grain_cta_sched 0
+-mcm_cta_sched_grain 1
+-cache_remote_data 0
+-m_n_external 0
+-cache_remote_only_once 0
+-gpgpu_cache:dr2 S:64:128:8,L:E:m:N:L,A:256:4,32:0,32
+-remote_cache_latency 0
+-offchiplet_latency 0
+-gpgpu_flush_l1_cache 1
@@ -0,0 +1,116 @@
+router 0 node 128
+router 1 node 129
+router 2 node 130
+router 3 node 131
+router 4 node 132
+router 5 node 133
+router 6 node 134
+router 7 node 135
+router 8 node 136
+router 9 node 137
+router 10 node 138
+router 11 node 139
+router 12 node 140
+router 13 node 141
+router 14 node 142
+router 15 node 143
+router 16 node 144
+router 17 node 145
+router 18 node 146
+router 19 node 147
+router 20 node 148
+router 21 node 149
+router 22 node 150
+router 23 node 151
+router 24 node 152
+router 25 node 153
+router 26 node 154
+router 27 node 155
+router 28 node 156
+router 29 node 157
+router 30 node 158
+router 31 node 159
+router 32 node 160
+router 33 node 161
+router 34 node 162
+router 35 node 163
+router 36 node 164
+router 37 node 165
+router 38 node 166
+router 39 node 167
+router 40 node 168
+router 41 node 169
+router 42 node 170
+router 43 node 171
+router 44 node 172
+router 45 node 173
+router 46 node 174
+router 47 node 175
+router 48 node 176
+router 49 node 177
+router 50 node 178
+router 51 node 179
+router 52 node 180
+router 53 node 181
+router 54 node 182
+router 55 node 183
+router 56 node 184
+router 57 node 185
+router 58 node 186
+router 59 node 187
+router 60 node 188
+router 61 node 189
+router 62 node 190
+router 63 node 191
+router 64 node 0 node 1 node 2 node 3 node 4 node 5 node 6 node 7 node 8 node 9 node 10 node 11 node 12 node 13 node 14 node 15 node 16 node 17 node 18 node 19 node 20 node 21 node 22 node 23 node 24 node 25 node 26 node 27 node 28 node 29 node 30 node 31 router 0 router 4 router 8 router 12 router 16 router 20 router 24 router 28 router 32 router 36 router 40 router 44 router 48 router 52 router 56 router 60 node 192 node 196 node 200 node 204 node 208 node 212 node 216 node 220 node 224 node 228 node 232 node 236 node 240 node 244 node 248 node 252
+router 65 node 32 node 33 node 34 node 35 node 36 node 37 node 38 node 39 node 40 node 41 node 42 node 43 node 44 node 45 node 46 node 47 node 48 node 49 node 50 node 51 node 52 node 53 node 54 node 55 node 56 node 57 node 58 node 59 node 60 node 61 node 62 node 63 router 1 router 5 router 9 router 13 router 17 router 21 router 25 router 29 router 33 router 37 router 41 router 45 router 49 router 53 router 57 router 61 node 193 node 197 node 201 node 205 node 209 node 213 node 217 node 221 node 225 node 229 node 233 node 237 node 241 node 245 node 249 node 253
+router 66 node 64 node 65 node 66 node 67 node 68 node 69 node 70 node 71 node 72 node 73 node 74 node 75 node 76 node 77 node 78 node 79 node 80 node 81 node 82 node 83 node 84 node 85 node 86 node 87 node 88 node 89 node 90 node 91 node 92 node 93 node 94 node 95 router 2 router 6 router 10 router 14 router 18 router 22 router 26 router 30 router 34 router 38 router 42 router 46 router 50 router 54 router 58 router 62 node 194 node 198 node 202 node 206 node 210 node 214 node 218 node 222 node 226 node 230 node 234 node 238 node 242 node 246 node 250 node 254
+router 67 node 96 node 97 node 98 node 99 node 100 node 101 node 102 node 103 node 104 node 105 node 106 node 107 node 108 node 109 node 110 node 111 node 112 node 113 node 114 node 115 node 116 node 117 node 118 node 119 node 120 node 121 node 122 node 123 node 124 node 125 node 126 node 127 router 3 router 7 router 11 router 15 router 19 router 23 router 27 router 31 router 35 router 39 router 43 router 47 router 51 router 55 router 59 router 63 node 195 node 199 node 203 node 207 node 211 node 215 node 219 node 223 node 227 node 231 node 235 node 239 node 243 node 247 node 251 node 255
+router 68 router 64 router 1 router 5 router 9 router 13
+router 69 router 64 router 17 router 21 router 25 router 29
+router 70 router 64 router 33 router 37 router 41 router 45
+router 71 router 64 router 49 router 53 router 57 router 61
+router 72 router 64 router 2 router 6 router 10 router 14
+router 73 router 64 router 18 router 22 router 26 router 30
+router 74 router 64 router 34 router 38 router 42 router 46
+router 75 router 64 router 50 router 54 router 58 router 62
+router 76 router 64 router 3 router 7 router 11 router 15
+router 77 router 64 router 19 router 23 router 27 router 31
+router 78 router 64 router 35 router 39 router 43 router 47
+router 79 router 64 router 51 router 55 router 59 router 63
+router 80 router 65 router 0 router 4 router 8 router 12
+router 81 router 65 router 16 router 20 router 24 router 28
+router 82 router 65 router 32 router 36 router 40 router 44
+router 83 router 65 router 48 router 52 router 56 router 60
+router 84 router 65 router 2 router 6 router 10 router 14
+router 85 router 65 router 18 router 22 router 26 router 30
+router 86 router 65 router 34 router 38 router 42 router 46
+router 87 router 65 router 50 router 54 router 58 router 62
+router 88 router 65 router 3 router 7 router 11 router 15
+router 89 router 65 router 19 router 23 router 27 router 31
+router 90 router 65 router 35 router 39 router 43 router 47
+router 91 router 65 router 51 router 55 router 59 router 63
+router 92 router 66 router 0 router 4 router 8 router 12
+router 93 router 66 router 16 router 20 router 24 router 28
+router 94 router 66 router 32 router 36 router 40 router 44
+router 95 router 66 router 48 router 52 router 56 router 60
+router 96 router 66 router 1 router 5 router 9 router 13
+router 97 router 66 router 17 router 21 router 25 router 29
+router 98 router 66 router 33 router 37 router 41 router 45
+router 99 router 66 router 49 router 53 router 57 router 61
+router 100 router 66 router 3 router 7 router 11 router 15
+router 101 router 66 router 19 router 23 router 27 router 31
+router 102 router 66 router 35 router 39 router 43 router 47
+router 103 router 66 router 51 router 55 router 59 router 63
+router 104 router 67 router 0 router 4 router 8 router 12
+router 105 router 67 router 16 router 20 router 24 router 28
+router 106 router 67 router 32 router 36 router 40 router 44
+router 107 router 67 router 48 router 52 router 56 router 60
+router 108 router 67 router 1 router 5 router 9 router 13
+router 109 router 67 router 17 router 21 router 25 router 29
+router 110 router 67 router 33 router 37 router 41 router 45
+router 111 router 67 router 49 router 53 router 57 router 61
+router 112 router 67 router 2 router 6 router 10 router 14
+router 113 router 67 router 18 router 22 router 26 router 30
+router 114 router 67 router 34 router 38 router 42 router 46
+router 115 router 67 router 50 router 54 router 58 router 62