module_io_quilt_old.F: Invalid communicator

Any issues with the actual running of the WRF.

module_io_quilt_old.F: Invalid communicator

Postby puneet336 » Tue Jul 10, 2018 11:13 am

Dear All,
I have a simulation (wrf.exe) which works fine upto 101 nodes. But when i try to run the simulation above 101 nodes (say 102 or 200 ) and i get following error message -

Code: Select all
taskid: 3635 hostname: nid01237
 module_io_quilt_old.F        2931 F
Quilting with   3 groups of  12 I/O tasks.
Rank 3635 [Tue Jul 10 20:09:12 2018] [c6-0c1s5n1] Fatal error in PMPI_Cart_create: Invalid communicator, error stack:
PMPI_Cart_create(318): MPI_Cart_create(comm=0xffff8002, ndims=2, dims=0x7ffffffed170, periods=0xb72ccf0, reorder=0, comm_cart=0x7ffffffed16c) failed
PMPI_Cart_create(256): Invalid communicator
forrtl: error (76): Abort trap signal
Image              PC                Routine            Line        Source
wrf.exe            00000000035F2605  Unknown               Unknown  Unknown
wrf.exe            00000000035F0227  Unknown               Unknown  Unknown
wrf.exe            000000000357DEA4  Unknown               Unknown  Unknown
wrf.exe            000000000357DCB6  Unknown               Unknown  Unknown
wrf.exe            00000000034F0039  Unknown               Unknown  Unknown
wrf.exe            00000000034F74B8  Unknown               Unknown  Unknown
wrf.exe            000000000324F6F0  Unknown               Unknown  Unknown
wrf.exe            000000000330613B  Unknown               Unknown  Unknown
wrf.exe            000000000361595A  Unknown               Unknown  Unknown
wrf.exe            000000000333FC62  Unknown               Unknown  Unknown
wrf.exe            0000000003324670  Unknown               Unknown  Unknown
wrf.exe            00000000033247B6  Unknown               Unknown  Unknown
wrf.exe            00000000033D8A5A  Unknown               Unknown  Unknown
wrf.exe            000000000331C654  Unknown               Unknown  Unknown
wrf.exe            0000000000929CF6  Unknown               Unknown  Unknown
wrf.exe            000000000040ADDB  Unknown               Unknown  Unknown
wrf.exe            000000000040A40F  Unknown               Unknown  Unknown
wrf.exe            000000000040A39E  Unknown               Unknown  Unknown
wrf.exe            000000000360F699  Unknown               Unknown  Unknown
wrf.exe            000000000040A289  Unknown               Unknown  Unknown


the executable was compiled using intel v17. I tried running the simulation with wrf.exe compiled using GNU (+mpich) compiler & i got similar error -

Code: Select all
taskid: 3671 hostname: nid01065
 module_io_quilt_old.F        2931 F
Quilting with   1 groups of   0 I/O tasks.
Rank 3671 [Tue Jul 10 20:23:24 2018] [c5-0c1s10n1] Fatal error in PMPI_Cart_create: Invalid communicator, error stack:
PMPI_Cart_create(318): MPI_Cart_create(comm=0xffff8002, ndims=2, dims=0x7fffffff6b30, periods=0x794bd20, reorder=0, comm_cart=0x7fffffff6b28) failed
PMPI_Cart_create(256): Invalid communicator

Program received signal SIGABRT: Process abort signal.

Backtrace for this error:
#0  0x2bfb70f in ???
        at /home/abuild/rpmbuild/BUILD/glibc-2.22/nptl/../sysdeps/unix/sysv/linux/x86_64/sigaction.c:0
#1  0x2bfb6db in raise
        at ../sysdeps/unix/sysv/linux/pt-raise.c:36
#2  0x2e0d1b9 in abort
        at /home/abuild/rpmbuild/BUILD/glibc-2.22/stdlib/abort.c:78
#3  0x2c59ff1 in ???
#4  0x2c3ea0f in ???
#5  0x2c3eb55 in ???
#6  0x2cf2b09 in ???
#7  0x2c36c93 in ???
#8  0x693eb6 in ???
#9  0x40dcaf in ???
#10  0x40a549 in ???
#11  0x2e07128 in __libc_start_main
        at /home/abuild/rpmbuild/BUILD/glibc-2.22/csu/libc-start.c:289
#12  0x40cdf8 in ???
        at ../sysdeps/x86_64/start.S:118


Is this a bug or are there some issues with namelist file which is now allowing the simulation to go beyond 101 nodes?.
eagerly awaiting your replies.


namelist -
Code: Select all
 &time_control
 run_hours                           = 75,
 start_year                          = 2018, 2000, 2000,
 start_month                         = 07,   01,   01,
 start_day                           = 09,   24,   24,
 start_hour                          = 00,   12,   12,
 start_minute                        = 00,   00,   00,
 start_second                        = 00,   00,   00,
 end_year                            = 2018, 2000, 2000,
 end_month                           = 07,   01,   01,
 end_day                             = 12,   25,   25,
 end_hour                            = 06,   12,   12,
 end_minute                          = 00,   00,   00,
 end_second                          = 00,   00,   00,
 interval_seconds                    = 21600
 input_from_file                     = .true.,.true.,.true.,
 history_interval                    = 60,  60,   60,
 history_outname        = "wrfout_d<domain>_<date>.nc"
 frames_per_outfile                  = 1, 1, 1,
 restart                             = .false.,
 restart_interval                    = 10800,
 io_form_history                     = 2
 io_form_restart                     = 2
 io_form_input                       = 2
 io_form_boundary                    = 2
 debug_level                         = 0
 /

 &domains
 time_step                           = 12,
 time_step_fract_num                 = 0,
 time_step_fract_den                 = 1,
 max_dom                             = 1,
 s_we           = 1, 1, 1,
 e_we           = 1951, 1321, 199,
 s_sn           = 1, 1, 1,
 e_sn           = 1851, 1321, 199
 s_vert                              = 1, 1, 1
 e_vert                              = 45,    30,    30,
 p_top_requested                     = 5000,
 num_metgrid_levels                  = 32,
 num_metgrid_soil_levels             = 4,
 dx                                  = 3000, 10000,  3333.33,
 dy                                  = 3000, 10000,  3333.33,
 grid_id                             = 1,     2,     3,
 parent_id                           = 0,     1,     2,
 i_parent_start                      = 1,     31,    30,
 j_parent_start                      = 1,     17,    30,
 parent_grid_ratio                   = 1,     3,     3,
 parent_time_step_ratio              = 1,     3,     3,
 p_top_requested        = 5000,
 eta_levels             = 1.000, 0.995, 0.988, 0.980, 0.970, 0.960, 0.945, 0.930, 0.910, 0.890, 0.870, 0.850, 0.820, 0.790, 0.760, 0.730, 0.690, 0.650, 0.610, 0.570, 0.530,0.490, 0.450, 0.410, 0.370, 0.340, 0.310, 0.280, 0.260, 0.240, 0.220, 0.200, 0.180, 0.160, 0.140, 0.120, 0.100, 0.082, 0.066, 0.052, 0.040, 0.030, 0.020, 0.010, 0.000,
 feedback                            = 1,
 smooth_option                       = 1
 tile_strategy                       = 0
 nproc_x                             = 36
 nproc_y                             = 100

 /

 &physics
 mp_physics             = 4,     4,     8,
 ra_lw_physics          = 5,     4,     4,
 ra_sw_physics          = 5,     4,     4,
 radt                   = 9,     9,    10,
 sf_sfclay_physics      = 2,     2,     2,
 sf_surface_physics     = 2,     2,     2,
 bl_pbl_physics         = 2,     2,     2,
 bldt                   = 0,     0,     0,
 cu_physics             = 5,     5,     0,
 cudt                   = 5,     5,     5,
 isfflx                 = 1,
 ifsnow                 = 0,
 icloud                 = 1,
 surface_input_source   = 1,
 num_soil_layers        = 4,
 mp_zero_out            = 0,
 maxiens                = 1,
 maxens                 = 3,
 maxens2                = 3,
 maxens3                = 16,
 /

 &fdda
 /

 &dynamics
 w_damping                           = 1,
 diff_opt                            = 1,      1,      1,
 km_opt                              = 4,      4,      4,
 diff_6th_opt                        = 2,      0,      0,
 diff_6th_factor                     = 0.12,   0.12,   0.12,
 base_temp                           = 290.
 damp_opt                            = 3,
 zdamp                               = 5000.,  5000.,  5000.,
 dampcoef                            = 0.3,    0.3,    0.3
 khdif                               = 0,      0,      0,
 kvdif                               = 0,      0,      0,
 non_hydrostatic                     = .true., .true., .true.,
 moist_adv_opt                       = 1,      1,      1,
 scalar_adv_opt                      = 1,      1,      1,
 /

 &bdy_control
 spec_bdy_width                      = 5,
 spec_zone                           = 1,
 relax_zone                          = 4,
 specified                           = .true., .false.,.false.,
 nested                              = .false., .true., .true.,
 /

 &grib2
 /

 &namelist_quilt
 nio_tasks_per_group = 0,
 nio_groups = 1,
 /
puneet336
 
Posts: 6
Joined: Thu Mar 22, 2018 2:02 am

Re: module_io_quilt_old.F: Invalid communicator

Postby puneet336 » Fri Jul 13, 2018 12:40 pm

I have another observation to share .
the wrf.exe works only on 100 & 101 nodes (we have 36 cores per node, so - 3600 / 3636 works fine).
below 100 nodes, simulation fails with following error message -

Code: Select all
taskid: 3563 hostname: nid01062
 module_io_quilt_old.F        2931 F
-------------- FATAL CALLED ---------------
FATAL CALLED FROM FILE:  <stdin>  LINE:    5522
 check comm_start, nest_pes_x, nest_pes_y settings in namelist for comm            1
-------------------------------------------
Rank 3563 [Fri Jul 13 22:04:01 2018] [c5-0c1s9n2] application called MPI_Abort(MPI_COMM_WORLD, 1) - process 3563
forrtl: error (76): Abort trap signal
Image              PC                Routine            Line        Source
wrf.exe            00000000041E87AA  Unknown               Unknown  Unknown
wrf.exe            0000000003EF77B0  Unknown               Unknown  Unknown
wrf.exe            00000000041C860B  Unknown               Unknown  Unknown
puneet336
 
Posts: 6
Joined: Thu Mar 22, 2018 2:02 am


Return to Runtime Problems

Who is online

Users browsing this forum: No registered users and 7 guests