<div dir="ltr">Hi John,<div><br></div><div>On the Cray with KNL+omnipath you'll end up using the PSM2 provider.</div><div>Could you double check that your copy of run_gnitest has</div><div><br></div><div>







<p class="gmail-p1"><span class="gmail-s1">export</span><span class="gmail-s2"> UGNI_FMA_SHARED=</span><span class="gmail-s3">0</span></p><p class="gmail-p1">is being set?</p><p class="gmail-p1">Howard</p><p class="gmail-p1"><br></p></div></div><div class="gmail_extra"><br><div class="gmail_quote">2017-02-14 12:10 GMT-07:00 Biddiscombe, John A. <span dir="ltr"><<a href="mailto:biddisco@cscs.ch" target="_blank">biddisco@cscs.ch</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">The nodes I requested (in exclusive mode) are, non gpu nodes.<br>
<br>
XC40 Compute Nodes<br>
Intel® Xeon® E5-2695 v4 @ 2.10GHz (2 x 18 cores, 64/128 GB RAM) (daint-mc)<br>
<br>
my slurm allocation uses<br>
<br>
salloc -N 2 -C mc --time=02:00:00 --exclusive<br>
<br>
I can try on  GPU nodes to see if anything is different.<br>
<br>
I have another cray with KNL + omnipath I’ll test on just out of curiosity.<br>
<br>
JB<br>
<br>
From: Howard Pritchard <<a href="mailto:hppritcha@gmail.com">hppritcha@gmail.com</a>><br>
Date: Tuesday, 14 February 2017 at 19:47<br>
To: John Biddiscombe <<a href="mailto:biddisco@cscs.ch">biddisco@cscs.ch</a>><br>
Cc: "<a href="mailto:libfabric-users@lists.openfabrics.org">libfabric-users@lists.<wbr>openfabrics.org</a>" <<a href="mailto:libfabric-users@lists.openfabrics.org">libfabric-users@lists.<wbr>openfabrics.org</a>><br>
<div class="HOEnZb"><div class="h5">Subject: Re: [libfabric-users] FI_EP_MSG on cray<br>
<br>
HI John,<br>
<br>
These messages look like the type you get if you don't have exclusive access to the node.  Does your system use<br>
ALPS or SLURM?  There's another factor as well, Â do these nodes have GPUs?  This may impact your jobs Aries hw resource limits.  We don't typically test libfabric on Cray XC nodes with GPUs.<br>
<br>
Howard<br>
<br>
<br>
2017-02-14 7:26 GMT-07:00 Biddiscombe, John A. <<a href="mailto:biddisco@cscs.ch">biddisco@cscs.ch</a>>:<br>
Sorry Howard, this went into my spam folder and I missed it.<br>
 <br>
I have run the gni test and it creates rather a lot of output when debug is enabled.<br>
I’ve put the output (800MB) here <a href="ftp://ftp.cscs.ch/out/biddisco/cray/gnitestout.txt" rel="noreferrer" target="_blank">ftp://ftp.cscs.ch/out/<wbr>biddisco/cray/gnitestout.txt</a><br>
 <br>
The synopsis is<br>
[====] Synthesis: Tested: 631 | Passing: 573 | Failing: 58 | Crashing: 57<br>
 <br>
with the majority of errors being of the form<br>
[   240]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)  returned error - Invalid argument<br>
with occasional<br>
[   240]   JOB: GNI_CdmAttach: ioctl(GNI_IOC_NIC_SETATTR) NIC[0] returned error - No space left on device<br>
 <br>
(but from what I read the gnitest only runs on one node, so it may not be much use).<br>
 <br>
Thanks for taking the time to investigate.<br>
 <br>
PS. I forgot to ask - if the FI_EP_MSG or gni is due in 1.5.0 then what sort of timescale would one expect that to be in?<br>
 <br>
JB<br>
 <br>
From: Howard Pritchard [mailto:<a href="mailto:hppritcha@gmail.com">hppritcha@gmail.com</a>]<br>
Sent: 14 February 2017 00:08<br>
To: Biddiscombe, John A.<br>
Cc: <a href="mailto:libfabric-users@lists.openfabrics.org">libfabric-users@lists.<wbr>openfabrics.org</a><br>
Subject: Re: [libfabric-users] FI_EP_MSG on cray<br>
 <br>
Hi John,<br>
 <br>
Could you try the run_gnitest script with this UGNI debug level set? Â  I'd like to understand why that's failing for you.<br>
 <br>
I cannot get fi_pingpong to work with FI_EP_MSG for GNI provider.  It should work though.  I filed an issue on the GNI downstream provider repo.<br>
 <br>
Howard<br>
 <br>
 <br>
 <br>
 <br>
 <br>
2017-02-13 13:21 GMT-07:00 Biddiscombe, John A. <<a href="mailto:biddisco@cscs.ch">biddisco@cscs.ch</a>>:<br>
Howard, here’s some output â€¦<br>
 <br>
The machine is the cray piz daint at CSCS,<br>
 <br>
Allocation as follows<br>
 <br>
salloc -N 2 -C mc --time=02:00:00 â€“exclusive<br>
 <br>
daint102:/scratch/snx3000/<wbr>biddisco/build$ export UGNI_DEBUG=10<br>
daint102:/scratch/snx3000/<wbr>biddisco/build$ ./frun.sh ~/apps/fabtests/bin/fi_msg<br>
running /users/biddisco/apps/fabtests/<wbr>bin/fi_msg   on nid00[722,724]<br>
nid00722 is 148.187.34.215<br>
Generated command is  srun -n 2 --ntasks-per-node=1 -l --multi-prog ./scalable.conf<br>
0 /users/biddisco/apps/fabtests/<wbr>bin/fi_msg -p gni<br>
1 /users/biddisco/apps/fabtests/<wbr>bin/fi_msg -p gni   148.187.34.215<br>
 <br>
0: [    44] GNII_DebugInit: GNII_debug_level: 10 GNII_subsys_debug: 0 GNII_debug_mask: 0x0 GNII_debug_inst_id: 44<br>
0: [    44]   JOB: GNII_GetKernelVersion: kgni version major = 0x0 minor 0x45 code 0xb9 built with major = 0x0 minor = 0x45 code 0x4e24<br>
0: [    44]   JOB: GNI_GetJobResInfo: job resource: FMA (6) used: 0 limit: 123<br>
0: [    44]   JOB: GNII_GetKernelVersion: kgni version major = 0x0 minor 0x45 code 0xb9 built with major = 0x0 minor = 0x45 code 0x4e24<br>
0: [    44]   JOB: GNI_GetJobResInfo: job resource: CQ (5) used: 0 limit: 509<br>
0: fi_getinfo(): common/shared.c:454, ret=-61 (No data available)<br>
1: [    36] GNII_DebugInit: GNII_debug_level: 10 GNII_subsys_debug: 0 GNII_debug_mask: 0x0 GNII_debug_inst_id: 36<br>
1: [    36]   JOB: GNII_GetKernelVersion: kgni version major = 0x0 minor 0x45 code 0xb9 built with major = 0x0 minor = 0x45 code 0x4e24<br>
1: [  Â Â 36]   JOB: GNI_GetJobResInfo: job resource: FMA (6) used: 0 limit: 123<br>
1: [    36]   JOB: GNII_GetKernelVersion: kgni version major = 0x0 minor 0x45 code 0xb9 built with major = 0x0 minor = 0x45 code 0x4e24<br>
1: [    36]   JOB: GNI_GetJobResInfo: job resource: CQ (5) used: 0 limit: 509<br>
1: [    36]   JOB: GNII_GetKernelVersion: kgni version major = 0x0 minor 0x45 code 0xb9 built with major = 0x0 minor = 0x45 code 0x4e24<br>
1: [    36]   FMA: GNI_CdmAttach: FMA window size: 32768<br>
1: [    36]   FMA: GNI_CdmAttach: NOPRIV_ERR masked<br>
1: [    36]   JOB: GNI_CdmAttach: ptag = 36 inst_id = 13864961 fma_window = 0x0000000000000000 fma_ctrl = 0x0000000000000000<br>
1: [    36]    CQ: GNI_CqCreate: entry_count: 1361 reqs: 1361 adjusted entries: 1395 alloc_count: 1396<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)<br>
1: [    36]    CQ: cq_create: #1 cq created, kern_cq_descr = 1, mode = 2, rd_index_ptr = 0x2aaaaaad7ba0, queue = 0x2aaaaaad5000, intr_mask = (nil)<br>
1: [    36]    CQ: GNI_CqCreate: entry_count: 1361 reqs: 1361 adjusted entries: 1395 alloc_count: 1396<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)<br>
1: [    36]    CQ: cq_create: #1 cq created, kern_cq_descr = 394, mode = 20, rd_index_ptr = 0x2aaaaaadc000, queue = 0x2aaaaaad8000, intr_mask = (nil)<br>
1: [    36] FLBTE: GNII_FlbteInit: FLBTE: tx_counter 0x2aaaaaace008, chan 2, max_len -1, total 511<br>
1: [    36]    CQ: GNI_CqCreate: entry_count: 2048 reqs: 2048 adjusted entries: 2559 alloc_count: 2560<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)<br>
1: [    36]    CQ: cq_create: #1 cq created, kern_cq_descr = 395, mode = 4, rd_index_ptr = 0x2aaaaaae6000, queue = 0x2aaaaaade000, intr_mask = (nil)<br>
1: [    36]    CQ: GNI_CqCreate: entry_count: 2048 reqs: 2048 adjusted entries: 2559 alloc_count: 2560<br>
1: [    36]  Â Â CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)<br>
1: [    36]    CQ: cq_create: #1 cq created, kern_cq_descr = 396, mode = 5, rd_index_ptr = 0x2aaaaaaef000, queue = 0x2aaaaaae7000, intr_mask = 0x2aaaaaacf000<br>
1: [    36]    CQ: GNI_CqCreate: entry_count: 16384 reqs: 16384 adjusted entries: 16895 alloc_count: 16896<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)  returned error - Invalid argument<br>
1: [    36]    CQ: GNI_CqCreate: GNI_IOC_CQ_CREATE with PHYS_MEM failed trying without PHYS_MEM<br>
1: [    36]    MR: GNI_MemRegister: Mem reg of 135168 length at addr 0x2aaaaaaf0000<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)<br>
1: [    36]    CQ: cq_create: #1 cq created, kern_cq_descr = 397, mode = 0, rd_index_ptr = 0x2aaaaab11000, queue = 0x2aaaaaaf0000, intr_mask = (nil)<br>
1: [    36]    CQ: GNI_CqCreate: entry_count: 16384 reqs: 16384 adjusted entries: 16895 alloc_count: 16896<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)  returned error - Invalid argument<br>
1: [    36]    CQ: GNI_CqCreate: GNI_IOC_CQ_CREATE with PHYS_MEM failed trying without PHYS_MEM<br>
1: [    36]    MR: GNI_MemRegister: Mem reg of 135168 length at addr 0x2aaaaab23000<br>
1: [    36]    CQ: cq_create: ioctl(GNI_IOC_CQ_CREATE)<br>
1: [    36]    CQ: cq_create: #1 cq created, kern_cq_descr = 398, mode = 1, rd_index_ptr = 0x2aaaaab12000, queue = 0x2aaaaab23000, intr_mask = 0x2aaaaaacf004<br>
1: [    36]    MR: GNI_MemRegister: Mem reg of 136314880 length at addr 0x2aaaae400000<br>
srun: error: nid00722: task 0: Exited with exit code 61<br>
srun: Terminating job step 789872.11<br>
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.<br>
srun: error: nid00724: task 1: Killed<br>
daint102:/scratch/snx3000/<wbr>biddisco/build$<br>
<br>
______________________________<wbr>_________________<br>
Libfabric-users mailing list<br>
<a href="mailto:Libfabric-users@lists.openfabrics.org">Libfabric-users@lists.<wbr>openfabrics.org</a><br>
<a href="http://lists.openfabrics.org/mailman/listinfo/libfabric-users" rel="noreferrer" target="_blank">http://lists.openfabrics.org/<wbr>mailman/listinfo/libfabric-<wbr>users</a><br>
 <br>
<br>
<br>
<br>
</div></div></blockquote></div><br></div>