<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div id="Signature">
<div id="divtagdefaultwrapper" dir="ltr" style="font-size:12pt; color:#000000; font-family:Calibri,Helvetica,sans-serif">
<p style="margin-top: 0px; margin-bottom: 0px;"></p>
<div><span>Hi, we are currently standing up a new cluster with Mellanox ConnectX-5 adapters. I have found that using openMPI, mvapich2, and intel2018-mpi, we can run MPI jobs on all 960 cores in the cluster, however, using intel2019-mpi we can't get beyond
 ~300 mpi ranks. If we do, we get the following error for every rank: <br>
</span>
<div><br>
</div>
<div>Abort(273768207) on node 650 (rank 650 in comm 0): Fatal error in PMPI_Comm_split: Other MPI error, error stack:
<br>
</div>
<div>PMPI_Comm_split(507)...................: MPI_Comm_split(MPI_COMM_WORLD, color=0, key=650, new_comm=0x7911e8) failed
<br>
</div>
<div>PMPI_Comm_split(489)...................: <br>
</div>
<div>MPIR_Comm_split_impl(167)..............: <br>
</div>
<div>MPIR_Allgather_intra_auto(145).........: Failure during collective <br>
</div>
<div>MPIR_Allgather_intra_auto(141).........: <br>
</div>
<div>MPIR_Allgather_intra_brucks(115).......: <br>
</div>
<div>MPIC_Sendrecv(344).....................: <br>
</div>
<div>MPID_Isend(662)........................: <br>
</div>
<div>MPID_isend_unsafe(282).................: <br>
</div>
<div>MPIDI_OFI_send_lightweight_request(106): <br>
</div>
<div>(unknown)(): Other MPI error <br>
</div>
<div>----------------------------------------------------------------------------------------------------------
<br>
</div>
<div>This is using the default FI_PROVIDER of ofi_rxm. If we switch to using "verbs", we can run all 960 cores, but tests show an order of magnitude increase in latency and much longer run times.
<br>
</div>
<div><br>
</div>
<div>We have tried installing our own libfabrics (from the git repo ; also we verified with verbose debugging that we are using this libfabrics) and this behavoir does not change</div>
<div><br>
</div>
<div>Is there anything I can change to allow all 960 cores using the default ofi_rxm provider?  Or, is there a way to improve performance using the verbs provider?</div>
<div><br>
</div>
<div>For completeness: <br>
</div>
<div>Using MLNX_OFED_LINUX-4.6-1.0.1.1-rhel7.6-x86_64 ofed <br>
</div>
<div>CentOS 7.6.1810 (kernel = 3.10.0-957.21.3.el7.x86_64) <br>
</div>
<div>Intel Parallel studio version 19.0.4.243 <br>
</div>
<div>Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5] <br>
</div>
<div><br>
</div>
<div><br>
</div>
<div>Thanks! <br>
</div>
<div><br>
</div>
<span>Eric</span><br>
</div>
<div><span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">-- </span></div>
<div><span style="font-family:"Arial Black",Arial,sans-serif; font-size:12pt">Eric J. Walter</span></div>
<div><br>
</div>
<div><span style="font-family:Corbel,Skia,sans-serif"><span style="font-size:9pt; font-family:"Arial Black",Arial,sans-serif">College of William and Mary      </span><span style="font-size:9pt; font-family:"Courier New",monospace"></span></span></div>
<div><span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">
<div style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols; font-size:16px">
<span style="font-family:"Courier New",monospace; font-size:9pt"><span style="font-family:"Arial Black",Arial,sans-serif">
<div style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols; font-size:16px">
<span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">IT/High Performance Computing Group       </span></div>
</span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols; font-size:16px">
<span style="font-family:"Courier New",monospace; font-size:9pt"><span style="font-family:"Arial Black",Arial,sans-serif">ISC 1271 </span></span></div>
</span></div>
<div><span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">P.O. Box 8795</span><br>
</div>
<div><span style="font-family:"Courier New",monospace; font-size:9pt"><span style="font-family:"Courier New",monospace; font-size:14px"><span style="font-family:"Courier New",monospace; font-size:14px">
<div style="font-family:Calibri,Helvetica,sans-serif,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols,EmojiFont,"Apple Color Emoji","Segoe UI Emoji",NotoColorEmoji,"Segoe UI Symbol","Android Emoji",EmojiSymbols; font-size:16px">
<span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">Williamsburg, VA  23187-8795</span></div>
</span></span></span></div>
<div><span style="font-family:"Arial Black",Arial,sans-serif; font-size:14px">email:    ejwalt@wm.edu</span></div>
<div><span style="font-family:"Courier New",monospace; font-size:14px"></span><span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">phone:  (757) 221-1886</span><br>
</div>
<div><span style="font-family:"Arial Black",Arial,sans-serif; font-size:9pt">fax:        (757) 221-1321</span></div>
<div><br>
</div>
<div><span style="font-family:"Courier New",monospace; font-size:9pt"></span></div>
<p style="margin-top: 0px; margin-bottom: 0px;"></p>
</div>
</div>
</body>
</html>