Hello!<br>This is my first message on the list so i hope that i'm not going to ask silly or already answered question <br><br>i'm
a student and i'm porting an electromagnetic field simulator to a
parallel and distributed linux cluster for final thesis; i'm using both
OpenMP and MPI over Infiniband to achieve speed improvements<br>
<br>the openmp part is done and now i'm facing problem with setting up MPI over Infinband<br>i have correctly set up the kernel modules <br>installed the right drivers for the board (mellanox hca) and userspace programs<br>

installed mpavich2 mpi implementation<br><br>however i fail to run all of this together:<br>for example ibhost correctly find the two nodes connected<br><br>Ca    : 0x0002c90300018b8e ports 2 " HCA-1"<br>
Ca    : 0x0002c90300018b12 ports 2 "localhost HCA-1"<br><br>but ibping doens't receive responses <br><br>ibwarn: [32052] ibping: Ping..<br>ibwarn: [32052] mad_rpc_rmpp: _do_madrpc failed; dport (Lid 2)<br>ibwarn: [32052] main: ibping to Lid 2 failed<br>

<br>subsequently any other operation with MPI fails<br>strangely enough however IPoIB works very well and i can ping and connect with no problems<br><br>the two machines are identical and they use a crossover cable (point to point)<br>

lspci identifies the boards as<br>03:00.0 InfiniBand: Mellanox Technologies MT25418 [ConnectX IB DDR, PCIe 2.0 2.5GT/s] (rev a0)<br><br>what can be the cause of all of this? am i forgetting something?<br>any help is greatly appreciated<br>
Thank you<br>Vittorio<br>