<br><font size=2 face="sans-serif">Weikuan,</font>
<br>
<br><font size=2 face="sans-serif">This is a followup to my email from
last week about problems running the simple "cpi" job between
two EM64T machines using the OpenIB and MVAPICH stacks from the OpenIB
tree.</font>
<br>
<br><font size=2 face="sans-serif">The suggestion that configuration differences
on the two systems were causing the problem certainly sounded plausible.
  Since we could not determine the exact provenance of the software
and configurations on the two systems,  we decided to wipe them and
start over.   So we installed the latest RedHat Enterprise Linux 4,
Update 3 distribution, with the 2.6.9-34.ELsmp kernel on both machines
from scratch.  Then I pulled the latest (svn 6035) version of the
userspace and mpi sources.</font>
<br>
<br><font size=2 face="sans-serif">Since the RHEL4, Update 3, release seems
to have all the kernel OpenIB modules, and the HCA ports came up 'ACTIVE',
 I decided not to install the latest 2.6.16 kernel initially, but
just to build the userspace libraries and mvapich-gen2 code.</font>
<br>
<br><font size=2 face="sans-serif">Instead of building on both systems
separately,  I built all the code on one system and copied the libraries
and executables to the other system.  I can run the "ibv_rc_pingpong"
and "ibv_ud_pingpong" tests between the two systems, so I think
all the software is functioning.</font>
<br>
<br><font size=2 face="sans-serif">The bottom line is that the problem
is exactly the same as before:   I can run MPD and spawn jobs on the
local system,  or force a job to execute on the other system,  and
"mpdtrace" shows the following:</font>
<br>
<br><font size=2 face="sans-serif">[koa] (ib) ib> mpdtrace</font>
<br><font size=2 face="sans-serif">mpdtrace: koa_32841:  lhs=jatoba_32833
 rhs=jatoba_32833  rhs2=koa_32841 gen=1</font>
<br><font size=2 face="sans-serif">mpdtrace: jatoba_32833:  lhs=koa_32841
 rhs=koa_32841  rhs2=jatoba_32833 gen=1</font>
<br>
<br><font size=2 face="sans-serif">but when I try to run jobs that execute
on both systems,  I get the following on the initiating system:</font>
<br>
<br><font size=2 face="sans-serif">[koa] (ib) ib> mpirun_mpd -np 2 /home/ib/mpi/tests/cpi/cpi</font>
<br><font size=2 face="sans-serif">cpi: pmgr_client_mpd.c:254: mpd_exchange_info:
Assertion `len_remote == len_local' failed.</font>
<br><font size=2 face="sans-serif">[man_0]: application program exited
abnormally with status 0</font>
<br><font size=2 face="sans-serif">[man_0]: application program signaled
with signal 6 (: Aborted)</font>
<br><font size=2 face="sans-serif">cpi: pmgr_client_mpd.c:254: mpd_exchange_info:
Assertion `len_remote == len_local' failed.</font>
<br><font size=2 face="sans-serif">[koa] (ib) ib></font>
<br>
<br><font size=2 face="sans-serif">and I see the following on the remote
system:</font>
<br>
<br><font size=2 face="sans-serif">[jatoba] (ib) ib> [man_1]: application
program exited abnormally with status 0</font>
<br><font size=2 face="sans-serif">[man_1]: application program signaled
with signal 6 (: Aborted)</font>
<br>
<br><font size=2 face="sans-serif">Are there any logs or traces I can collect
or turn on to help isolate this problem?   Should I just comment out
the "Assertion" in the code and see how far I get?   Attached
are the configuration and build logs.</font>
<br>
<br><font size=2 face="sans-serif">        -Don
Albert-</font>
<br>
<br>
<br>
<br>