<br><font size=2 face="sans-serif">Weikuan,</font>
<br>
<br><font size=2 face="sans-serif">Wow!  Thanks for the analysis!
  I knew there were some differences in the controller boards and
PCI bus layout between the two machines, but I never would have guessed
that the basic geometry like pointer sizes was set up differently!  
 I will have to dig into the past history of these two machines a
bit.  I know that "koa" at least had both RedHat and Suse
distributions installed at one time or another,  but I am not sure
about "jatoba".</font>
<br>
<br><font size=2 face="sans-serif">You are also correct that I could not
get any version of mpi to run between the two machines.</font>
<br>
<br><font size=2 face="sans-serif">Thanks, again!</font>
<br>
<br><font size=2 face="sans-serif">  -Don Albert-</font>
<br>
<br>
<br><font size=2><tt>Weikuan Yu <yuw@cse.ohio-state.edu> wrote on
03/22/2006 07:57:11 PM:<br>
<br>
> Don,<br>
> <br>
> Good to know the information on the other node.<br>
> <br>
> > Both the kernel and the openib software was compiled separately
on <br>
> > each machine.  The corresponding logs from 'jatoba' are
attached <br>
> > below.  None of the directories are shared.  For compiling
the "cpi.c" <br>
> > program, I compile it on each machine, but the directory structure
is <br>
> > the same:  i.e. the "cpi" executable is under
<br>
> > /home/ib/test/mpi/cpi/cpi on each machine.<br>
> <br>
> This is where the problem came from!<br>
> <br>
> The differences between these two nodes are causing the same mvapich
<br>
> source code to be configured differently, which is enough to cause
the <br>
> incompatibilities at run time. The exact problem can be either because
<br>
> of the linux installations (ie 32-bit mode or 64-bit on EM64T), or
<br>
> because the libraries you installed are different. You can take a
diff <br>
> from the two config-mine.log files you have. Amongst various <br>
> differences between them, one thing particularly important is the
<br>
> different sizes of int, pointers and long, as shown by the following
<br>
> portion.<br>
> <br>
> ++++++++++++++++++++<br>
> 137,141c142,145<br>
> < checking for size of void *... unavailable<br>
> < checking for pointers greater than 32 bits... no<br>
> < checking for size of int... unavailable< checking for int
large <br>
> enough for pointers... yes<br>
> < checking for size of void *... unavailable<br>
> ---<br>
>  > checking for size of void *... 8<br>
>  > checking for pointers greater than 32 bits... yes<br>
>  > checking for size of int... 4<br>
>  > checking for int large enough for pointers... no<br>
> ++++++++++++++++++++++<br>
> <br>
> So taken this into consideration. Just be curious. Have been you able
<br>
> to run some MPI implementations across these two nodes? Or mvapich
with <br>
> mpirun_rsh instead of mpirun_mpd? It wouldn't be surprising if the
<br>
> answer is no.<br>
> <br>
> The size differences above lead to differences in many of the <br>
> structures. That is why you are not able to run either mvapich-gen2
or <br>
> mvapich2-gen2. In a  little larger context, these two nodes can
be <br>
> taken as a sample case of heterogeneous configurations. We have plans
<br>
> to work out solutions for this kind of heterogeneity in <br>
> mvapich/mvapich2. It may take some more to get ready.<br>
> <br>
> So that leaves the question about how to get these two nodes to be
able <br>
> to run mvapich. I would suggest you first unify the system installation
<br>
> on these two nodes. And then compile OpenIB/gen2 kernel/userspace
on <br>
> one node and distribute to the other(s). Same thing for <br>
> building/installing/running mvapich/mvapich2.<br>
> <br>
> Please keep us updated about how this gets solved at the end.<br>
> <br>
> Thanks,<br>
> Weikuan<br>
> --<br>
> Weikuan Yu, Computer Science, OSU<br>
> http://www.cse.ohio-state.edu/~yuw<br>
> <br>
</tt></font>