<br><font size=2 face="sans-serif">Hal,</font>
<br>
<br><font size=2><tt>Hal Rosenstock <halr@voltaire.com> wrote on
06/21/2006 03:26:45 AM:<br>
<br>
> You need to modprobe ib_madeye<br>
> <br>
> The madeye module has 5 module parameters:<br>
> <br>
> MODULE_PARM_DESC(smp, "Display all SMPs (default=1)");<br>
> MODULE_PARM_DESC(gmp, "Display all GMPs (default=1)");<br>
> MODULE_PARM_DESC(mgmt_class, "Display all MADs of specified class
<br>
> (default=0)");<br>
> MODULE_PARM_DESC(attr_id, "Display add MADs of specified attribute
<br>
> ID (default=0)");<br>
> MODULE_PARM_DESC(data, "Display data area of MADs (default=0)");<br>
> <br>
> Given your symptoms, the default settings should be fine except I
would<br>
> change the data one to 1 so the data is displayed. I doubt the node
is<br>
> even seeing the incoming SMPs for some unknown reason.<br>
> <br>
> So:<br>
> /sbin/modprobe ib_madeye data=1<br>
> <br>
> We may narrow it down from there. You can see the output in<br>
> /var/log/messages or with dmesg.</tt></font>
<br>
<br><font size=2 face="sans-serif">I installed the module on both of the
EM64T systems and checked for packets with dmesg.</font>
<br>
<br><font size=2 face="sans-serif">On the "good" system ("koa"),
 it shows lots of packets where the SM is trying to survey the network.
  On the "bad" system ("jatoba"),  no packets
at all are captured.  It seems that nothing is being received on the
jatoba side.</font>
<br><font size=2><tt><br>
> We may have gone through this (I don't remember) but can you try:<br>
> 1. Is the firmware version on the node which is not working, the same
as<br>
> the one which does ?</tt></font>
<br>
<br><font size=2 face="sans-serif">The firmware version on both MT25204
cards is reported as </font><font size=2><tt>1.0.800</tt></font><font size=2 face="sans-serif">
by the ibstat command.</font>
<br><font size=2><tt><br>
> 2. Are you sure the cable is plugged in properly ? Do you have another<br>
> cable to try ?</tt></font>
<br>
<br><font size=2 face="sans-serif">We have tried switching cables,  cabling
the HCAs to a switch instead of back-to-back,  and this morning we
tried swapping the HCA cards between the two machines.  The problem
stays on the "jatoba" machine.    There is a difference
in the hardware location on the two machines, in that the PCI bus configuration
is different.   The "koa" side has the HCA on PCI "</font><font size=2><tt>06:00.0</tt></font><font size=2 face="sans-serif">",
 and the "jatoba" side has the HCA on "</font><font size=2><tt>03:00.0</tt></font><font size=2 face="sans-serif">".</font>
<br><font size=2><tt><br>
> 3. Can you reverse the SM and non SM roles and see how this behaves
?<br>
</tt></font>
<br><font size=2 face="sans-serif">I brought down the SM on the "koa"
side and started it on the "jatoba" side with script "</font><font size=2><tt>/etc/init.d/opensmd
start</tt></font><font size=2 face="sans-serif">".   The dmesg
output shows that madeye captured exactly 10 packets,  then no more,
 even after many minutes.   I have attached a file with the captured
packets to this email.</font>
<br>
<br><font size=2 face="sans-serif">When I try to stop SM on jatoba with
the "</font><font size=2><tt>/etc/init.d/opensmd stop</tt></font><font size=2 face="sans-serif">"
script,  the script hangs (keeps printing out dots and never terminates)
until I break out of it.   The OpenSM process stays hung in execution.
  Doing a "</font><font size=2><tt>cat /proc/<pid>/wchan</tt></font><font size=2 face="sans-serif">"
 shows the OpenSM process waiting in "</font><font size=2><tt>ib_unregister_mad_agent</tt></font><font size=2 face="sans-serif">".</font>
<br>
<br><font size=2 face="sans-serif">If I try to do other tests on "jatoba"
like "</font><font size=2><tt>ibdiagnet</tt></font><font size=2 face="sans-serif">"
 they also hang.   The only thing in </font><font size=2><tt>/var/log/osm.log</tt></font><font size=2 face="sans-serif">
is:</font>
<br>
<br><font size=2><tt>Jun 21 08:48:47 345379 [66A1FCA0] -> OpenSM Rev:openib-1.2.1
OpenIB svn Exported revision</tt></font>
<br><font size=2><tt>Jun 21 08:48:47 351128 [0000] -> OpenSM Rev:openib-1.2.1
OpenIB svn Exported revision</tt></font>
<br>
<br><font size=2><tt>Jun 21 09:45:53 464987 [18E18CA0] -> OpenSM Rev:openib-1.2.1
OpenIB svn Exported revision</tt></font>
<br><font size=2><tt>Jun 21 09:45:53 472677 [0000] -> OpenSM Rev:openib-1.2.1
OpenIB svn Exported revision</tt></font>
<br>
<br><font size=2><tt>Jun 21 09:45:53 489398 [18E18CA0] -> osm_report_notice:
Reporting Generic Notice type:3 num:66 from LID:0x0000 GID:0xfe8000000000000</tt></font>
<br><font size=2><tt>0,0x0000000000000000</tt></font>
<br><font size=2><tt>Jun 21 09:45:53 489461 [18E18CA0] -> osm_report_notice:
Reporting Generic Notice type:3 num:66 from LID:0x0000 GID:0xfe8000000000000</tt></font>
<br><font size=2><tt>0,0x0000000000000000</tt></font>
<br><font size=2><tt>Jun 21 09:45:53 491919 [18E18CA0] -> osm_vendor_bind:
Binding to port 0x2c90200216dc5</tt></font>
<br><font size=2><tt>Jun 21 09:45:53 493583 [18E18CA0] -> osm_vendor_bind:
Binding to port 0x2c90200216dc5</tt></font>
<br><font size=2><tt>Jun 21 12:21:34 420066 [0000] -> Exiting SM</tt></font>
<br>
<br><font size=2 face="sans-serif">Thanks for taking a look at this.</font>
<br>
<br><font size=2 face="sans-serif">        -Don
Albert-</font>
<br>