<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <meta content="text/html;charset=ISO-8859-1" http-equiv="Content-Type">
</head>
<body bgcolor="#ffffff" text="#000000">
Fabian Tillier wrote:
<blockquote
 cite="mid79ae2f320604032217u46430ba3x32b19c03af890123@mail.gmail.com"
 type="cite">
  <pre wrap="">Hi Jeremy,

On 4/3/06, Jeremy Enos <a class="moz-txt-link-rfc2396E" href="mailto:jenos@ncsa.uiuc.edu"><jenos@ncsa.uiuc.edu></a> wrote:
  </pre>
  <blockquote type="cite">
    <pre wrap="">So I've got 2 very similar Windows CCE hosts.  One of them loads OpenIB
drivers just fine.  The other crashes, and freezes on restart until I boot
with the "last known good configuration" option.
    </pre>
  </blockquote>
  <pre wrap=""><!---->
When the system crashed, did you select to report the crash to
Microsoft?  If not, please do - those crash dumps will eventually find
their way to me, at which point I can analyze them in more detail to
figure out what's going wrong.

  </pre>
</blockquote>
Yes.. I sent the information to MS.<br>
<blockquote
 cite="mid79ae2f320604032217u46430ba3x32b19c03af890123@mail.gmail.com"
 type="cite">
  <pre wrap="">Does it still crash if you unplug the HCA from the switch (i.e. ports are down)?
  </pre>
</blockquote>
Not sure... I'll double check this.<br>
<blockquote
 cite="mid79ae2f320604032217u46430ba3x32b19c03af890123@mail.gmail.com"
 type="cite">
  <pre wrap="">
  </pre>
  <blockquote type="cite">
    <pre wrap="">The one that is crashing has a PCI-X HCA, and the one that works has a PCI-E
HCA.  I don't really suspect that to be root of the problem... rather, I
presume I should check firmware revisions first.  So that's the
question...err- questions:
    </pre>
  </blockquote>
  <pre wrap=""><!---->
Can you give some more details about your systems?  Your HCAs?
  </pre>
</blockquote>
>From a Linux run on a neighbor node in the system from the same batch
(before the node was pulled for windows testing).<br>
<br>
---- Performing InfiniBand HCA Self Test ----
<br>
Number of HCAs Detected ................ 1
<br>
PCI Device Check ....................... PASS
<br>
Host Driver Version .................... rhel3-2.4.21-32.EL-3.1.0-113
<br>
Host Driver RPM Check .................. PASS
<br>
HCA Type of HCA #0 ..................... CougarCub
<br>
HCA Firmware on HCA #0 ................. v3.2.0 build 3.1.0.113
HCA.CougarCub.A1HCA Firmware Check on HCA #0 ........... PASS
<br>
Host Driver Initialization ............. PASS
<br>
Number of HCA Ports Active ............. 1
<br>
Port State of Port #0 on HCA #0 ........ UP
<br>
Port State of Port #1 on HCA #0 ........ DOWN
<br>
Error Counter Check .................... PASS
<br>
Kernel Syslog Check .................... PASS
<br>
------------------ DONE ---------------------
<br>
<br>
<blockquote
 cite="mid79ae2f320604032217u46430ba3x32b19c03af890123@mail.gmail.com"
 type="cite">
  <pre wrap="">
  </pre>
  <blockquote type="cite">
    <pre wrap="">1)  How do I check the HCA fw rev using windows?  I check the properties of
the device from the device manager, and I find the "Firmware Revision"
field, but it's blank.
    </pre>
  </blockquote>
  <pre wrap=""><!---->
I don't know how that can be filled in, so right now that's left
blank.  In any case, the driver would need to be loaded to populate
this, so that wouldn't really help you.

  </pre>
</blockquote>
If it could be done from Windows w/ the driver loaded, it would save me
the effort of loading Linux on it just to check the firmware for
comparison.  If that's not possible even on the system that loads the
driver ok, just let me know and I'll swap the OS to check the f/w rev.<br>
<blockquote
 cite="mid79ae2f320604032217u46430ba3x32b19c03af890123@mail.gmail.com"
 type="cite">
  <pre wrap=""></pre>
  <blockquote type="cite">
    <pre wrap="">2)  How do I check the HCA fw rev using windows, but with no driver loaded?
(this appears to be the only way I'll be able to interact w/ the PCI-X based
machine)
    </pre>
  </blockquote>
  <pre wrap=""><!---->
At the moment, you unfortunately can't.  Unlike Linux, Windows doesn't
provide for a way to access PCI configuration space easilly from
user-mode.  So you need to have some sort of driver loaded - we're
working on a failsafe driver for when the HCA is in memory controller
mode, but that isn't ready yet.

So right now, you're left with having to do this from Linux.  That
said, I don't know if you'd have such old firmware that it would fail
- I suspect it's something else.
  </pre>
</blockquote>
I have the same suspicion... I just have to eliminate the f/w first if
possible of course.<br>
thx-<br>
<br>
    Jeremy<br>
<br>
</body>
</html>