<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=US-ASCII">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2654.45">
<TITLE>RE: [openib-general] SM Bad Port Handling</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>> -- Hal </FONT>
<BR><FONT SIZE=2>> In looking at the unhealthy code, it appears to me that the unhealthy</FONT>
<BR><FONT SIZE=2>> bit is only set if the SM receives traps 129-131 and not if the SMA does</FONT>
<BR><FONT SIZE=2>> not respond to SM MADs so these ports will not be detected and hence not</FONT>
<BR><FONT SIZE=2>> bypassed.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>[EZ] This is true. Currently there is only one cause for the un-healthy bits to be set - which are exactly as you point - these traps. The point I was trying to make was that this bit is the mechanism for flagging a port status is bad. </FONT></P>

<P><FONT SIZE=2>What I did recommend was to write a "statistical" analysis of Directed Route packet drop - such that we can find the ports with a high drop rate and mark them as un-healthy. If you mark every port that does not respond to a MAD as un-healthy you can suffer from flaky links somewhere on the route to that port. Only analysis of the number of good packets vs. dropped packets can lead you to the right bad port.</FONT></P>

</BODY>
</HTML>