<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=US-ASCII">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2654.45">
<TITLE>RE: [PATCH] Re: [openib-general] Re: IPoIB Failure CQ overrun</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>I'm a bit ill, expect to work on it tomorrow.</FONT>
<BR><FONT SIZE=2>Could you post the patch with these dumps?</FONT>
</P>
<BR>

<P><FONT SIZE=2>> -----Original Message-----</FONT>
<BR><FONT SIZE=2>> From: Roland Dreier [<A HREF="mailto:roland@topspin.com">mailto:roland@topspin.com</A>]</FONT>
<BR><FONT SIZE=2>> Sent: Mon, December 20, 2004 7:56 PM</FONT>
<BR><FONT SIZE=2>> To: Michael S. Tsirkin</FONT>
<BR><FONT SIZE=2>> Cc: openib-general@openib.org</FONT>
<BR><FONT SIZE=2>> Subject: Re: [PATCH] Re: [openib-general] Re: IPoIB Failure CQ overrun</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> >From adding some more dumping of CQ state, what _may_ be happening is</FONT>
<BR><FONT SIZE=2>> that under rare conditions the HCA's CQ consumer index gets</FONT>
<BR><FONT SIZE=2>> incremented by 1 too many.  Then when the CQ is completely empty it</FONT>
<BR><FONT SIZE=2>> will look full to the HW and we'll get an overrun for the next CQE.</FONT>
<BR><FONT SIZE=2>> (I saw it happen after ~300K increments of the CQ's CI, ~160K of which</FONT>
<BR><FONT SIZE=2>> were for >1)</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> I didn't see how the driver could be doing this, since the HCA ended</FONT>
<BR><FONT SIZE=2>> up with a CI that was one more than the number of increments that the</FONT>
<BR><FONT SIZE=2>> driver did.  Also, converting all of the increment CI dbells to only</FONT>
<BR><FONT SIZE=2>> increment by 1 fixes the problem, which is more evidence of a </FONT>
<BR><FONT SIZE=2>> FW glitch.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> Thanks,</FONT>
<BR><FONT SIZE=2>>   Roland</FONT>
<BR><FONT SIZE=2>> </FONT>
</P>

</BODY>
</HTML>