<HTML dir=ltr><HEAD>
<META http-equiv=Content-Type content="text/html; charset=unicode">
<META content="MSHTML 6.00.2900.3086" name=GENERATOR></HEAD>
<BODY>
<DIV id=idOWAReplyText61152 dir=ltr>
<DIV dir=ltr><FONT face=Arial color=#000000 size=2>The same as in dmesg.</FONT></DIV>
<DIV dir=ltr><FONT face=Arial size=2></FONT> </DIV>
<DIV dir=ltr><FONT face=Arial size=2>The output for the failing node:</FONT></DIV>
<DIV dir=ltr>May 18 13:02:51 gpfswhbe1s1 mmfs: Error=MMFS_PHOENIX, ID=0xAB429E38, Tag=4997901:   Reason code 668 Failure Reason Lost membership in cluster enterprise.universe. Unmounting file systems.<BR>May 18 13:02:51 gpfswhbe1s1 mmfs: Error=MMFS_PHOENIX, ID=0xAB429E38, Tag=4997901:   <BR>May 18 13:03:36 gpfswhbe1s1 kernel: GPFS Deadman Switch timer [0] has expired; IOs in progress: 0<BR>May 18 13:04:11 gpfswhbe1s1 kernel: Badness in do_exit at kernel/exit.c:807<BR>May 18 13:04:11 gpfswhbe1s1 kernel: <BR>May 18 13:04:11 gpfswhbe1s1 kernel: Call Trace: <ffffffff80133370>{do_exit+80} <ffffffff80133c17>{sys_exit_group+0}<BR>May 18 13:04:11 gpfswhbe1s1 kernel:        <ffffffff8010a7be>{system_call+126}<BR>May 18 13:04:11 gpfswhbe1s1 kernel: Badness in do_exit at kernel/exit.c:807<BR>May 18 13:04:11 gpfswhbe1s1 kernel: <BR>May 18 13:04:11 gpfswhbe1s1 kernel: Call Trace: <ffffffff80133370>{do_exit+80} <ffffffff80133c17>{sys_exit_group+0}<BR>May 18 13:04:11 gpfswhbe1s1 kernel:        <ffffffff8010a7be>{system_call+126}<BR>May 18 13:18:57 gpfswhbe1s1 sshd[15090]: Accepted publickey for root from 192.168.1.1 port 52281 ssh2<BR>May 18 13:25:12 gpfswhbe1s1 syslog-ng[3705]: STATS: dropped 0</DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>Today we also did some tests with iperf using sdp. The tests worked fine, as long as we didn't use the parrallel option (-P <number>). This option starts multiple client threads to connect to the server. As soon as we started the command, the interface died.</DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>I found it very strange. Didn't anyone get this problem? Is it still a problem in RC3?</DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>Tomorrow we will do more tests to pinpoint the problem even further.</DIV>
<DIV dir=ltr>We will also build RPMS for the RC3. Hopefully this helps.</DIV></DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>Regards,</DIV>
<DIV dir=ltr> </DIV>
<DIV dir=ltr>Koen</DIV>
<DIV dir=ltr><BR>
<HR tabIndex=-1>
<FONT face=Tahoma size=2><B>Van:</B> Shirley Ma [mailto:xma@us.ibm.com]<BR><B>Verzonden:</B> ma 21/05/2007 17:41<BR><B>Aan:</B> SEGERS Koen<BR><B>CC:</B> general@lists.openfabrics.org; general-bounces@lists.openfabrics.org; Tziporet Koren<BR><B>Onderwerp:</B> RE: [ofa-general] GPFS node loses IB-connection<BR></FONT><BR></DIV>
<DIV>
<P>Hello,<BR><BR>What's the output of /var/log/messages when you hitting this problem?<BR><BR>Shirley Ma</P></DIV>*** Disclaimer ***<br><br>Vlaamse Radio- en Televisieomroep<br>Auguste Reyerslaan 52, 1043 Brussel<br><br>nv van publiek recht<br>BTW BE 0244.142.664<br>RPR Brussel<br>http://www.vrt.be/disclaimer<br> <br></BODY></HTML>