<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7234.20">
<TITLE>Re: [ofa-general] uDAPL question</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->

<P><FONT SIZE=2>3.0<BR>
<BR>
<BR>
Boris Shpolyansky<BR>
Application Engineer<BR>
Mellanox Technologies Inc.<BR>
2900 Stender Way<BR>
Santa Clara, CA 95054<BR>
Tel.: (408) 916 0014<BR>
Fax: (408) 970 3403<BR>
Cell: (408) 834 9365<BR>
www.mellanox.com<BR>
<BR>
----- Original Message -----<BR>
From: Scott Weitzenkamp (sweitzen) <sweitzen@cisco.com><BR>
To: Boris Shpolyansky; general@lists.openfabrics.org <general@lists.openfabrics.org><BR>
Sent: Sat Mar 10 14:45:25 2007<BR>
Subject: RE: [ofa-general] uDAPL question<BR>
<BR>
What version of Intel MPI are you using?<BR>
<BR>
<BR>
________________________________<BR>
<BR>
        From: general-bounces@lists.openfabrics.org [<A HREF="mailto:general-bounces@lists.openfabrics.org">mailto:general-bounces@lists.openfabrics.org</A>] On Behalf Of Boris Shpolyansky<BR>
        Sent: Friday, March 09, 2007 8:40 PM<BR>
        To: general@lists.openfabrics.org<BR>
        Subject: [ofa-general] uDAPL question<BR>
       <BR>
       <BR>
        Hi,<BR>
        <BR>
        I'm trying to get simple Intel MPI benchmark running over IB (uDAPL) using OFED-1.1 stack.<BR>
        I'm consistently getting the following error:<BR>
        <BR>
        [root@ibd005 ~]# ./runjob_I_MPI.boris 2<BR>
        Task 0 of 2 tasks started on host ibd005.ibd.mti.com<BR>
        clock_resolution = 1.00e-06 s<BR>
        Task 1 of 2 tasks started on host ibd006.ibd.mti.com<BR>
        [0:ibd005] unexpected DAPL event 4006 from 1:ibd006<BR>
        [1:ibd006] unexpected DAPL event 4006 from 0:ibd005<BR>
        rank 0 in job 14  ibd005_36193   caused collective abort of all ranks<BR>
          exit status of rank 0: return code 254<BR>
       <BR>
        I did some digging and found out that event 4006 (actually 0x4006) means DAT_CONNECTION_EVENT_BROKEN<BR>
        and it is returned by function dat_rmr_bind.<BR>
        So my question is why this function consistently fails.<BR>
        I'm using standard dat.conf file:<BR>
        <BR>
        OpenIB-cma u1.2 nonthreadsafe default /usr/local/ofed/lib64/libdaplcma.so mv_dapl.1.2 "ib0 0" ""<BR>
       <BR>
        Appreciate your help,<BR>
        <BR>
                Boris Shpolyansky<BR>
<BR>
</FONT>
</P>

</BODY>
</HTML>