<br><font size=2 face="sans-serif">How do I ensure that local_sa_cache
is enables? </font>
<br>
<br><font size=2 face="sans-serif">I have tried all the other suggestions
but I am still getting the error.</font>
<br>
<br>
<br><font size=2 face="sans-serif">Mahmoud Hanafi<br>
Sr. System Administrator<br>
CSC HPC COE<br>
Bld. 676<br>
2435 Fifth Street<br>
WPAFB, Ohio 45433<br>
(937) 255-1536<br>
<br>
<br>
Computer Sciences Corporation <br>
Registered Office: 2100 East Grand Avenue, El Segundo California 90245,
USA<br>
Registered in USA No: C-489-59<br>
<br>
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------<br>
This is a PRIVATE message. If you are not the intended recipient, please
delete without copying and kindly advise us by e-mail of the mistake in
delivery. <br>
NOTE: Regardless of content, this e-mail shall not operate to bind CSC
to any order or other contract unless pursuant to explicit written agreement
or government initiative expressly permitting the use of e-mail for such
purpose.<br>
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------<br>
</font>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td width=40%><font size=1 face="sans-serif"><b>Arlin Davis <ardavis@ichips.intel.com></b>
</font>
<p><font size=1 face="sans-serif">02/01/2008 05:45 PM</font>
<td width=59%>
<table width=100%>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">To</font></div>
<td><font size=1 face="sans-serif">"Woodruff, Robert J" <robert.j.woodruff@intel.com></font>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">cc</font></div>
<td><font size=1 face="sans-serif">Mahmoud Hanafi/DEF/CSC@CSC, general-bounces@lists.openfabrics.org,
general@lists.openfabrics.org</font>
<tr valign=top>
<td>
<div align=right><font size=1 face="sans-serif">Subject</font></div>
<td><font size=1 face="sans-serif">Re: [ofa-general] ofed1.2.5rc2 and intel
mpi error</font></table>
<br>
<table>
<tr valign=top>
<td>
<td></table>
<br></table>
<br>
<br>
<br><font size=2><tt>> This could be related to connection timeouts.
We have seen this<br>
> on larger clusters when the local sa cache is not enabled or if the
SM<br>
> node is down. I think that the local_sa_cache defaults to not enabled,<br>
> but Arlin can confirm this.<br>
> <br>
> woody<br>
> <br>
<br>
That is true, OFED 1.2.5 disables SA caching by default. I would<br>
recommend enabling SA caching.<br>
<br>
When using rdma_cm to establish end-to-end connections we incur a 3 step
<br>
process, each with various tunable knobs. There is ARP, Path Resolution,
<br>
and CM req/reply. Anyone of these could cause the 4008 timeout error.<br>
<br>
Here are tunable parameters that may help:<br>
<br>
1. ARP:<br>
<br>
ARP cache entries for ib0 can be increased from default of 30:<br>
<br>
sysctl –w net.ipv4.neigh.ib0.base_reachable_time=14400<br>
<br>
2. PATH RESOLUTION:<br>
<br>
ib_sa.ko provides path record caching, no timer controls,<br>
auto refresh with new device notification events from SM/SA,<br>
manual refresh control for administrators,<br>
default == SA caching is OFF.<br>
                
<br>
To enable: add following to /etc/modprobe.conf -<br>
<br>
                
options ib_sa paths_per_dest=0x7f<br>
         or<br>
                
echo 0x7f > /sys/module/ib_sa/paths_per_dest<br>
<br>
To manually refresh:<br>
     echo 1 > /sys/module/ib_sa/refresh<br>
<br>
To monitor:<br>
     cat /sys/module/ib_sa/lookup_method<br>
         * 0 round robin<br>
         1 round robin<br>
<br>
     cat /sys/module/ib_sa/paths_per_dest<br>
<br>
<br>
You can also increase the uDAPL PR timeout with the following<br>
enviroment variable (if you don't have SA caching):<br>
<br>
export DAPL_CM_ROUTE_TIMEOUT_MS=20000 (default=4000)<br>
<br>
3. CM PROTOCOL:<br>
<br>
OFED 1.2.5 provides the following module parameters to increase<br>
the IB cm response timeout from default of 21:<br>
<br>
To increase timeout: add following to /etc/modprobe.conf -<br>
     options rdma_cm cma_response_timeout=23<br>
     options ib_cm max_timeout=23<br>
<br>
<br>
-arlin<br>
</tt></font>
<br>