<br>&gt; You are right, padb will use the &quot;jobid&quot; that orte had allocated the job
 rather than the id that <br>&gt; Gridengine has given it but the tight 
integration mighy have changed the orte behaviour.  I see <br>&gt; this with mpd 
(Mpich2) and PBS as well where PBS sets an environment variable which 
causes <br>&gt; mpd to store it&#39;s temporary files under a different filename. 
 Unfortunately this is very hard to get <br>&gt; around.<br>
<br>In particular, I found this to be from these lines in mpirun (from Intel mpi 4.0.0)<br><span style="font-family: arial,helvetica,sans-serif;">---------------</span><br style="font-family: arial,helvetica,sans-serif;">
<span style="font-family: arial,helvetica,sans-serif;">if [ -n &quot;$PBS_ENVIRONMENT&quot; ] ; then</span><br style="font-family: arial,helvetica,sans-serif;"><span style="font-family: arial,helvetica,sans-serif;">    export MPD_CON_EXT=&quot;${PBS_JOBID}_$$&quot; # PBS Pro and Torque</span><br style="font-family: arial,helvetica,sans-serif;">
<span style="font-family: arial,helvetica,sans-serif;">(lines deleted)</span><br style="font-family: arial,helvetica,sans-serif;"><span style="font-family: arial,helvetica,sans-serif;">elif [ -n &quot;$MP_JOBID&quot; ] ; then</span><br style="font-family: arial,helvetica,sans-serif;">
<span style="font-family: arial,helvetica,sans-serif;">    export MPD_CON_EXT=&quot;${MP_JOBID}_$$&quot; # SGE</span><br style="font-family: arial,helvetica,sans-serif;"><span style="font-family: arial,helvetica,sans-serif;">---------------</span><br>
The environment variable MPD_CON_EXT is used by mpdboot to add an extension to both the socket /tmp/mpd2.console_&lt;username&gt; and the logfile /tmp/mpd2.logfile_&lt;username&gt;<br><br>For padb I add my own wrapper to add the (known) PBS_JOBID to MPD_CON_EXT<br>
(The processes id thought needs to be found by inspection)<br>padb appears to call mpdlistjobs  which itself honours MPD_CON_EXT.<br><br>Hope this helps,<br><br>Daniel<br><br><br><br><div class="gmail_quote">On 12 July 2010 14:01, Ashley Pittman <span dir="ltr">&lt;<a href="mailto:ashley@pittman.co.uk">ashley@pittman.co.uk</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><br>
On 9 Jul 2010, at 15:32, Dave Love wrote:<br>
<br>
&gt; Ashley Pittman &lt;<a href="mailto:ashley@pittman.co.uk">ashley@pittman.co.uk</a>&gt; writes:<br>
&gt;<br>
&gt; I assumed Gridengine is relevant (a) in referring to `jobs&#39;, and (b) in<br>
&gt; that I think the OpenMPI tight integration is relevant, at least because<br>
&gt; it seems ompi-ps appears to be looking in the wrong place for files.<br>
<br>
You are right, padb will use the &quot;jobid&quot; that orte had allocated the job rather than the id that Gridengine has given it but the tight integration mighy have changed the orte behaviour.  I see this with mpd (Mpich2) and PBS as well where PBS sets an environment variable which causes mpd to store it&#39;s temporary files under a different filename.  Unfortunately this is very hard to get around.<br>

<br>
&gt; That&#39;s easy, but neither mpirun nor orte work.  With mpirun I get<br>
&gt;<br>
&gt; Error, resource manager &quot;mpirun&quot; not supported<br>
<br>
You need to use the 3.2 beta release for this, I keep forgetting it&#39;s not in 3.0.  When using this method of attaching to jobs you have to run padb on the host where the &quot;mpirun&quot; process is running and the jobid will be the pid of that process.  Padb use pdsh to launch itself on the nodes so you&#39;ll need to have this installed if you haven&#39;t already.<br>

<br>
&gt; and orte doesn&#39;t find any jobs because ompi-ps doesn&#39;t.  I&#39;ll try to<br>
&gt; figure out what&#39;s going on when I get some time.<br>
<br>
Unfortunately without a working ompi-os padb has no way of collecting the information it needs so the orte resource manager won&#39;t work for you in this case, you could on the opmi-users list to see if there is anything they recommend, as above we managed to get this working on MPICH2 recently by asking users to unset PBS_JOBID in their job script.<br>

<br>
Ashley,<br>
<br>
--<br>
<br>
Ashley Pittman, Bath, UK.<br>
<br>
Padb - A parallel job inspection tool for cluster computing<br>
<a href="http://padb.pittman.org.uk" target="_blank">http://padb.pittman.org.uk</a><br>
<br>
<br>
_______________________________________________<br>
padb-users mailing list<br>
<a href="mailto:padb-users@pittman.org.uk">padb-users@pittman.org.uk</a><br>
<a href="http://pittman.org.uk/mailman/listinfo/padb-users_pittman.org.uk" target="_blank">http://pittman.org.uk/mailman/listinfo/padb-users_pittman.org.uk</a><br>
</blockquote></div><br>