펄 - WWW와 geturls는 :: 내가 <code>http://bioinfo.noble.org/TrSSP/</code>에 양식을 제출하려고 노력하고 결과를 추출 할하고
기계화.
내 쿼리 데이터가 내 스크립트가이
use strict;
use warnings;
use File::Slurp;
use WWW::Mechanize;
my $mech = WWW::Mechanize->new;
my $sequence = $ARGV[0];
$mech->get('http://bioinfo.noble.org/TrSSP');
$mech->submit_form(fields => { 'query_file' => $sequence, },);
print $mech->content;
#sleep (10);
open(OUT, ">out.txt");
my @a = $mech->find_all_links();
print OUT "\n", $a[$_]->url for (0 .. $#a);
print $mech->content
처럼 보이는이
>ATCG00270
MTIALGKFTKDEKDLFDIMDDWLRRDRFVFVGWSGLLLFPCAYFALGGWFTGTTFVTSWYTHGLASSYLEGCNFLTAA VSTPANSLAHSLLLLWGPEAQGDFTRWCQLGGLWAFVALHGAFALIGFMLRQFELARSVQLRPYNAIAFSGPIAVFVSVFLIYPLGQSGWFFAPSFGVAAIFRFILFFQGFHNWTLNPFHMMGVAGVLGAALLCAIHGATVENTLFEDGDGANTFRAFNPTQAEETYSMVTANRFWSQIFGVAFSNKRWLHFFMLFVPVTGLWMSALGVVGLALNLRAYDFVSQEIRAAEDPEFETFYTKNILLNEGIRAWMAAQDQPHENLIFPEEVLPRGNAL
처럼 보이는 내가이 링크
를 추출 할이<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>The job is running, please wait...</title>
<meta http-equiv="refresh" content="4;url=/TrSSP/?sessionid=1492435151653763">
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<link rel="stylesheet" href="interface/style.css" type="text/css">
</head>
<body>
<table width="90%" align="center" border="0" cellpadding="0" cellspacing="0" class="table1">
<tr align="center">
<td width="50"> </td>
<td></td>
<td> </td>
</tr>
<tr align="left" height="30" valign="middle">
<td width="30"> </td>
<td bgColor="#CCCCFF"> Your sequences have been submitted to backend pipeline, please wait for result:</td>
<td width="30"> </td>
</tr>
<tr align="left">
<td> </td>
<td>
<br><br><font color="#0000FF"><strong>
</strong></font>
<BR><BR><BR><BR><BR><BR><br><br><BR><br><br><hr>
If you don't want to wait online, please copy and keep the following link to retrieve your result later:<br>
<strong>http://bioinfo.noble.org/TrSSP/?sessionid=1492435151653763</strong>
<script language="JavaScript" type="text/JavaScript">
function doit()
{
window.location.href="/TrSSP/?sessionid=1492435151653763";
}
setTimeout("doit()",9000);
</script>
</td>
<td> </td>
</tr>
</table>
</body>
</html>
같은 결과를 제공
http://bioinfo.noble.org/TrSSP/?sessionid=1492435151653763
및 작업 완료시 결과를 다운로드하십시오. 그러나 find_all_links()
은 링크로 /TrSSP/?sessionid=1492434554474809
을 인식하고 있습니다.
* "작업 완료시 결과 다운로드"* 완료된 결과가 제공 될 때까지 해당 주소를 폴링하고 싶습니까? – Borodin
사실 내 최종 목표는 해당 주소에 나타나는 결과를 추출하는 것입니다. 그러나 얼마나 오래 걸릴 지 확신하지 못합니다. 따라서 주소 (http://bioinfo.noble.org/TrSSP/?sessionid=1492435151653763)를 추출한 다음 언젠가는 나중에 결과를 가져 오는 것이 좋습니다. 그러나 나는 이것이 이것이이 직업을 수행하는 가장 좋은 방법이 될 것이라고 확신하지 못한다. 감사. – pali