谁能帮我注释一小段perl程序,尤其是if语句判断的是什么啊,while (<IN>) 是自动读一个字符串吗,存在哪里

my%tagId_seq;my%tagId_count;my$uniq_tag_num;my$total_tag_count;openIN,$seq_file||die$... my %tagId_seq;
my %tagId_count;
my $uniq_tag_num;
my $total_tag_count;
open IN, $seq_file || die $!;
while (<IN>) {
if (/^>(\S+)/) {
my $tagId=$1;
my $count=0;
if (/>\S+\s+(\d+)/) {
$count=$1;
}
my $seq=<IN>; chomp $seq;

my $length=length $seq;
if ($length >=$MIN_LEN && $length <=$MAX_LEN) {
$tagId_seq{$tagId}=$seq;
$tagId_count{$tagId}=$count;
++$uniq_tag_num;
$total_tag_count+=$count;
}
}
}
close IN;
展开
 我来答
逸云沙鸥
2011-10-27 · TA获得超过473个赞
知道小有建树答主
回答量:267
采纳率:0%
帮助的人:252万
展开全部
1、open IN, $seq_file || die $!; 这句读文件的,IN是文件句柄的名字,$seq_file指明文件来源, 后面的 || die $!表示 如果前面的open失败 则用 die报告错误,并结束程序, $!在报错的时候内容为实际的出错原因。提示,最好使用3个参数的open函数,比如:
open ( IN, '<', $file_name) or die "Can't open $file_name : $!";
第二个参数 <表示读入, >表示写出, >> 表示追加。
2、while (<IN>) { 这一句, 相当于2句, 首先是 $_ = <IN>;默认读入的内容存在系统默认变量 $_中, 然后while循环 测试 $_的值是否非空,如果读入成功则进入循环;
3、if (/^>(\S+)/) { 这一句用于检查 $_ 的内容和正则表达式 /^>(\S+)/ 是否匹配, ^表示文件头, 用()括起来的内容可以在后面引用匹配的实际的值,如果不需要该值就不需要括号了。比如,文件读入内容为: >nm_415621 rna ; 那么后面紧接着的变量赋值 my $tagId=$1; 结果就是nm_415621 , $1 引用了前面匹配的括号里的内容。
4、原来这样啊,那要是同时读2个变量
(/>(\S)+\s+(\d+)/)
my $tagId=$1;
my $count=$2;
是这样吗?要是没有if,怎么读<IN>里的变量啊,比如my $seq=<IN>; 怎么从 $seq抽取$tagId和$count?
答: 这个不用if来判断是不行的, 因为 $seq=<IN>;理论上是读入文件,但是失败了呢,比如读完了或者文件为空,则 $seq 是没有值的后面也酒不能用了,所以要先确保 $seq 有值,就是要加一句 if ($seq){..} , 还不如 if ($seq=<IN> ){..} 方便;正则匹配的时候也是, 你不知道能不能匹配成功。代码如下:
/>(\S)+\s+(\d+)/;my $tagId=$1;my $count=$2;
有时候对有时候会出错!为什么? 因为可能匹配失败啊,比如这一行内容是 :acgtacgt,肯定没有匹配的内容,my $tagId=$1;my $count=$2;这里的$1和$2是没有值的,所以就会报错了,但是;
if(/>(\S)+\s+(\d+)/){ my $tagId=$1;my $count=$2;} 这个肯定对,成功匹配的时候 $1匹配前面的, $2匹配后面的数字,刚好是想要的内容。
xdruid
2011-10-27 · 超过31用户采纳过TA的回答
知道答主
回答量:111
采纳率:0%
帮助的人:84.6万
展开全部
你这应该是读取一个FASTA格式的序列文件,每个序列的名字以“>”开头,下面是序列,但是如果序列是多行的,那么这个程序就有问题了。。。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
百度网友d580670
2011-10-26 · TA获得超过1983个赞
知道大有可为答主
回答量:2054
采纳率:82%
帮助的人:713万
展开全部
整个程序的大致意思是打开$seq_file这个路径的文件,
然后逐行读取while(<IN>)当然是放到$_里面
如果找到满足条件的行,例如
>tagfirst 100
kkkkkkkk
判断读到的行是上面的格式>非空格n个为tag 空格n个 数字n个为个数
读取下一行seq,下一行长度满足要求,以tag为键存储seq和个数。。。。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
计名pS
2011-10-26 · TA获得超过3649个赞
知道大有可为答主
回答量:4189
采纳率:0%
帮助的人:2206万
展开全部
--正则
if (/^>(\S+)/) { #如果一行的行首是这种形式:>非空格

if (/>\S+\s+(\d+)/) { # >非空格 123(数字)
更多追问追答
追问
为什么if (/^>(\S+)/),(\S+)用了括号
if (/>\S+\s+(\d+)/),\S+没用括号,最后(\d+)有括号,有什么区别吗
还有open IN, $seq_file || die $!;
IN只是一个名字吗,还是只要是读文件就要open IN
要是同时读两个文件,IN岂不是就冲突了
追答
--后面 $1 是(...)里的值
要是同时读两个文件:open IN1; open IN2
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(2)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式