谁能帮我注释一小段perl程序,尤其是if语句判断的是什么啊,while (<IN>) 是自动读一个字符串吗,存在哪里
my%tagId_seq;my%tagId_count;my$uniq_tag_num;my$total_tag_count;openIN,$seq_file||die$...
my %tagId_seq;
my %tagId_count;
my $uniq_tag_num;
my $total_tag_count;
open IN, $seq_file || die $!;
while (<IN>) {
if (/^>(\S+)/) {
my $tagId=$1;
my $count=0;
if (/>\S+\s+(\d+)/) {
$count=$1;
}
my $seq=<IN>; chomp $seq;
my $length=length $seq;
if ($length >=$MIN_LEN && $length <=$MAX_LEN) {
$tagId_seq{$tagId}=$seq;
$tagId_count{$tagId}=$count;
++$uniq_tag_num;
$total_tag_count+=$count;
}
}
}
close IN; 展开
my %tagId_count;
my $uniq_tag_num;
my $total_tag_count;
open IN, $seq_file || die $!;
while (<IN>) {
if (/^>(\S+)/) {
my $tagId=$1;
my $count=0;
if (/>\S+\s+(\d+)/) {
$count=$1;
}
my $seq=<IN>; chomp $seq;
my $length=length $seq;
if ($length >=$MIN_LEN && $length <=$MAX_LEN) {
$tagId_seq{$tagId}=$seq;
$tagId_count{$tagId}=$count;
++$uniq_tag_num;
$total_tag_count+=$count;
}
}
}
close IN; 展开
4个回答
展开全部
1、open IN, $seq_file || die $!; 这句读文件的,IN是文件句柄的名字,$seq_file指明文件来源, 后面的 || die $!表示 如果前面的open失败 则用 die报告错误,并结束程序, $!在报错的时候内容为实际的出错原因。提示,最好使用3个参数的open函数,比如:
open ( IN, '<', $file_name) or die "Can't open $file_name : $!";
第二个参数 <表示读入, >表示写出, >> 表示追加。
2、while (<IN>) { 这一句, 相当于2句, 首先是 $_ = <IN>;默认读入的内容存在系统默认变量 $_中, 然后while循环 测试 $_的值是否非空,如果读入成功则进入循环;
3、if (/^>(\S+)/) { 这一句用于检查 $_ 的内容和正则表达式 /^>(\S+)/ 是否匹配, ^表示文件头, 用()括起来的内容可以在后面引用匹配的实际的值,如果不需要该值就不需要括号了。比如,文件读入内容为: >nm_415621 rna ; 那么后面紧接着的变量赋值 my $tagId=$1; 结果就是nm_415621 , $1 引用了前面匹配的括号里的内容。
4、原来这样啊,那要是同时读2个变量
(/>(\S)+\s+(\d+)/)
my $tagId=$1;
my $count=$2;
是这样吗?要是没有if,怎么读<IN>里的变量啊,比如my $seq=<IN>; 怎么从 $seq抽取$tagId和$count?
答: 这个不用if来判断是不行的, 因为 $seq=<IN>;理论上是读入文件,但是失败了呢,比如读完了或者文件为空,则 $seq 是没有值的后面也酒不能用了,所以要先确保 $seq 有值,就是要加一句 if ($seq){..} , 还不如 if ($seq=<IN> ){..} 方便;正则匹配的时候也是, 你不知道能不能匹配成功。代码如下:
/>(\S)+\s+(\d+)/;my $tagId=$1;my $count=$2;
有时候对有时候会出错!为什么? 因为可能匹配失败啊,比如这一行内容是 :acgtacgt,肯定没有匹配的内容,my $tagId=$1;my $count=$2;这里的$1和$2是没有值的,所以就会报错了,但是;
if(/>(\S)+\s+(\d+)/){ my $tagId=$1;my $count=$2;} 这个肯定对,成功匹配的时候 $1匹配前面的, $2匹配后面的数字,刚好是想要的内容。
open ( IN, '<', $file_name) or die "Can't open $file_name : $!";
第二个参数 <表示读入, >表示写出, >> 表示追加。
2、while (<IN>) { 这一句, 相当于2句, 首先是 $_ = <IN>;默认读入的内容存在系统默认变量 $_中, 然后while循环 测试 $_的值是否非空,如果读入成功则进入循环;
3、if (/^>(\S+)/) { 这一句用于检查 $_ 的内容和正则表达式 /^>(\S+)/ 是否匹配, ^表示文件头, 用()括起来的内容可以在后面引用匹配的实际的值,如果不需要该值就不需要括号了。比如,文件读入内容为: >nm_415621 rna ; 那么后面紧接着的变量赋值 my $tagId=$1; 结果就是nm_415621 , $1 引用了前面匹配的括号里的内容。
4、原来这样啊,那要是同时读2个变量
(/>(\S)+\s+(\d+)/)
my $tagId=$1;
my $count=$2;
是这样吗?要是没有if,怎么读<IN>里的变量啊,比如my $seq=<IN>; 怎么从 $seq抽取$tagId和$count?
答: 这个不用if来判断是不行的, 因为 $seq=<IN>;理论上是读入文件,但是失败了呢,比如读完了或者文件为空,则 $seq 是没有值的后面也酒不能用了,所以要先确保 $seq 有值,就是要加一句 if ($seq){..} , 还不如 if ($seq=<IN> ){..} 方便;正则匹配的时候也是, 你不知道能不能匹配成功。代码如下:
/>(\S)+\s+(\d+)/;my $tagId=$1;my $count=$2;
有时候对有时候会出错!为什么? 因为可能匹配失败啊,比如这一行内容是 :acgtacgt,肯定没有匹配的内容,my $tagId=$1;my $count=$2;这里的$1和$2是没有值的,所以就会报错了,但是;
if(/>(\S)+\s+(\d+)/){ my $tagId=$1;my $count=$2;} 这个肯定对,成功匹配的时候 $1匹配前面的, $2匹配后面的数字,刚好是想要的内容。
展开全部
你这应该是读取一个FASTA格式的序列文件,每个序列的名字以“>”开头,下面是序列,但是如果序列是多行的,那么这个程序就有问题了。。。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
整个程序的大致意思是打开$seq_file这个路径的文件,
然后逐行读取while(<IN>)当然是放到$_里面
如果找到满足条件的行,例如
>tagfirst 100
kkkkkkkk
判断读到的行是上面的格式>非空格n个为tag 空格n个 数字n个为个数
读取下一行seq,下一行长度满足要求,以tag为键存储seq和个数。。。。
然后逐行读取while(<IN>)当然是放到$_里面
如果找到满足条件的行,例如
>tagfirst 100
kkkkkkkk
判断读到的行是上面的格式>非空格n个为tag 空格n个 数字n个为个数
读取下一行seq,下一行长度满足要求,以tag为键存储seq和个数。。。。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
--正则
if (/^>(\S+)/) { #如果一行的行首是这种形式:>非空格
if (/>\S+\s+(\d+)/) { # >非空格 123(数字)
if (/^>(\S+)/) { #如果一行的行首是这种形式:>非空格
if (/>\S+\s+(\d+)/) { # >非空格 123(数字)
更多追问追答
追问
为什么if (/^>(\S+)/),(\S+)用了括号
if (/>\S+\s+(\d+)/),\S+没用括号,最后(\d+)有括号,有什么区别吗
还有open IN, $seq_file || die $!;
IN只是一个名字吗,还是只要是读文件就要open IN
要是同时读两个文件,IN岂不是就冲突了
追答
--后面 $1 是(...)里的值
要是同时读两个文件:open IN1; open IN2
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询
广告 您可能关注的内容 |