Re^4: Size of sequences in fastafile

This is my data:

>NM_030643.4 Homo sapiens apolipoprotein L4 (APOL4) 
GAGGTGCTGGGGAGCAGCGTGTTTGCTGTGCTTGATTGTGAGCTGCTGGGAAGTTGTGACTTTCATTTTA
CCTTTCGAATTCCTGGGTATATCTTGGGGGCTGGAGGACGTGTCTGGTTATTATATAGGTGCACAGCTGG
AGGTGAGATCCACACAGCTCAGACCAGCTGGATCTTGCTCAGTCTCTGTCAGAGGAAGATCCCTTGGAGG
AGGCCCCGCAGCGACATGGAGGGAGCTGCTTTGCTGAAAATCTTTGTCGTCTGCATCTGGAACCAAAATC
>NM_001198855.1 Homo sapiens cytochrome P450 family 2 subfamily C memb
+er 8 (CYP2C8)
ACATGTCAAAGAGACACACACTAAATTAGCAGGGAGTGTTATAAAAACTTTGGAGTGCAAGCTCACAGCT
GTCTTAATAAGAAGAGAAGGCTTCAATGGAACCTTTTGTGGTCCTGGTGCTGTGTCTCTCTTTTATGCTT
CTCTTTTCACTCTGGAGACAGAGCTGTAGGAGAAGGAAGCTCCCTCCTGGCCCCACTCCTCTTCCTATTA
>NR_029834.1 Homo sapiens microRNA 200a (MIR200A), microRNA
CCGGGCCCCTGTGAGCATCTTACCGGACAGTGCTGGATTTCCCAGCTTGACTCTAACACTGTCTGGTAAC
GATGTTCAAAGGTGACCCGC
>AC067940.1 Homo sapiens clone RP11-818E9, LOW-PASS SEQUENCE SAMPLING
AAATACAACTTTAAATCAAAACGGTAAAAATTCCACTCTTTCATACTAACTTCAAAAGTATTTGCTTTAA
AAAAAAAGNNNNNNNNNNAAACTGAATTTCTATTAAGCATCTATTTATAGAAGAGAGTAAACACCCCGTG
AATAAAAGACAGAGAATTGTAGCAGCCCGAAGTCCCTTTTCTCTCCTCCCAAGCATTTGGCTCTGGTCCA
AATTCACATATCCTGCTCCGTAAAACAAAGTGCCTTGGTTAACCTAACGTTATTCCTTGAACAGTAGTTT
AGTGATCAACTAGTTTTTGTTGTTGTTGTTGTTTGAGACAGAGTCTCACTCTGTCGCCCAGGCTGGAGTG
CAGTGGCGAGATCTCAGCTCACTGCAACCTCTGCTGCCCAGGTTCAAGGGATTCTCCTGCCTCAGCCTCC
CAAGTAGCTGGTATTACAGGCACCTGCCACCGCGCCTGGCTAATTTTTTTTTTTTTTTTTTTTTGTATTT
[download]

The question is, how can I find out the sequence length of each sequence and extract those of a specific length? I have tried both to put the data in an array, which puts each line in one element, and also to put it in a scalar and tried to use the > to separate each seq, but I am stuck.

Comment on Re^4: Size of sequences in fastafile Download Code

Replies are listed 'Best First'.

Re^5: Size of sequences in fastafile
by zubenel0 (Sexton) on Mar 01, 2020 at 12:39 UTC

BioPerl

use Bio::SeqIO;

# Setting minimum length to 250
my $min_len = 250;

# Reading the input fasta file
my $seqio_in = Bio::SeqIO->new(-file => "Genes.fasta", 
                             -format => "fasta" );

# Creating the output fasta file                             
my $seqio_out = Bio::SeqIO->new(-file => ">Genes_filt_250.fasta", 
                             -format => "fasta" );

# Saving sequences to the output if length > min_len     
while ( my $seq = $seqio_in->next_seq ) {
    if ( $seq->length  >  $min_len ) {
        $seqio_out->write_seq($seq);
    }
}
[download]

>NM_030643.4 Homo sapiens apolipoprotein L4 (APOL4) 
GAGGTGCTGGGGAGCAGCGTGTTTGCTGTGCTTGATTGTGAGCTGCTGGGAAGTTGTGAC
TTTCATTTTACCTTTCGAATTCCTGGGTATATCTTGGGGGCTGGAGGACGTGTCTGGTTA
TTATATAGGTGCACAGCTGGAGGTGAGATCCACACAGCTCAGACCAGCTGGATCTTGCTC
AGTCTCTGTCAGAGGAAGATCCCTTGGAGGAGGCCCCGCAGCGACATGGAGGGAGCTGCT
TTGCTGAAAATCTTTGTCGTCTGCATCTGGAACCAAAATC
>AC067940.1 Homo sapiens clone RP11-818E9, LOW-PASS SEQUENCE SAMPLING
AAATACAACTTTAAATCAAAACGGTAAAAATTCCACTCTTTCATACTAACTTCAAAAGTA
TTTGCTTTAAAAAAAAAGNNNNNNNNNNAAACTGAATTTCTATTAAGCATCTATTTATAG
AAGAGAGTAAACACCCCGTGAATAAAAGACAGAGAATTGTAGCAGCCCGAAGTCCCTTTT
CTCTCCTCCCAAGCATTTGGCTCTGGTCCAAATTCACATATCCTGCTCCGTAAAACAAAG
TGCCTTGGTTAACCTAACGTTATTCCTTGAACAGTAGTTTAGTGATCAACTAGTTTTTGT
TGTTGTTGTTGTTTGAGACAGAGTCTCACTCTGTCGCCCAGGCTGGAGTGCAGTGGCGAG
ATCTCAGCTCACTGCAACCTCTGCTGCCCAGGTTCAAGGGATTCTCCTGCCTCAGCCTCC
CAAGTAGCTGGTATTACAGGCACCTGCCACCGCGCCTGGCTAATTTTTTTTTTTTTTTTT
TTTTGTATTT
[download]

[reply]
[d/l]
[select]


Problems? Is your data what you think it is?
	PerlMonks