Projects

Progetti per la prova finale

Questa pagina propone le consegne per un progetto finale da scrivere in Perl. Troverete ulteriori dettagli a breve. Per la sottomissione ai docenti, ogni “progetto” ha un suo codice da usare nel modulo di invio.

Per partecipare, ciascun gruppo deve “iscriversi” con un commento a questa pagina in cui ci direte il nome del gruppo, i componenti del gruppo (nome e login), nonché una mail di riferimento per contattarvi.


SAM parser 1 (hw10)

Parserizzare un file SAM, fornito dall’utente, e fornire come output:

  • Il numero di allinementi presenti
  • Il numero di cromosomi presenti nel reference
  • Il numero di allineamenti per cromosoma
  • Il numero di allineamenti per cromosoma diviso per la lunghezza del cromosoma

FASTQ parser (hw20)

Parserizzare un file FASTQ, fornito dall’utente,
stampando alla fine:

  • il numero di sequenze trovate e la lunghezza totale,
  • la lunghezza media delle sequenze e la deviazione standard,
  • la percentuale delle basi,
  • N50, L50

FASTA parser (hw30)

Parserizzare un file multifasta, fornito dall’utente, stampando alla fine:

  • il numero di sequenze trovate e la lunghezza totale,
  • la lunghezza media delle sequenze e la deviazione standard,
  • la percentuale delle basi,
  • N50, L50

SAM parser 2 (hw40)

Parserizzare un file SAM, fornito dall’utente, e fornire come output:

  • La lunghezza media e massima delle sequenze trovate
  • La percentuale di allineamenti univoci (ovvero con qualità non nulla) sul totale
  • La qualità media degli allineamenti
  • La percentuale di reads con flag “0” e la percentuale di reads con flag “16”

VCF parser (hw14)

Parserizzare un file VCF, fornito dall’utente, e stampare solo le righe del file che soddisfino questi criteri:

  • Che abbiano un codice rs (dbSNP)
  • La qualità sia superiore ad una soglia definita dall’utente
  • Che siano SNP (Single Nucleotide Polimorphism)
  • La percentuale di righe stampate sul totale

Contare i k-mer (hw15)

Parserizzare un file FASTQ, SAM o multifasta (scegliere un formato, il multifasta e’ il piu’ difficile), fornito dall’utente, stampando alla fine:

  • la lista dei k-mer presenti nelle sequenze e, per ogni k-mer, il numero N di occorrenze del k-mer;
  • per ogni numero N del punto precedente, quanti k-mer sono comparsi quel numero N di volte;
  • la media, la mediana e la moda degli N.

La lunghezza k dei k-mer deve anch’essa essere passata dall’utente.

Questo e’ il progetto piu’ impegnativo, quindi sceglietelo solo se vi sentite dei bravi perlini/e.

33 thoughts on “Projects

  1. DAVIDE DAL BO says:

    Ciao tutors! Potete caricare qualche file SAM, FASTQ, VCF e multiFASTA, così possiamo utilizzarli per provare i nostri programmi!
    Grazie

    • DAVIDE DAL BO says:

      (…la faccina non l’ho scelta io… 😛 )

    • Andrea Telatin says:

      Ciao,
      certamente lo faremo. Ma faremo anche di più: per ciascun progetto vedrete un post dedicato con dettagli e file di esempio. Come per tutti i buoni progetti gli step iniziali richiedono l’analisi e lo studio del problema. Poi vi chiederemo di iscrivere il vostro gruppo (credo fra poco si “svelerà” la pagina per farlo).
      Infine vi chiederemo di dirci il progetto scelto.. Insomma: first things first. 😉

  2. Anna says:

    Ciao tutors, più o meno quando metterete i file ecc.. così possiamo iniziare ad organizzarci?
    Grazie 🙂

  3. Matteo says:

    Matteo Schiavinato, Marzia Tavernese, Ambra Bonollo:
    Perl & Cano 😀

  4. MartinaGiacomoBojana says:

    Ciao. siamo giacomo, bojana e martina. il nostro gruppo si chiama Giambo e la nostra login è geno-123. potete contattarci all’indirizzo giaco.furlan@gmail.com. Have a nice day

  5. Gloria says:

    Ciao! Noi siamo Glutammina (CAG), e i componenti sono:
    – Chiara Bianchimani (geno-22)
    – Annamaria Lia (geno-26)
    – Gloria Scattolin (geno-4)
    Potete contattarci alla mail gloria.scattolin@gmail.com

  6. MartinaPaolaMariaSole says:

    Ciao! Siamo Martina (geno-17), Maria Sole (geno-16) e Maria Paola (geno-20), ci eravamo già registrate (come gruppo PERLiamone!!!) nel work group registration ma non avevamo una login. Va bene se scegliamo geno-234 come login?

    • Andrea Telatin says:

      Ciao, e benvenuti nell’avventura. Il nome ci piace 😉
      Suggeriamo geno-1720
      Buon lavoro

  7. Carlo says:

    Ciao, noi siamo NGS : Next Generation Student
    -Carlo Campanelli (geno-25)
    -Michael Gachomba (geno-21)
    -Francesca Sensi (geno-9)
    Potete contattarci alla mail: carlo.campanelli1989@gmail.com

  8. marco says:

    ciao il mio gruppo è “marco” ed è composto da:
    -marco necci (geno-6)

    rvrmarco@gmail.com

    come login del gruppo vorrei geno-666 grazie 🙂

  9. ElisannaIreneRoberta says:

    Ciao! Noi siamo Elisanna Bergamin (geno-15), Irene Zorzan (geno-14) e Roberta Peruzzo (geno-13). Il nostro gruppo è “Cervelline”. Avevamo pensato a geno-238 come login: può andare bene?
    Grazie, buona giornata!

  10. Martina says:

    Ciao. siamo Martina e Giovanni. il nostro gruppo si chiama Sandro e la nostra login è geno-571. potete contattarci all’indirizzo bonucci.martina@gmail.com. Grazie

  11. Federica says:

    Ciao siamo Federica , Celeste e Davide , il nostro gruppo si chiama Perlinos Desperados e come login vorremmo geno-777 può andar bene? Potete contattarci all’indirizzo federica.granieri@studenti.unipd. Grazie !

  12. Davide Dal Bo says:

    …io ho provato a fare quello dei k-mers…
    La mia login normalmente sarebbe geno-22, può andar bene?
    e-mail: bilbo.db90@gmail.com

  13. Maria Giovanna Lupo says:

    Maria Giovanna Lupo e Lisa Buson
    “Le nuove BILL GATES”

Leave a Reply to MartinaPaolaMariaSole Cancel reply

Your email address will not be published. Required fields are marked *