Subjects

Last update: Ing. Jindřiška Peterková (12.09.2023)

As the field of biology evolves, biologists increasingly require advanced computational skills and expanded computational resources. An essential tool in this domain is the Unix command line, which also facilitates remote access to more powerful computing platforms. Furthermore, tools like git are indispensable for the reproducibility of research, ensuring consistency and reliability in findings.

We present an updated course with focus on remote computing and code reproducibility. Participants of the course will gain sufficient skills and confidence in unix-like environments in order to be able to use it for processing and analysis of their own genomics data. Besides a lot of hands-on exercise we will also provide an overview of available computational environments used in academic as well as commercial setups in bioinformatics.

Last update: Ing. Jindřiška Peterková (12.09.2023)

Jak se biologický výzkum rozvíjí, pro většinu biologů jsou stále více důležité pokročilé výpočetní dovednosti a využití výkonných výpočetní zdroje. Nezbytným nástrojem je příkazový řádek Unixu, který je klíčový ke vzdálenému přístupu k výkonnějším výpočetním platformám. Nástroje jako git jsou navíc nepostradatelné pro reprodukovatelnost výzkumu, zajišťující konzistentnost a spolehlivost nálezů.

Představujeme zde aktualizovaný kurz se zaměřením na výpočty na vzdálených platformách a reprodukovatelnost kódu. Účastníci kurzu získají dostatečné dovednosti a sebevědomí v unixových prostředích, aby je mohli používat pro zpracování a analýzu vlastních genomických dat. Kromě mnoha praktických cvičení poskytneme také přehled dostupných výpočetních prostředí používaných v akademickém i komerčním prostředí v bioinformatice.

Last update: Mgr. Václav Janoušek, Ph.D. (15.09.2015)

I. Introduction to Unix - Learn about the Unix philosophy.

II. Basic Unix - Learn to use the basic commands (cd, ls, ll, mkdir, mv, cp, pwd, htop, screen, grep, globbing, less, head, tail, cat, cut, sort, uniq, paste, join, pipes).

III. Advanced Unix - Learn basics of awk, sed, regular expressions, shell scripting, shell variables, parallel, subshells.

IV. Introduction to Genomics - Learn how ‘genomes’ are made.

V. Data visualization - Learn how to format your data for effective visualization and how to use RStudio, tidyr, dplyr and ggplot2 to explore your data visually.

VI. Read quality assessment - Learn how to use Unix to explore FASTQ files, calculate some basic statistics, assess read quality, filter out low-quality reads.

VII. Genome assembly - Learn how to do a (small) genome assembly.

VIII. Variant calling - Learn how to use the original NGS reads and a genome assembly to call variants.

IX. Standard annotation formats - Learn how information on genes, variants and genome properties is stored (GFF, VCF, BED formats) and how to obtain quick summaries with impressive speed (bedtools, vcftools, etc.)

X. A lot of practice.

Last update: RNDr. Jana Rubešová, Ph.D. (22.05.2018)

1. Úvod do prostředí Unix.

II. Základy Unixu - základní příkazy (cd, ls, ll, mkdir, mv, cp, pwd,

htop, screen, grep, globbing, less, head, tail, cat, cut, sort, uniq,

paste, join, pipes).

III. Pokročilý Unix - základy příkazů awk, sed, standardní výrazy, atd.

IV. Úvod do genomiky - struktura genomů.

V. Vizualizace dat - formátování dat pro jejich efektivní vizualizaci,

použití RStudio, tidyr, dplyr a ggplot2.

VI. Posouzení kvality sekvenčních genomových dat - FASTQ soubory.

VII. "Genome assembly" - jak propojit malé segmenty genomové informace.

VIII. Variantní procesy - použití originálních NGS readů a "genome

assembly" jejich variant.

IX. Standardní anotovací formáty - uložení a skladování genomové

informace (formáty GFF, VCF, BED), sumarizace dat (bedtools, vcftools)

X. Mnoho praktického procvičování.