Como baixar todos os genomas bacterianos do NCBI
Se você estiver interessado em estudar a diversidade e a evolução das bactérias, talvez queira baixar todos os genomas bacterianos disponíveis em bancos de dados públicos. Isso pode ser útil para genômica comparativa, filogenética, metagenômica e outras aplicações. Neste artigo, mostraremos como baixar todos os genomas bacterianos do National Center for Biotechnology Information (NCBI), um dos maiores e mais abrangentes repositórios de dados biológicos do mundo.
Introdução
O que são genomas bacterianos e por que baixá-los?
As bactérias são organismos microscópicos que pertencem ao domínio dos procariontes, que são as primeiras formas de vida na Terra. As bactérias têm diversas formas, tamanhos, habitats e capacidades metabólicas. Eles podem causar doenças, mas também podem ser benéficos para os seres humanos e outros seres vivos. Por exemplo, as bactérias estão envolvidas na fermentação, biodegradação, fixação de nitrogênio, simbiose e biotecnologia.
download all bacterial genomes ncbi
O genoma de uma bactéria é o conjunto completo de informações genéticas codificadas em seu DNA. A maioria das bactérias tem um único cromossomo circular que contém todos os genes essenciais para sobrevivência e reprodução. Algumas bactérias também possuem elementos extracromossômicos chamados plasmídeos que carregam genes acessórios que podem conferir vantagens como resistência a antibióticos ou fatores de virulência.
Ao fazer o download de todos os genomas bacterianos, você pode acessar uma grande quantidade de informações sobre a diversidade e a evolução desses organismos fascinantes. Você pode comparar diferentes cepas ou espécies de bactérias, identificar genes ou regiões de interesse, reconstruir árvores filogenéticas, analisar expressão ou regulação gênica e muito mais.
O que é o NCBI e quais recursos ele oferece?
O National Center for Biotechnology Information (NCBI) é uma filial dos EUA.National Institutes of Health (NIH) que fornece acesso gratuito a uma variedade de bancos de dados biológicos, ferramentas e serviços. O NCBI hospeda milhões de registros de sequências de nucleotídeos, sequências de proteínas, estruturas, genomas, genes, publicações e muito mais. Você pode pesquisar, navegar, analisar e baixar dados do NCBI usando sua interface da Web ou sua interface de programação de aplicativos (API).
Um dos principais recursos que o NCBI oferece é o banco de dados Genome, que organiza informações sobre genomas de todos os domínios da vida, incluindo sequências, mapas, cromossomos, montagens e anotações. Você pode encontrar dados do genoma de milhares de espécies e cepas bacterianas no Genoma NCBI. Você também pode usar outros recursos do NCBI, como Assembly, BioProject, BioSample, GenBank, RefSeq, BLAST e Datasets para acessar e analisar dados do genoma.
Métodos
Usando o site FTP do NCBI
Uma maneira de baixar todos os genomas bacterianos do NCBI é usar seu site File Transfer Protocol (FTP). FTP é um protocolo de rede padrão que permite aos usuários transferir arquivos entre computadores pela Internet. O site FTP do NCBI contém diretórios e arquivos para vários bancos de dados e recursos do NCBI. Você pode acessar o site FTP usando um navegador da Web ou um software cliente FTP.
Encontrando o diretório de genomas bacterianos
Para encontrar o diretório que contém todos os genomas bacterianos no site FTP do NCBI, você precisa seguir estas etapas:
Vá para , que é o diretório raiz do site FTP.
Navegar para , que é o diretório para dados do genoma.
Navegar para , que é o diretório para todos os conjuntos de genoma.
Navegar para , which is the directory for RefSeq genome assemblies. RefSeq is a curated collection of high-quality genome sequences and annotations from NCBI.
Navigate to , que é o primeiro subdiretório dos conjuntos de genoma RefSeq.
Procure os subdiretórios que começam com é o diretório para a cepa de Escherichia coli K-12 MG1655.
Repita as etapas 4 a 6 para os outros subdiretórios dos conjuntos de genoma RefSeq, como , e assim por diante, até encontrar todos os genomas bacterianos que deseja baixar.
Escolha do nível e formato da montagem
Depois de encontrar o diretório de um genoma bacteriano, você precisa escolher o nível de montagem e o formato dos dados que deseja baixar. O nível de montagem refere-se ao grau de completude e contiguidade da sequência do genoma. Existem quatro níveis de montagem no NCBI:
Genoma Completo: A sequência inteira do genoma é representada em uma sequência única, sem intervalos e circular.
Cromossomo: A sequência do genoma é representada em uma ou mais sequências que correspondem aos cromossomos do organismo.
Scaffold: A sequência do genoma é representada em uma ou mais sequências que são compostas por contigs (segmentos contínuos de DNA) ordenados e orientados.
Contig: A sequência do genoma é representada em uma ou mais sequências que não são ordenadas ou orientadas.
O formato refere-se ao tipo de arquivo e estrutura dos dados. Existem vários formatos disponíveis no NCBI, como FASTA, GenBank, GFF e WGS. Os formatos mais comuns são:
FASTA: Um formato de texto simples que contém apenas a sequência de nucleotídeos do genoma, sem nenhuma anotação ou metadados.
GenBank: Um formato de texto simples que contém a sequência de nucleotídeos e a anotação do genoma, bem como metadados como número de acesso, versão, fonte e referências.
GFF: Um formato de texto simples que contém apenas a anotação do genoma, sem a sequência de nucleotídeos. Consiste em nove colunas delimitadas por tabulações que descrevem as características e atributos de cada região genômica.
WGS: Um formato binário compactado que contém a sequência de nucleotídeos e a anotação do genoma, bem como os metadados.Ele é otimizado para projetos de sequenciamento em grande escala e pode ser acessado usando ferramentas especializadas, como NCBI SRA Toolkit ou NCBI Datasets.
Para escolher o nível de montagem e o formato dos dados que deseja baixar, você precisa seguir estas etapas:
Vá para o diretório de um genoma bacteriano que você encontrou na etapa anterior.
Procure os arquivos com a extensão .fna, .gbff, .gff ou .wgs. Esses são os arquivos que contêm dados do genoma no formato FASTA, GenBank, GFF ou WGS, respectivamente.
Observe o nome do arquivo e identifique o nível de montagem pelo prefixo. O prefixo pode ser uma destas quatro opções:
NC_: Genoma Completo
NZ_: Cromossomo
NW_: andaime
NZ_: Contig
Selecione o arquivo que corresponda ao seu nível e formato de montagem preferidos. Por exemplo, se você deseja baixar um genoma completo no formato GenBank, procure um arquivo que tenha o prefixo NC_ e a extensão .gbff.
Repita as etapas 1 a 4 para cada genoma bacteriano que deseja baixar.
Baixando os dados usando um cliente FTP
Para baixar os dados usando um cliente FTP, você precisa seguir estas etapas:
Instale um software de cliente FTP em seu computador. Existem muitos clientes FTP gratuitos e de código aberto disponíveis online, como FileZilla, WinSCP, Cyberduck ou FireFTP.
Abra seu cliente FTP e conecte-se a como o nome do host, anônimo como o nome do usuário e seu endereço de e-mail como a senha.
Navegue até o diretório e o arquivo que deseja baixar usando a interface do cliente FTP. Você pode usar as mesmas etapas descritas nas seções anteriores para localizar o diretório de genomas bacterianos, escolher o nível de montagem e o formato e selecionar o arquivo.
Arraste e solte o arquivo do site FTP para seu computador local ou use a opção de download em seu cliente FTP.
Aguarde a conclusão do download. O tempo de download pode variar dependendo do tamanho do arquivo e da velocidade da sua conexão com a Internet.
Repita as etapas 3 a 5 para cada arquivo que deseja baixar.
Usando a ferramenta NCBI Datasets
Outra maneira de baixar todos os genomas bacterianos do NCBI é usar a ferramenta Datasets. Datasets é um novo serviço do NCBI que permite aos usuários acessar e baixar facilmente dados biológicos de maneira padronizada e conveniente. Você pode usar conjuntos de dados para pesquisar, navegar, filtrar e baixar dados de vários bancos de dados NCBI, como Genoma, Gene, Proteína, SRA e PubChem. Você pode usar conjuntos de dados por meio de sua interface da Web ou de sua ferramenta de linha de comando.
Instalando a ferramenta de linha de comando Datasets
Para instalar a ferramenta de linha de comando Datasets, você precisa seguir estas etapas:
Vá para , que é a página de documentação oficial da ferramenta de linha de comando Datasets.
Escolha seu sistema operacional (Windows, Mac ou Linux) e siga as instruções para baixar e instalar a ferramenta em seu computador.
Abra uma janela de terminal ou prompt de comando e digite conjuntos de dados --versão para verificar se a ferramenta está instalada corretamente. Você deve ver uma mensagem que mostra o número da versão da ferramenta.
Pesquisa de genomas bacterianos por nome taxonômico ou acesso
Para pesquisar genomas bacterianos por nome taxonômico ou acesso usando a ferramenta de linha de comando Datasets, você precisa seguir estas etapas:
Abra uma janela de terminal ou prompt de comando e digite conjunto de dados resumo genoma táxon bactérias para obter um resumo de todos os genomas bacterianos disponíveis no NCBI. Você deve ver uma tabela que mostra o número de genomas, montagens, cromossomos, plasmídeos, organelas e sequências para cada grupo taxonômico bacteriano.
Tipo resumo dos conjuntos de dados táxon do genoma "nome taxonômico" para obter um resumo dos genomas bacterianos para um nome taxonômico específico. Por exemplo, digite resumo dos conjuntos de dados táxon do genoma "Escherichia coli" para obter um resumo dos genomas de E. coli. Você pode usar qualquer nome ou classificação taxonômica válida, como espécie, gênero, família, ordem, classe, filo ou domínio.
Tipo conjuntos de dados resumo genoma acesso "número de acesso" para obter um resumo de um genoma bacteriano para um número de acesso específico. Por exemplo, digite resumo dos conjuntos de dados acesso ao genoma GCF_000005845.2 para obter um resumo do genoma da cepa de E. coli K-12 MG1655. Você pode usar qualquer número de acesso válido para uma montagem ou sequência do genoma no NCBI.
Tipo conjuntos de dados listam o táxon do genoma "nome taxonômico" ou conjuntos de dados listam "número de acesso" do genoma para obter uma lista de todos os genomas bacterianos para um nome taxonômico ou número de acesso específico. Por exemplo, digite conjuntos de dados listam o táxon do genoma "Escherichia coli" ou lista de conjuntos de dados acesso ao genoma GCF_000005845.2. Você deve ver uma tabela que mostra o número de acesso, versão, nome do conjunto, ID do bioprojeto, ID da bioamostra e nome do organismo para cada genoma.
Tipo --ajuda após qualquer comando para obter mais informações e opções para esse comando.
Baixando o pacote de dados usando a ferramenta Datasets
Para baixar o pacote de dados usando a ferramenta Datasets, você precisa seguir estas etapas:
Tipo conjuntos de dados baixam o táxon do genoma "nome taxonômico" ou conjuntos de dados baixam acesso ao genoma "número de acesso" para baixar todos os genomas bacterianos para um nome taxonômico ou número de acesso específico. Por exemplo, digite conjuntos de dados baixar táxon do genoma "Escherichia coli" ou conjuntos de dados baixar acesso genoma GCF_000005845.2. Você deve ver uma mensagem que mostra o progresso e o status do download. O tempo de download pode variar dependendo do número e tamanho dos genomas e da velocidade da sua conexão com a Internet.
Aguarde a conclusão do download. Os dados baixados serão salvos como um arquivo zip em seu diretório de trabalho atual. O arquivo zip terá um nome que começa com ncbi_dataset e termina com a data e hora do download.
Descompacte o arquivo zip para extrair o pacote de dados. O pacote de dados conterá um diretório denominado ncbi_dataset que possui vários subdiretórios e arquivos.Os subdiretórios e arquivos variam dependendo do tipo e número de genomas que você baixou, mas normalmente incluem:
data/: um diretório que contém os arquivos de dados do genoma em vários formatos, como FASTA, GenBank, GFF, WGS e JSON.
data_report.jsonl: Um arquivo que contém um resumo dos dados do genoma no formato JSON.
dataset_catalog.json: Um arquivo que contém metadados sobre o pacote de dados no formato JSON.
README.md: Um arquivo que contém instruções e informações sobre o pacote de dados no formato Markdown.
Repita as etapas 1 a 4 para cada nome taxonômico ou número de acesso que deseja baixar.
Conclusão
Resumo dos principais pontos
Neste artigo, mostramos como baixar todos os genomas bacterianos do NCBI usando dois métodos: usando o site FTP do NCBI ou usando a ferramenta NCBI Datasets. Ambos os métodos têm vantagens e desvantagens, dependendo de suas preferências e necessidades. Aqui estão alguns pontos-chave a serem lembrados:
O site FTP do NCBI permite acessar e baixar dados de vários bancos de dados e recursos do NCBI, incluindo Genome, Assembly, BioProject, BioSample, GenBank, RefSeq, BLAST e Datasets.
O site FTP do NCBI exige que você use um software cliente FTP ou um navegador da Web para conectar-se ao site FTP e navegar até o diretório e o arquivo que deseja baixar.
O site FTP do NCBI permite escolher o nível de montagem e o formato dos dados do genoma, como Complete Genome, Chromosome, Scaffold, Contig, FASTA, GenBank, GFF ou WGS.
A ferramenta NCBI Datasets permite acessar e baixar facilmente dados de vários bancos de dados NCBI de maneira padronizada e conveniente, como Genoma, Gene, Proteína, SRA e PubChem.
A ferramenta NCBI Datasets requer que você instale a ferramenta de linha de comando Datasets em seu computador e use-a para pesquisar genomas bacterianos por nome taxonômico ou número de acesso.
A ferramenta NCBI Datasets baixa os dados do genoma como um arquivo zip que contém um pacote de dados com vários subdiretórios e arquivos em vários formatos.
Recomendações e dicas
Aqui estão algumas recomendações e dicas para baixar todos os genomas bacterianos do NCBI:
Antes de baixar todos os genomas bacterianos, certifique-se de ter espaço em disco e largura de banda de Internet suficientes para armazenar e transferir os dados. O tamanho dos dados pode variar dependendo do número e da complexidade dos genomas, mas pode ser de vários gigabytes ou mais.
Depois de baixar todos os genomas bacterianos, certifique-se de verificar a integridade e a qualidade dos dados. Você pode usar ferramentas como md5sum ou sha256sum para verificar as somas de verificação dos arquivos. Você também pode usar ferramentas como FASTQC ou QUAST para avaliar a qualidade das sequências e montagens.
Se você encontrar algum problema ou erro ao baixar todos os genomas bacterianos do NCBI, entre em contato com o NCBI para obter suporte ou feedback. Você pode usar o formulário on-line em .
perguntas frequentes
Quais são algumas aplicações de download de todos os genomas bacterianos do NCBI?
Algumas aplicações de download de todos os genomas bacterianos do NCBI são:
Genômica comparativa: você pode comparar diferentes linhagens ou espécies de bactérias para identificar semelhanças e diferenças em sua estrutura, conteúdo, função e evolução do genoma.
Filogenética: você pode reconstruir a história evolutiva e as relações das bactérias com base em suas sequências e anotações genômicas.
Metagenômica: você pode analisar a diversidade e a função das comunidades bacterianas em diferentes ambientes ou amostras com base em suas sequências e anotações genômicas.
Expressão ou regulação gênica: você pode estudar como as bactérias expressam ou regulam seus genes em resposta a diferentes condições ou estímulos com base em suas sequências e anotações genômicas.
Biotecnologia: você pode descobrir ou projetar novas enzimas, vias, produtos ou aplicações de bactérias com base em suas sequências e anotações genômicas.
Como posso baixar todos os genomas bacterianos do NCBI em um único arquivo?
Se você deseja baixar todos os genomas bacterianos do NCBI em um único arquivo, pode usar a ferramenta NCBI Datasets com o --todos opção. Esta opção fará o download de todos os genomas que correspondem à sua consulta como um único arquivo zip. Por exemplo, você pode digitar conjuntos de dados baixar bactérias do táxon do genoma --todos para baixar todos os genomas bacterianos em um único arquivo. No entanto, esteja ciente de que essa opção pode levar muito tempo e muito espaço em disco para ser concluída.
Como posso filtrar ou refinar minha busca por genomas bacterianos no NCBI?
Se você deseja filtrar ou refinar sua busca por genomas bacterianos no NCBI, você pode usar a ferramenta NCBI Datasets com o --filtro opção. Esta opção permitirá que você especifique critérios como nível de montagem, origem da montagem, status da montagem, tipo de liberação ou data de liberação da anotação. Por exemplo, você pode digitar conjuntos de dados baixam bactérias do táxon do genoma --filter "assembly_level=complete" para baixar apenas genomas bacterianos completos. Você também pode usar o --exclude-genbank ou --exclude-refseq opções para excluir genomas GenBank ou RefSeq de seu download.
Como posso atualizar meus genomas bacterianos baixados do NCBI?
Se você deseja atualizar seus genomas bacterianos baixados do NCBI, pode usar a ferramenta NCBI Datasets com o --atualizado-desde opção. Esta opção permitirá que você especifique uma data e baixe apenas os genomas que foram atualizados a partir dessa data. Por exemplo, você pode digitar conjuntos de dados baixam bactérias do táxon do genoma --atualizado desde 2023-01-01 para baixar apenas os genomas bacterianos que foram atualizados desde 1º de janeiro de 2023. Você também pode usar o --funcionamento a seco opção para visualizar a lista de genomas que serão baixados sem realmente baixá-los.
Como posso acessar e analisar meus genomas bacterianos baixados do NCBI?
Se você deseja acessar e analisar seus genomas bacterianos baixados do NCBI, pode usar várias ferramentas e softwares, dependendo de suas necessidades e preferências. Alguns exemplos são:
NCBI SRA Toolkit: Um conjunto de software que permite acessar e manipular dados no formato WGS.
NCBI BLAST: Um conjunto de software que permite comparar suas sequências com outras sequências em bancos de dados NCBI.
Malva: Um conjunto de software que permite alinhar e visualizar vários genomas bacterianos.
Mega: Um conjunto de software que permite realizar análises filogenéticas de genomas bacterianos.
R: Uma linguagem de programação e ambiente que permite realizar análises estatísticas e visualização de genomas bacterianos.
0517a86e26
Commenti