Posts Tagged SEO
tudo que você precisa saber sobre robots.txt
Por Felipe de Albuquerque na categoria SEO em 29 de março de 2010

O arquivo robots.txt é como se fosse um cardápio que informa o que deverá ser consumido e o que não deverá ser. É como se fosse um cartão de acesso para os mecanismos de busca, mas caso esse o (Robots.txt) não exista o seu site será vasculhado, isso significa que todas as pastas e arquivos serão analisados e provavelmente indexados pelos agentes de busca. Por default os robots (googlebot, por exemplo) são programados para vasculhar e indexar tudo que encontre.
Você pode estar se perguntando?… Mas, eu quero que o Google e os demais mecanismos de busca encontrem o meu site. Qual seria o motivo de me preocupar com o robots.txt já que ele verifica o meu site sem este artifício?
É verdade, você não precisaria se preocupar com isso. Mas se o seu web software tiver pastas privadas com documentos de sigilo… já imaginou se o seu cliente encontrar esse conteúdo em uma pesquisa no google por exemplo… Ou até mesmo se o projeto estiver em fase de desenvolvimento e a URL de teste vazar, e de alguma forma os Robots encontram e indexam todo projeto, e os concorrentes do seu cliente passarem a ter acesso, e ai?
Mas o que vocal está tentando me dizer?
O Google e outros mecanismos de buscas tém algoritmos sofisticados que varem os códigos do site e eles guardam estas informações para quando for digitada alguma palavra chave no campo de busca, o mesmo cruza o texto digitado com as informações que ele tem guardado e monta a página com os possíveis sites que você possivelmente está procurando.
E esse robots.txt, como ele se comunica com os tais robots?
Assim que GoogleBots visita o seu site ele procura o arquivo robots.txt, que deverá ser salvo no root de seu site e nesse arquivo vamos dizer o que ele vai e o que ele não vai indexar.
A sintaxe é assim:
#comente assim
User-agent: *
Disallow: /
Onde o User-agent são os robots, o “ * ” diz que é para todos os bots, e o Disallow são as pastas que ele não poderá indexar, neste caso o “/” está dizendo que nada poderá ser indexado, mas preste bem atenção porque se você não colocar o “/” ele indexará tudo pois o caractere “/” significa um diretório e se você omitir esse caractere o Robots irá compreender o contrário que você está querendo. Veja o próximo exemplo.
User-agent: *
Disallow: #Perceba que omitimos o / e com isso a propriedade Disallow ficará sem sentido e o bot indexará todo o seu site
O exemplo também pode ser feito utilizando uma meta tag.
// Assim estamos dizendo que nada poderá ser indexado
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Vamos a outro exemplo que tem na Wikipédia:
User-agent: Googlebot
#As pastas que serão visitadas pelo Googlebot
Allow: /post
Allow: /portifolio
#As pastas que não serão visitadas pelo Googlebot
Disallow: /confidencial
Disallow: /protegido
Este exemplo especifica o bot (Googlebot) e informa as pastas que não serão indexadas. É importante ter em mente que as demais pastas do site serão indexadas normalmente.
Alguns robots:
- Google: User-agent: Googlebot
- Yahoo: User-agent: Slurp
- MSN: User-agent: msnbot.
- Todos os mecanismos: User-agent: *.
Observações importantes
O arquivo robots.txt é uma técnica importante de SEO (Search Engine Optimization), mas não é um arquivo de segurança para o seu projeto, ele apenas sinaliza para os mecanismos de busca o que deve e o que não deve ser acessado. Outro fator é que é um arquivo .txt e fica na raiz do site ele poderá ser acessado por qualquer pessoa e nele tem informações dos caminhos de sua aplicação e com isso um hacker mal intencionado poderá ter uma brecha para invadir sua aplicação. Antes de ir implementando essa técnica é importante conversar com os responsáveis pela segurança de redes do seu projeto ou dependendo da sua necessidade você poderá substituir o .txt pela meta tag nas páginas especificas.
Em suas buscas pelo assunto você também poderá ver outras nomenclaturas para as engine de busca que eu me refiro aqui como robots, você poderá achar algo como spiders, crawlers entre outros que se referem à mesma coisa que é um algoritmo de busca.
Progressive Enhancement
Por Felipe de Albuquerque na categoria SEO em 25 de setembro de 2009

A melhoria progressiva é uma estratégia de web design que enfatiza a acessibilidade, a marcação semântica e estilo externo e tecnologias de script.
Ela usa tecnologias da web em camadas que permite a todos o acesso a conteúdos e funcionalidades básicas de uma página web usando qualquer navegador ou ligação à Internet, fornecendo também aqueles com software de navegação mais largura de banda ou mais avançado de uma versão melhorada da página.
A estratégia é uma tentativa de subverter a estratégia de web design tradicional conhecida como degradação graciosa, onde designers iriam criar páginas Web para os navegadores mais recentes que também funcionam bem em versões antigas do navegador.
Degradação graciosa deveria permitir que a página de degradar ou manter-se apresentável, mesmo que certas tecnologias assumida pelo projeto não estava presente, sem ser brusco para o usuário do software, como mais velhos.
Na prática, a degradação graciosa foi suplantada por uma atitude que o usuário final deve apenas atualizar. Esta atitude é devido a limitações de tempo e orçamento, o acesso limitado a testes de software e browsers alternativos, bem como a crença generalizada de que os navegadores são gratuitos.
No Progressive Enhancement (PE), a estratégia é deliberadamente invertida: um documento de marcação de base é criada, voltada para o menor denominador comum de funcionalidades de software de navegação e, em seguida, o designer adiciona funcionalidades ou melhorias para a apresentação e comportamento da página, utilizando tecnologias modernas, como Cascading Style Sheets ou JavaScript (ou outras tecnologias avançadas, como Flash ou Java applets ou SVG, etc ) Todas essas melhorias são ligados externamente, de modo a evitar forçar navegadores de menor capacidade para comer dados que eles não entendem e não pode lidar com, ou que teria pântano sua ligação à Internet.
A abordagem do PE é derivada da experiência precoce Pulido (C 1993-4) com SGML, antes de trabalhar com HTML ou qualquer linguagem de apresentação na Web, bem como das experiências mais trabalhar com CSS para resolver bugs do navegador.
Nesses contextos cedo SGML, marcação semântica foi de fundamental importância, visto que a apresentação foi quase sempre considerada separadamente em vez de ser incorporado na marcação própria. Este conceito pode ser referido nos meios de marcação como a regra da separação de apresentação e conteúdo, a separação entre conteúdo e estilo, ou de separação da semântica e da apresentação.
À medida que a Web evoluiu em meados dos anos noventa, mas antes da CSS foi introduzida e amplamente apoiada, esta regra básica do SGML foi repetidamente violada por extensores HTML.
Profissionais como Eric Costello, Owen Briggs, Dave Shea, entre outros, mostraram como usar o CSS para fins de layout.
Libertando os designers a usar tecnologias poderosas como o CSS para gerir todas as tarefas de apresentação, JavaScript para melhorar comportamento e XHTML para estrutura.
4 Comentários | Assine | Topo