Internet ou Web aranhas, às vezes conhecido como "crawlers" ou "robôs web," são programas de computador que exploram a World Wide Web, recolha de dados sobre os sites e páginas. Os motores de busca, muitas vezes usam aranhas para fornecer informações sobre o conteúdo dos sites e as ligações entre eles. aranhas Internet procurar sites seguindo links para eles de outros sites e navegar nas páginas dentro de um site da mesma forma, usando âncoras de HTML.
estrutura de teia
A capacidade de criar vínculos entre páginas da Web é um aspecto fundamental da Internet. Páginas dentro de um site pode ligar uns aos outros, bem como para outros sites, permitindo aos usuários acessar informações usando cliques do mouse. Isto resulta na estrutura da Web, o que é uma massa de conteúdo da Web ligado através de âncoras de HTML. crawlers, siga estes links para obter informações sobre os locais existentes, muitas vezes usando os dados descobertos durante o rastreamento para apresentar resultados de pesquisas.
motores de busca
Os motores de busca enviar o tráfego de visitantes para os sites listados em suas páginas. Quando um usuário digita um termo de pesquisa e realiza uma pesquisa, os resultados apresentados, muitas vezes contêm informações obtidas através de rastreamento. Os dados recolhidos por um programa de aranha Web inclui alguns dos conteúdos site real. Os motores de busca alimentar esses dados para os algoritmos que eles usam para classificar sites em ordem de importância na lista de busca. programas de aranha internet, muitas vezes chegar a um site através de um link para ele a partir de outro site. Ao analisar os dados de rastreamento, um dos principais objectivos para os motores de busca é determinar quais palavras-chave de busca de um site ou página devem ser coletados para.
Acesso ao site
proprietários de sites podem atingir um nível de controle sobre as maneiras pelas quais Web spiders acessar seu conteúdo. Muitos sites armazenar um arquivo de texto no diretório raiz chamado "robots.txt." Quando o programa rastreador inicia explorando um site, ele irá normalmente primeiro verificar se há algum "robots.txt" arquivos, analisando o conteúdo. proprietários de sites podem estruturar a sua "robots.txt" arquivo de uma forma que impede que o programa de continuar a explorar as páginas dentro do site, se não quer que ele seja indexado. O grau de sucesso para esta técnica varia, como em alguns casos, o programa de aranha não vai realmente verificar o arquivo de texto em tudo.
Web marketing
As pessoas que se especializam em marketing na Internet muitas vezes se concentram alguns dos seus esforços na maximização do conteúdo e estrutura de um site para melhor se adequar o mecanismo de busca e algoritmos de classificação. A capacidade de fazer isso com sucesso às vezes é dificultada pelo fato de que as organizações motor de busca gostam de manter os detalhes de seus algoritmos segredo. SEO (Search Engine Optimization) é a prática de adaptar a estrutura e conteúdo de um site para realizar o melhor possível nas páginas de resultados de pesquisas.