Como construir um robô computador

Alguns robôs de computador são bons e alguns são maus.

robots de computador (também chamados bots, crawlers ou aranhas) são programas de software que buscam a Internet, a coleta de informações a partir de páginas da web. Eles não são vírus porque não injetar software em outros computadores - eles simplesmente recolher informações. O software é executado no computador do proprietário do robô e não utiliza os recursos de qualquer outro sistema. Alguns robôs reunir informações os proprietários das páginas Web visitadas prefere não ser lançado, mas os robôs de computador têm vários usos benignos e há algumas que você provavelmente gostaria de visitar a sua página de negócios web.

  • Criar um algoritmo clara primeiro. Apressando-se através desta parte é o erro mais comum cometido pelos fabricantes de robô. Você deve saber o que você quiser que o bot fazer em cada situação, exatamente quais informações você deseja coletar e quando quiser que o bot para parar a recolha de informações. A estrutura típica de um bot é um único loop: Olhe para a lista de entrada de diretórios, para cada arquivo em cada diretório recolher a informação que você está procurando, se você encontrar links para novos diretórios colocá-los em sua lista de diretórios, sempre verifique para duplicações e continuar fazendo isso até que a lista de diretórios está vazio. A lista de itens encontrados devem ser registrados em uma forma que é fácil de recuperar.



  • Escolha o idioma e codificar o algoritmo. Você pode escrever um robô computador em qualquer língua, mas algumas línguas são mais fáceis do que outros. Se você é um especialista em um determinado idioma, então esta é a linguagem de escolha óbvia. Se você é bem versado em uma variedade de línguas ou estará aprendendo uma língua apenas para escrever o bot, algumas línguas são melhores que outros. As línguas de escolha para escritores de bot são Perl e Ruby. Ambos estão disponíveis gratuitamente na web, relativamente fácil de aprender, executar rapidamente e têm características que fazem bot escrita simples para não especialistas. Por exemplo, ambas as línguas têm instruções simples para capturar todos os arquivos em um diretório.

  • Teste o bot. É fácil criar um bot que corre sem bater, mas não recolhe a informação adequada. Você deve testar o bot em seu próprio site onde você sabe quais as informações devem ser coletadas. Os sites mais você pode testar o seu site na melhor.

dicas & avisos

  • Sites, por vezes, ter um arquivo chamado "robots.txt" no nível superior de um site que contém o código de controle do robô para dirigir o robô visitar. Se você está coletando informações legítimas - como classificar o site para um motor de busca - o código de controle do robô pode te salvar um monte de tempo, restringindo a sua pesquisa para arquivos apropriados.
  • Algumas pessoas não gostam de ser visitado por robôs e vão disfarçar informações de robôs. Por exemplo, os endereços de e-mail pode ser escrita "abc {at} xyz.net" em vez de com o sinal @ como este é o que distingue um endereço de e-mail e será o endereço de e-mail bots coleta procurar.
De esta maneira? Compartilhar em redes sociais:

LiveInternet