O conceito de crawl.
"A Web constitui a maior e mais variada base de dados do mundo, onde as informações, distribuídas em sítios, abrangem uma ampla gama de assuntos. Os textos estão armazenados em hiperdocumentos e hiperligações, de forma semi-estruturada ou não-estruturada, e não possuem um contexto único, ou seja, assuntos diferentes e hiperligações para contextos diferentes podem ser encontrados em um mesmo hiperdocumento. Para facilitar a busca por uma determinada informação, faz-se necessário que os dados da Web sejam primeiramente encontrados, filtrados e categorizados. Essas tarefas podem ser executadas manualmente, mas o custo seria elevado, a eficiência baixa, e a eficácia seria questionável, visto que é humanamente impossível garantir o escrutínio de uma parte significativa da Web em busca de determinada informação. Os processos que localizam, obtêm e indexam automaticamente hiperdocumentos na Web são chamados crawlers, robots ou spiders [Cho and Garcia-Molina 2000]. Tais processos podem ser entendidos como sendo buscadores em grafos, onde a Web é o grafo, os hiperdocumentos são os nós e as hiperligações e os formulários são as arestas.
A Web pode ser dividida em 2 partes claramente distintas e com pouca sobreposição entre si: a Web Pública (Public Indexable Web ou Surface Web) e a Web Escondida (Hidden Web ou Deep Web) [Bergman 2001, Chang et al. 2004]. A primeira é constituída pelo conjunto de hiperdocumentos alcançáveis por meio de hiperligações. A segunda é constituída por hiperdocumentos: (1) dinâmicos, construídos sob demanda para responder a uma submissão de formulário; (2) não referenciados, para os quais nenhuma outra página aponta; (3) que exigem autenticação; (4) que variam de acordo com o contexto em que são acessados; (5) cujo acesso é limitado por meios técnicos (e.g. Robots Exclusion Standard, CAPTCHAs); (6) acessáveis por hiperligações gerados por client-scripts; e, finalmente, (7) não textuais (e.g. imagem, vídeo, áudio)."
Entendido.
Passo 1
Escolha seu alvo, neste caso foi o site: Inj3ct0r - exploit database : vulnerability : 0day : shellcode
Attachment 4730001.jpg
Passo 2
No firefox ou outro browser, configure o proxy no endereço localhost e porta 8081
Attachment 4740002.jpg
Passo 3
Escolha a ferramenta "Paros".
Attachment 4750003.jpg
Passo 4
Clique no menu "Tools"->"Proxy" e set o mesmo que você usou no browser (firefox).
0005.jpg
Passo 5
No frame de exibição da esquerda, repare que os sites que você esta navegando no caso Inj3ct0r - exploit database : vulnerability : 0day : shellcode e links que fazem parte.
0006.jpg
Attachment 478


. Inclusive o próximo How-to será sobre ele.
produce
