segunda-feira, 11 de agosto de 2008

Buscas na Web Aula 11/8

1) É segunda maior atividade na Web depois do correio eletrônico;
2) As últimas estimativas dizem que existem 27,3 bilhões de páginas indexadas (http://www.worldwidewebsize.com/) por mecanismos de buscas. Mas acredita-se que isto corresponde apenas à ¼ de todas as paginas capazes de serem indexadas. O total seria de mais ou menos 100 bilhões de páginas acessáveis publicamente.
3) Nada menos que 210 milhões de buscas são realizadas diariamente. Por mês 6,4 bilhões. (Fonte http://searchenginewatch.com/showPage.html?page=2156461)
4) O ranking dos sistemas de buscas é o seguinte: Google (91 milhões de buscas diárias), Yahoo (60 milhões), MSN (28 milhões), AOL (16 milhões), Ask (13 milhões) e os demais 6 milhões de buscas diárias.

Pizza de distribuição



5) Sem os mecanismos de busca a Web seria inviável.
6) Tendências de buscas



7) Só na Europa e só no terceiro trimestre de 2006 (Julho/Agosto/Setembro) e só nos sites de oferta de empregos, aconteceram 50 milhões de buscas mensais, segundo dados da ComScore. (http://www.comscore.com/press/release.asp?press=1047)
8) Buscas na web são a principal atividade de quem trabalha com comunicação e educação.
9) Buscas humanas (diretórios) e automáticas bots (crawlers).
10) É mais importante saber onde está a informação do que possuí-la.
11) Os sistemas de buscas incluem também ferramentas como a wikipédia, sistemas de consulta como o Answers ( uma combinação de enciclopédia e dicionário e curso de inglês - http://www.answers.com/) e as chamadas buscas verticais ou especiaizadas.

- Principais sistemas de buscas

1) Mecanismos clássicos de buscas – crawler ou webot - AltaVista
2) Diretório – Open Directory Project (http://dmoz.org/)
3) Metabuscas – MetaCrawler (http://www.metacrawler.com/) , DogPile (http://www.dogpile.com/), Myriad (http://www.myriadsearch.com/)
4) Mistos – Google, Yahoo, MSN , BlowSearch (diretório e metabuscas - http://www.blowsearch.com/) .
5) Verticais – especializados Fotos , Vídeos , Áudio , Artigos e Reportagens (http://www.findarticles.com/) , Filmes (http://www.rottentomatoes.com/ e http://www.imdb.com/) ,
6) Por perguntas - Ask (http://www.ask.com/?o=312 virou misto, mas só responde perguntas feitas em ingles)
7) Experimentais – Acoona baseado em inteligência artificial (http://www.accoona.com/) , web semântica (Detalhes em http://www.comciencia.br/reportagens/internet/net08.htm e Cuit (www.cuit.com)
8) Páginas muito velhas – WayBack Machine tem um arquivo mundial de páginas http://www.archive.org/index.php
9) Por noticias - Topix vinculado à cadeia de jornais Ganner dos Estados Unidos; http://www.topix.net/ ;
10) Cha-Cha : buscas com guias humanos http://www.chacha.com/ (http://blog.searchenginewatch.com/blog/061106-091944)
11) Por blogs – Blogdigger (http://www.blogdigger.com/index.html) e Google Blog Search http://www.google.com/blogsearch
12) Find Articles – especializado na busca de artigos de revistas (http://www.findarticles.com/)

- Outros mecanismos

Esta lista resume os mais usados sistemas de buscas existentes no mercado. Há muitos outros com graus variáveis de especialização.

Internacionais quase todos em inglês, mas alguns tem versões em português:

Eurekster – (http://www.eurekster.com ) Utiliza um motor de buscas baseado num sistema próprio chamado Swicki. Trata-se de um modelo de buscas sociais que lembra o programa wiki. Se nos diretórios há um grupo de pesquisadores ou indexadores, no swicki (http://swickihome.eurekster.com/dir.htm ) são os próprios usuários que funcionam como indexadores. Ainda está em desenvolvimento.

Looksmart - http://search.looksmart.com/ é um diretório e motor cujo diferencial é a incorporar buscas verticais especializadas e também uma área para procura de artigos publicados em revistas.

Clusty – (http://clusty.com/) É uma sistema de metabuscas que organiza os resultados por áreas de interesse (os clusters).

DogPile - http://www.dogpile.com/ Metabuscas faz buscas noutros nove sites de buscas. Tem uma área especifica para documentos multimídia e sites de comercio eletrônico.

MSN - http://br.msn.com/ Mecanismo de buscas da Microsoft

Yahoo - http://www.yahoo.com/ Diretório clássico mas que já incorporou uma área de indexação com motores de busca. Grande diferencial é ter criado um portal e ter se transformado também em provedor de acesso.

All The Web - http://www.alltheweb.com/ Motor de buscas baseado no Yahoo que disputa com o Google o titulo de maior banco de sites indexados. Diferencial cataloga sites que fazem FTP.

Ask - http://www.ask.com/ Buscas apoiadas em diretório e em profissionais de buscas. Funciona no sistema pergunta e resposta customizado. Incorporou um mecanismo chamado Teoma

Google - http://www.google.com O maior motor de buscas da Web com cerca de 4,5 bilhões de páginas indexadas. Originalmente era só motor mas hoje tem uma área de diretórios. Trabalha com 50 idiomas. Diferencial faz buscas em grupos de discussão. Tem um site de noticias feito integralmente por computador. Google News (http://news.google.com/) e um site só para compras (http://froogle.google.com/) .

Mecanismos brasileiros

Google em português – http://www.ggogle.com.br
Achei – www.achei.com.br é um diretório
Cadê – http://br.cade.yahoo.com foi comprado pelo Yahoo
Radix – http://radix.ibest.com.br/jsp/
Multibusca antigo Miner (Folha de São Paulo) – http://miner.bol.com.br/index.html instala uma barra de buscas
BR5 – www.br5.com.br/buscas diretorio

Buscas Aplicadas

Local - http://local.com/
Ônibus Táxi http://labs.google.com/ridefinder
http://www.nextbus.com/predictor/newUserWelcome.shtml
Pessoas amigos grupos - http://www.meetro.com/
Mapas - http://maps.a9.com/
http://virtualearth.msn.com/
Wikipedia - http://www.placeopedia.com/
Blogs - http://battellemedia.com/
http://blogdex.net/ MIT
Audio http://audio.search.yahoo.com/
Vídeo http://www.blinkx.tv/
Deep Web http://aip.completeplanet.com



- Dicas básicas
Seguem algumas dicas gerais:
1) Símbolos boleanos – aspas para a expressão ou nome exatos. AND ou + para acrescentar e NOT ou - para excluir alguma expressão anexa; Lula – presidente , só trará todos os outro lulas.
2) Seja natural, não complique as palavras chaves com sinônimos
3) Sempre use caixa baixa. Mas em caso de paises use China, com letra maiúscula para evitar os resultados com china, louça em inglês.
4) Use palavras raras para focar a busca. Caso vodca
5) A ordem das palavras altera o produto. Quando não conseguir resultados esperados com um conjunto de palavras chaves, mude a ordem.
6) A palavra mais importante na busca vem em primeiro lugar
7) Cuidado com a grafia. Erros anulam buscas mas o Google percebe alguns erros e tenta advertir.
8) Esqueça artigos, preposições, conjunções. Os mecanismos de busca conseguem identifica-las e as eliminam para evitar aumentar ainda mais o numero de resultados.
9) Os mecanismos de buscas tem mais facilidde de identifgicar respostas do que perguntas: assim em vez de Quando o homem desembarcou na lua, formule o homem desembarcou na lua em.....
10) Quando usar o Google e não achar uma página você pode usar a versão cache, uma página antiga que está arquivada no banco de dados do mecanismo de busca.
11) http://www.brightplanet.com/resources/details/searching.html

- O Fenômeno Google

Hoje é a empresa mais valorizada da internet mas ela começou oferecendo gratuitamente o seu principal produto.
Grande diferencial – sistema de reputação incorporado ao algoritmo de buscas
Tem uma família de produtos que não para de crescer:
Google maps – http://maps.google.com/
Google Earth – http://earth.google.com/
Google Blog Search – http://blogsearch.google.com/
Google Book Search - http://books.google.com/
Google News – http://news.google.com/ http://news.google.com.br
Google Video - http://video.google.com/
Google Scholar - http://scholar.google.com.br/
Google Zeitgeist - http://www.google.com/press/zeitgeist2005.html estudos sobre buscas.
Froogle - http://froogle.google.com/frghp?ie=UTF-8&oe=UTF-8&hl=en&tab=wf&q= busca de produtos no varejo.
Google Personalized Search https://www.google.com/accounts/ServiceLogin?service=hist&hl=en&continue=http://www.google.com/searchhistory/%3Fhl%3Den%26zx%3DPH4aBZ7JpxA&nui=1 sistema residente onde o Google traça um perfil do usuario e seleciona os resultados em função das últimas buscas.
Google Labs – (http://labs.google.com/) O que o Google está pesquisando.

Brincadeiras com o Google
- Google Wacker (http://www.googlewhack.com/) - é um site que contém um concurso para descobrir buscas com duas palavras que apresentem apenas um resultado. Existe desde 2001 e conseguiu até 2005 mais de meio milhão de resultados positivos. Quem estiver a fim de brincar veja esta reportagem em inglês em http://hacks.oreilly.com/pub/h/207) - Só em inglês. Quem achar submete ao GoogleWacker http://www.googlewhack.com/whack.pl Mais detalhes em http://www.googlewhack.com/rules.htm . http://www.googlewhack.com/ é um site que contém um concurso para descobrir buscas com duas palavras que apresentem apenas um resultado. Existe desde 2001 e conseguiu até 2005 mais de meio milhão de resultados positivos. Quem estiver a fim de brincar veja esta reportagem em inglês em http://hacks.oreilly.com/pub/h/207 e
- Não acha nada - Página que é uma espécie de disputa para ver quem não consegue encontrar nada no Google - http://www.cantfindongoogle.com/en/list/1.html
Site dos críticos do Google - http://xooglers.blogspot.com/
- Melhores dicas de uso do Google (em inglês) Melhores dicas para usar o Google - http://www.sreetips.com/google.html
Google Wacking -

- Tutoriais

Alguns exemplos apenas:
1) Em português
Palazzo http://www.palazzo.pro.br/busca/index.html
PUC Rio http://www.puc-rio.br/parcerias/yahoo/tutorial_busca.html
2) Em inglês
http://www.pandia.com/goalgetter/
http://www.askscott.com/tindex.html
http://searchenginewatch.com/showPage.html?page=2156611
tutorial ótimo http://searchenginez.com/tutorial.html dicas
tutorial bom http://www.hitmill.com/html/promote/search.htm completo
AltaVista tips http://www.altavista.com/help/search/default
Tutorial da Bright Planet http://www.brightplanet.com/resources/details/searching.html
Tutorial da Bright Planet http://www.brightplanet.com/images/stories/pdf/searchenginetutorial.pdf


- Exercícios de buscas

Um dos melhores sites para exercitar buscas é o português Penso, Logo Encontro http://users.skynet.be/penso.logo.encontro/exercicios.htm (não é atualizado desde 2002 mas continua valido)

- Exercício prático

Produzir um texto esclarecendo os seguintes itens com base em busca

12) O que é a Web invisível?
13) Compare a Web Invisível com a Web Superficial
14) Dê pelo menos dois exemplos de sites da Web Invisível que não são localizados por mecanismos comuns de buscas.


Gincana de buscas

http://www.linuxnaescola.com.br/webgincana/quadrinhos/index.htm
http://webgincana.utopia.com.br/testes/ntics/index.html

Webgincana Águas - http://webgincana.utopia.com.br/testes/aguas_e_vida/index.html

Blog de gincanas na Web http://www.gincanomania.blogspot.com/
Pagina sobre gincanas

Nenhum comentário: