Esto ha hecho que muchos sitios web e intenten posicionar
sus páginas dentro de los resultados de
búsqueda, en detrimento de la calidad de
los buscadores.
Por ello, y en el marco de la
'14
Conferencia Internacional de la WWW' que tiene
lugar esta semana en Japón, se celebrará
mañana unas jornadas-taller sobre el spam
en buscadores. A ella asistirán responsables
de los principales buscadores (,
!,
Search, ),
muy interesados en luchar contra estas prácticas,
y contará con las intervenciones de varios
científicos e investigadores que presentarán
varios estudios que han realizado en este campo.
Os presentamos aquí los
enlaces a los documentos-resumen de las investigaciones
(formato PDF), que contienen datos muy interesantes:
Taxonomía del Web Spam. Esta investigación
la presentan dos de los científicos de
la Universidad de Stanford que el año pasado
desarrollaron TrustRank, un nuevo algoritmo que
pretende combatir el spam mediante 'sitios de
confianza', y que probablemente será implementado
de alguna manera por Google. El documento expone
varia técnicas de spam (que no son ningún
secreto a día de hoy), junto a estadísticas
que dan fe de la magnitud del problema.
Los dos autores también tienen disponible
este interesante texto ('Link Spam Alliances'),
que analiza las cada día más populares
redes de spammers que se enlazan unos con otros
para intentar mejorar su posicionamiento en buscadores.
. Mediante el análisis
de diversas peticiones de búsqueda en Google
(mediante su API), varios científicos (entre
ellos, uno de la Universidad Politécnica
de Cataluña y otro de la Universidad de
Chile) han intentado asignar un peso específico
a cada uno de los factores que utiliza el buscador
para determinar la relevancia de una página
web.
,. En este estudio se
intenta analizar la relación que existe
entre los métodos de 'web spam' y las técnicas
propagandísticas que se utilizan cotidianamente
en la sociedad para difundir mensajes e ideas.
Además, se presenta una técnica
para detectar estas prácticas, denominada
"propagación inversa de la desconfianza".
Se basa en el propio funcionamiento de las relaciones
sociales: "si, confiando en ti, me has recomendado
[enlazado] algo que no es de confianza, perderé
la confianza en ti".
. Este documento ha sido
desarrollado por tres profesores de la Universidad
Pompeu Fabra de Barcelona, y analiza cómo
varía el valor del PageRank de una página
web en función de cómo se realizan
los enlaces que previamente han sido planificados
y pactados entre diversos sitios. Se han estudiado
las configuraciones 'clique' (grupos cerrados
pero con muchos enlaces), 'estrella' (todos las
páginas enlazan a una sola), y 'anillo'
(cada página enlaza y es enlazada una sola
vez). Se llega a la conclusión de que una
página web puede conseguir fuerte incremento
de su PageRank y un aumento considerable de su
posicionamiento cuando se crean 'cliques' incluso
con un PageRank inicial de sus nodos no muy elevado.
: un estudio preliminar. Se
hace una investigación sobre el cloaking
y los redireccionamientos, utilizados por muchos
sitios web para intentar engañar a los
buscadores. Los autores del documento se descargaron
dos conjuntos de miles de páginas web,
haciéndose pasar por el robot de un buscador
(cambiando el 'user agent', no la dirección
IP), y descubrieron que un importante porcentaje
de éstas intentaban de alguna manera manipular
los resultados de búsqueda.
Los óptimos son los descoordinados.
Se analiza el fenómeno de los 'Google Bombing',
y se llega a la conclusión de que la mejor
táctica es que cada uno de los 'atacantes'
enlace directamente a la página web de
la víctima. También se plantean
otras topologías para los 'atacantes' que
no deseen que sus enlaces sean directos.
.
Interesante investigación que plantea cómo
detectar el spam en los comentarios de los blogs,
mediante el análisis del lenguaje utilizado
en el contenido del post, los comentarios, y en
las páginas web que se enlazan desde los
comentarios. Se descargaron 50 posts de diversos
blogs, y se asegura que los resultados obtenidos
son bastante esperanzadadores, y que incluso se
pueden llegar a extrapolar a otros ámbitos,
como el spam en los wikis.
En este estudio se introduce el concepto de 'SpamRank',
que trata de cuantificar, para cada página
web y de manera automatizada sin intervecnión
humana, qué parte del PageRank que posee
realmente no es merecido.
Noticia
Obtenida Aqui