Cómo funcionan realmente las clasificaciones de páginas de noticias de hackers

Las clasificaciones de página son la salsa secreta de los sitios web que se vinculan automáticamente a los envíos de los usuarios. La fórmula básica utilizada por Hacker News se publicó hace unos años. Pero hay varias piezas del rompecabezas que faltan en esa especificación. [Ken Shirriff] Recientemente publicó un análisis que profundiza para exponer el sistema de castigo de artículos utilizado por el motor de clasificación de Hacker News.

Se podría suponer que los votos positivos y negativos del usuario determinan la vida útil de una página en la página de inicio. Pero resulta que un sistema de castigo complejo hace una gran diferencia. Considera palabras clave y nombres de dominio, pero también sopesa la controversia. Es un poco divertido decir que este artículo sobre el tema en sí ha sido castigado con la eliminación de la página de inicio.

Puede obtener los detalles completos de su sistema de carteles, pero encontramos sus métodos de investigación igual de interesantes. Raspó dos páginas de noticias cada minuto con Python y el paquete Beautiful Soup (una práctica de raspado bastante común). Esta base de datos le permitió comparar el algoritmo conocido con los resultados reales. Lo que quedó fue un conjunto de anomalías que tenían suficiente sentido para que él aplicara ingeniería inversa a las fórmulas no publicadas que se estaban utilizando.

  • rnj dice:

    hizo lo mismo, pero con 9gag. las curvas se ven bastante diferentes allí, por lo que no creo que sean fáciles de usar: http://i.imgur.com/FF7i3.png casi no ve ningún efecto en la página de inicio y la posición en la página de inicio es bastante bueno también. lineal. trabajo completo: http://www.reddit.com/r/9gag/comments/zmeqy (incluso cambian las imágenes enviadas por el usuario (?) y eliminan las marcas de agua, o buscan versiones de mayor resolución)

    mi diseño también era un script de python, pero usé http://scrapy.org/, que es una herramienta muy poderosa que facilita el seguimiento de enlaces y el raspado de una página completa. en mi caso, tengo que sortear la función porque solo quería votar por ciertas páginas.

  • politécnico dice:

    ¿Qué es Hacker News y por qué alguien se preocuparía tanto por clasificar allí para crear un estudio científico como este?

    • vonskippy dice:

      Es un nombre inapropiado, no tiene nada que ver con "hackear". Es un estúpido club circular de querer ser inversores y sus demandas besando a los primeros seguidores babeando por la última publicación de blog sobre GSD (hacer mierda) o cómo refinar su "ascensor". Al igual que el Digg de antaño (antes de que Rose comenzara a funcionar), el sitio es jugado sin cesar por una serie de "élites".

      • Toodlestech dice:

        Totalmente de acuerdo con el idiota circular. Además, la sección de comentarios, como insinuó con la comparación con digg, se ha convertido en el equivalente a los comentarios de youtube. La sección de comentarios generalmente contiene conversaciones inteligentes que en realidad se agregan a los artículos.

      • politécnico dice:

        Vonskippy, gracias por tu aporte. Debo confesar que su respuesta cargada de emociones me confundió aún más de lo que había estado antes. Supongo que tengo que verlo por mí mismo. Pero la pregunta más básica es: ¿es esto https://news.ycombinator.com/ de lo que estamos hablando? La forma en que no se dijo la URL me hace sentir como si hubiera estado durmiendo debajo de una roca durante 10 años: ¡todos hablan de eso como si supieran qué / dónde es eso!

        • greg kennedy dice:

          Sí, ese es el sitio web.

Manuel Gómez
Manuel Gómez

Deja una respuesta

Tu dirección de correo electrónico no será publicada.