Хвостат Хвостатыч (hvostat_hvostat) wrote,
Хвостат Хвостатыч
hvostat_hvostat

Category:

Технические мечты

На самом деле, неплохо бы написать программку, которая обходила бы топ 10 тысяч (сто, миллион) мест, где публикуются новости, и делала три с половиной простых вещи:

1. Дедупликация. Если одна и та же новость с несущественными изменениями повторена 100 раз, зачем видеть её 100 раз? Достаточно одного. "Одна и та же" может плавно настраиваться от "слово в слово" до "частично совпадают лишь матюги" по желанию пользователя.



2. Отслеживание первоисточников. Это сложнее, но в первом приближении выполнимо. Во-первых, смотреть на гиперссылки в тексте и сравнивать, наблюдается ли где-то за ними "похожий" текст. Во-вторых, те, кто заинтересован в точной подаче материала, будут сами эти ссылки как можно явнее проставлять. В-третьих, крупных агенств не так уж и много, понимание фразы "по сообщению агенства BBC" вполне натренировать можно. С последующей верификацией у BBC, разумеется :))

А в идеале вообще ввести цифровые сертификаты и подписанные цепочки цитирования, но это уже дальний прицел.

3. Рейтинг источников. Типа, сколько народа за предыдущие 5 лет сочли, что данное агенство врало. Пофиг даже, что врать и накручивать будут, на 100% всё равно не накрутят. Опять же, механизм улучшить по ходу дела можно. Вон, в Википедии умудряются же как-то подобие порядка поддерживать.

(4, бонус): проверка EXIFов выложенных картинок на минимальное соответствие, поиск похожих трёхлетней давности.

А на выходе, в итоге, хотелось бы, чтобы всяческие громкие новости сводились к скромненькой заметочке вида:

1. Источник А, публикаций 700 тысяч, рейтинг 52%. "Случилась такая-то фигня. Виноваты пришельцы с Марса."
2. Источник Б, публикаций 20 тысяч, рейтинг 39%. "Случилась такая-то фигня. Виноваты папуасы."
3. Источник В, публикаций 111, рейтинг 4%. "Никакой фигни не случилось, это всё заговор NASA!"
4. Группа 20-ти источников НикомуНеизвестные%уи№1, суммарное количество публикаций 20, суммарный рейтинг 5%. Содержание: "Мы все видели, как хулиганы из рогатки стреляли!"
5. Ещё 1830 источников с одной публикацией и неизвестным рейтингом, образуют 17 групп, показать?



Пусть оно будет написано как попало. Пусть далеко от идеала. Но пора уже. И я в данном вопросе не собираюсь принимать ничью сторону. Просто градус вранья и в мирное-то время не радовал, а сейчас вообще угрожает выживанию человечества, неужели не видно? Задохнёмся же, к %%ням, в собственном %$^е и @##$е....

P.S. Википедия и Google news в некотором приближении эту задачу как раз и пытаются решать. Но вот не доводят до того, что хотелось бы видеть.

Гениальная мысль утащена у eugenebo.
Tags: мiслi
Subscribe

  • "Door bolt"

    Столкнулся недавно с неприятной ситуацией - меня пытались взломать. В ответ на проблему возникла идея, которая совершенно не сложно реализуется.…

  • "Экспорт-импорт закрытых ключей КриптоПро из реестра"

    Преамбула: Три слогана, которые отлично опишут нюансы отечественной криптографии: "Ебались мы - ебитесь вы!" "Через жопу, но с душой!" "Кривое,…

  • "Ускоряем Ethernet"

    Задача: максимально ускорить обработку Ethernet. Нагрузкой на CPU и RAM - пренебречь. Решение: Выставляем параметры драйвера ethernet-адаптера:…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 7 comments