"Что бы обнаружить чужие тайны мы должны ежедневно нарушать моральные принципы, - рассказывает он. - Ведь мы должны просмотреть данные всех жителей, чтобы найти небольшое количество преступников".
Есть одна очень существенная проблема, которая всегда будет делать поиск террористов в общей массе населения путём тотальной слежки неосуществимым, и именно её мы могли бы назвать "основной проблемой". Даже с очень точным тестом, риск ложных срабатываний достигает немыслимых величин, так как результат, который вы пробуете найти, очень редок в обществе, которое вы исследуете.
Давайте предположим, что у вас есть удивительно точный тест, и каждый раз, когда вы используете его на истинных преступниках, он, как правило, идентифицирует их восемь раз из десяти (однако пропускает их два раза из 10); и каждый раз, когда вы используете его на невинном человеке, он правильно идентифицирует его как невиновного в девяти случаях из 10 и неправильно идентифицирует его как подозреваемого в одном случае из 10.
Эти числа говорят вам о возможных результатах испытаний, если они проверены на заранее известных людях (и эти числа постоянны на всём протяжении теста). Но вот вы стоите с другого конца: у вас есть результаты теста, и вы хотите использовать его, чтобы определить статус человека. Это зависит полностью от того, сколько преступников, находится в проверяемом обществе.
Если у вас есть 10 человек, и вы знаете, что один из них преступник, и вы оцениваете их всех этим тестом, то вы получите одно правильное срабатывание, и в среднем одно ложное. Если у Вас есть 100 человек, и вы знаете, что один из них преступник, то вы получите одно правильное срабатывание, и в среднем 10 ложных. Если Вы будете искать одного преступника среди 1 000 человек, то вы получите своего преступника, и 100 ложных срабатываний. Как только ваши ложные срабатывания начинают затмевать вашего истинного преступника, положительный результат теста становится довольно бесполезным.
Помните, что это инструмент сканирования, для того, чтобы найти изворотливое поведение в общей массе. Мы должны признать, что общие данные постоянно рассматриваются и обрабатываются, так как у MI5 есть умные алгоритмы для опознавания людей, которые ранее никогда ни в чём не подозревались. В Великобритании 60 миллионов человек, и, скажем, 10 000 истинных преступников. Используя наш нереалистично точный воображаемый тест сканирования, вы получаете 6 миллионов ложных срабатываний. В то же самое время, из ваших 10 000 истинных преступников, не обнаруженными останутся 2 000.
Если Вы поднимете планку теста, чтобы увеличить то, что статистики называют "специфичностью критерия", и таким образом делая ее менее склонной к ложным срабатываниям, то вы также делаете ее намного менее чувствительной, таким образом, вы начинаете пропускать большое количество истинных преступников.
Или же вы хотите провести еще более точный воображаемый тест, не жертвуя истинными положительными сторонами? Тогда вы не уйдёте далеко. Скажем, Вы неправильно опознаете невинного человека как преступника один раз из ста: вы получаете 600 000 ложных срабатываний. Один раз из 1 000? Нереально. Даже с этими неосуществимо точными воображаемыми тестами, когда вы сканируете общую массу, как предложено, трудно вообразить пункт, где ложные срабатывания полезно низки, а истинные срабатывания не пропущены. И наш воображаемый тест действительно был смехотворно хорош: очень трудно опознать преступников, только по небольшому числу неправильных поведенческих образцов.
Что ещё хуже, эти преступники - профессионалы, они умеют запутывать следы.
И, наконец, есть проблема проверки правильности ваших алгоритмов, и калибровки ваших систем обнаружения. Чтобы сделать это, Вы нуждаетесь данных для сравнения: скажем 10 000 человек, где вы знаете наверняка, кто из них преступники, а кто нет. Трудно представить, как это может быть реализовано.
Я не говорю, что мы не должны шпионить за обывателями: я оставлю этику и политику другим. Я даю вам только математическую специфику чувствительности и ложных срабатываний.
По материалам The Guardian
Комментарии: