NP-полные задачи

Почему мы занимаемся NP-полными задачами

NP-полные задачи занимают особое место в теории алгоритмов и вычислительной сложности. Их изучение началось с публикации Стивена Кука в 1971 году, который первым сформулировал понятие NP-полноты, анализируя задачу выполнимости булевых формул (SAT). На следующий год Ричард Карп расширил эту теорию, добавив 21 новую задачу в список NP-полных, включая задачи о гамильтоновом цикле и рюкзаке.

NP-полные задачи, которые еще называются труднорешаемыми, привели к значительным теоретическим и практическим последствиям. Классификация задач как NP-полных стимулировала разработку эффективных приближенных алгоритмов и эвристических методов их решения, поскольку они не могут быть решены за полиномиальное время. Это также привело к формулировке гипотезы P! = NP, которая стала одной из величайших нерешенных проблем в области computer science.

На практике столкновение с NP-полной задачей часто означает, что нахождение эффективного полиномиального решения маловероятно. Исследователи и практики обычно стремятся разработать приближенные методы, которые позволяют эффективно находить решения, близкие к оптимальным, что существенно сокращает время вычислений.

Несмотря на свою теоретическую сложность, NP-полные задачи находят широкое применение в разных сферах бизнеса и технологий и так демонстрируют свою значимость в академическом контексте и реальной практике.

Сфера применения	Для чего используется
Логистика	Traveling Salesman Problem (TSP) для оптимизация времени или расстояния маршрутов доставки Vehicle Routing Problem (VRP) для поиска оптимальных маршрутов с временными окнами клиентов Job Shop Scheduling Problem (JSSP) для оптимизации выполнения набора задач на нескольких машинах
Финансы	Задача о рюкзаке (Knapsack Problem) и ее расширение с учетом квадратичных рисков (Quadratic Knapsack Problem) для выбора подмножества активов с максимальной суммарной стоимостью при ограничении на покупку Multi-Objective Optimization Problem для оптимизация инвестиционного портфеля с учетом нескольких факторов: доходности, риска, ликвидности и диверсификации
Электроника	Задача о минимизации задержек (Delay Optimization) для минимизации суммарной задержки сигналов в цепях с учетом их топологии и физического размещения компонентов VLSI Routing Problem для маршрутизации сигналов между узлами схемы с минимизацией длины и количества перекрестных соединений
Криптография	Hamiltonian Cycle Problem используется в Zero-Knowledge Proofs (протоколы доказательства с нулевым разглашением) Boolean Satisfiability Problem (SAT) используются для генерации и проверки криптографических ключей и хеш-функций
Биотехнологии и фармацевтика	Задача свертки белковой цепи (Protein Structure Prediction, PSP), где необходимо найти трехмерную структуру белка, которая соответствует минимальной свободной энергии среди всех возможных сверток его аминокислотной цепи. Hamiltonian Path Problem в задачах секвенирования геномов

NP-полные задачи остаются в центре внимания в теоретической информатике и прикладных науках, подчеркивая их важность и универсальность в современном мире.

Разработка и усовершенствование эффективных алгоритмов для NP-полных задач — ключевой аспект для поддержания конкурентоспособности и инновационности нашей компании. Мы нацелены на написание теоретических статей, содержащих новые результаты в этой области, и на внедрение полученных алгоритмов в продукты. Это позволяет нам оставаться на переднем крае технологического прогресса.

Задача Influence Maximization

Influence Maximization — одна из критически важных NP-полных задач для large-scale-графов, направленная на определение набора узлов, которые способны максимально эффективно распространять информацию.

Задача занимает особое место в сфере анализа социальных сетей и мессенджеров, где основная цель алгоритмов — определение набора узлов, способных максимально эффективно распространять информацию и донести ее до наибольшего числа пользователей. В маркетинге это помогает оптимизировать вирусные кампании, а в здравоохранении — эффективно распространять информацию о профилактике заболеваний.

Еще Influence Maximization широко применяется в финансовых сетях. Она позволяет выявлять ключевых участников, которые влияют на распространение инновационных продуктов или стратегий.

В сфере кибербезопасности методы решения задачи помогают обнаруживать уязвимые узлы в сетях, через которые вредоносное ПО может быстро распространяться, и разрабатывать эффективные стратегии их защиты.

В энергетических системах задача используется для оптимального распределения нагрузки и управления энергией через ключевые узлы, такие как подстанции или основные магистрали.

Модели распространения информации

Чтобы эффективно решать задачу Influence Maximization на практике, важно понимать, как информация распространяется в графе. Для этого используются специальные модели, которые описывают процесс активации узлов в зависимости от их взаимодействий. Чаще всего в исследованиях применяются следующие:

Independent Cascade (IC). У этой модели каждый активированный узел имеет однократный шанс активировать каждого из своих неактивных соседей с определенной вероятностью.
Linear Threshold (LT). Здесь каждый узел активируется, если суммарный вес активированных соседей превышает пороговое значение, уникальное для каждого узла.

Таблица подчеркивает ключевые различия между двумя моделями — вероятность активации (IC) и зависимость от порога (LT) — и показывает процесс распространения информации с помощью схем для облегчения визуального понимания.

Independent Cascade

Каждое ребро (u, v)∈E имеет вероятность влияния p(u, v)∈[0, 1]
Вершина v активируется узлом u с вероятностью p(u, v)

Linear Threshold

Каждое ребро (u, v)∈E имеет вес w(u, v)∈[0, 1], который определяет силу влияния узла u на вершину v
Сумма весов всех ребер, входящих в один узел, — не больше 1
Каждый узел v имеет пороговое значение θ(v)∈[0, 1]
Узел активируется, если сумма входящих весов больше или равна θ(v)

Independent Cascade (IC) и Linear Threshold (LT) — основа для формализации задачи Influence Maximization. Они определяют, как именно будет измеряться эффективность выбранного набора узлов (seed set) в распространении влияния.

Постановка задачи Influence Maximization

Задача Influence Maximization (IM) — ключевой аспект в анализе социальных сетей, направленный на идентификацию множества узлов, так называемого seed set, которое максимизирует распространение влияния в сети. В контексте социальных сетей влияние может распространяться с помощью рекомендаций, обмена информацией или социальных взаимодействий.

Основы моделирования распространения информации:

Граф G = (V, E). Социальная сеть представляется в виде графа, где V — это узлы (пользователи), а E — ребра, представляющие социальные связи между ними.
Модель распространения: Independent Cascade Model (IC), Linear Threshold Model (LT) или другая.

Цель задачи — выбрать набор из k узлов в социальной сети (seed set), чтобы максимизировать распространение влияния (influence spread) или количество активированных узлов по окончании процесса распространения.

Задача Influence Maximization важна не только из-за ее практического применения в социальных сетях и маркетинге, но и из-за внутренней сложности, которая делает ее объектом для глубоких исследований в современном Computer Science. Сложность задачи обусловлена несколькими ключевыми факторами:

Огромные размеры графов. Современные социальные сети включают миллионы узлов и ребер, что делает прямой перебор возможных решений вычислительно невозможным.
Неопределенность данных. Поведение пользователей и силу их влияния в реальной жизни сложно измерить и точно отразить в модели.
Ограничения на выбор seed set. Необходимо найти оптимальное решение, учитывая, что количество узлов в seed set ограничено параметром k.

Все это делает задачу чрезвычайно сложной с вычислительной точки зрения.

Сложность задачи

В 2003 году Дэвид Кемп, Йона Кляйнберг и Эва Тардош в своей фундаментальной статье Maximizing the Spread of Influence through a Social Network доказали, что задача Influence Maximization NP-полная, или труднорешаемая.

Доказательство основывалось на свойствах монотонности и субмодулярности функции распространения влияния σ(S) и на возможности свести эту задачу к классической задаче о выборе подмножества. Детально:

Монотонность. Добавление узла в набор S не уменьшает влияние, то есть σ(S∪{u})≥σ(S) для любого узла u∉S.
Субмодулярность. Прирост влияния, обусловленный добавлением нового узла в набор S, уменьшается с ростом размера набора S, то есть σ(S∪{u})−σ(S) уменьшается по мере увеличения S.

Монотонность и субмодальность функции облегчают анализ задачи и позволяют применять жадные алгоритмы. Работа Кемпа, Кляйнберга и Тардош показала, что даже при наличии полиномиального времени для вычисления субмодальной функции влияния σ(S) определение набора S, который максимизирует σ(S), остается NP-полной задачей.

Число всех возможных комбинаций набора узлов S, из которых можно выбирать, экспоненциально зависит от размера сети ∣V∣, что составляет C (∣V∣, k), где k — размер набора. В реальных сетях, где ∣V∣ может достигать миллионов, объем вычислений становится непомерно большим.

NP-полнота задачи стимулировала многочисленные исследования по разработке и анализу жадных алгоритмов, которые могут обеспечить приближение к оптимальному решению с гарантированной точностью (1-1/e) от оптимального решения при условии, что функция σ(S) субмодулярна.

Все описанное выше делает задачу Influence Maximization особенно сложной и интересной для исследований, поскольку требует разработки специализированных алгоритмов, способных эффективно находить приближенные решения на больших графах.

Мы продолжаем исследовать разные подходы и методы, чтобы разработать решения, которые можно эффективно использовать в реальных условиях. Особое внимание уделяем разработке алгоритмов, которые можно эффективно применять на графах реального мира, где размер сети может достигать миллионов узлов. Это направление остается активной областью исследований, способной приносить значительные практические результаты.

Ключевые подходы к решению задачи

Для решения задачи есть несколько подходов, у каждого из которых свои уникальные характеристики и области применения.

Мы выделили подходы для решения задачи

Анализ топологии сети	Подход использует метрики центральности (Degree, PageRank, Katz и так далее), свойства узлов и ребер для идентификации наиболее влиятельных узлов в сети Метрики центральности помогают понять, какие узлы могут играть ключевую роль в распространении информации на основе их положения и связей в сети	Degree, PageRank, Katz
Greedy Algorithms	Жадные подходы используют субмодулярные функции для постепенного наращивания набора узлов, начиная с наиболее влиятельного узла и добавляя узлы, которые предлагают наибольшее маргинальное увеличение в охвате	CELF, IMM, TIM+
Community-based Models	Методы, ориентированные на сообщества, используют структуру сообществ внутри сетей для более эффективного распределения влияния Эти методы предполагают, что узлы внутри одного сообщества имеют более сильные связи и, следовательно, влияют друг на друга сильнее, чем на узлы вне сообщества	CoFIM, INCIM и SAIM
Parallel	Распараллеливание алгоритмов для больших сетей	MPI-based TIM

Наш подход к решению

Мы исследовали разные алгоритмические подходы, включая жадные алгоритмы, методы, основанные на сообществах, и параллельные вычисления, для оптимизации процесса.

На зиму 2024 года мы разработали параллельный алгоритм для решения задачи Influence Maximization, специально адаптированный для работы с крупными графами (large-scale). Наш алгоритм протестировали на SNAP-датасетах, включая com-Friendster, содержащий примерно 1,8 млрд ребер, и на графе транзакций Т-Банка примерно с 1 млрд вершин с 2 млрд ребер, что подтверждает его способность справляться с графами значительного размера.

Мы провели эмпирические тесты, сравнив наш подход с другими популярными алгоритмами, и сейчас находимся на этапе написания публикации, в которой подробно представим результаты.

Наша цель — создать решение, которое будет превосходить существующие SOTA-методы по скорости и/или качеству выполнения, делая его применимым в реальных условиях на графах с миллионами узлов и миллиардами ребер.

NP-полные задачи

Почему мы занимаемся NP-полными задачами

Сфера применения

Для чего используется

Логистика

Финансы

Электроника

Криптография

Биотехнологии и фармацевтика

Задача Influence Maximization

Модели распространения информации

Independent Cascade

Linear Threshold

Постановка задачи Influence Maximization

Сложность задачи

Ключевые подходы к решению задачи

Анализ топологии сети

Degree, PageRank, Katz

Greedy Algorithms

CELF, IMM, TIM+

Community-based Models

CoFIM, INCIM и SAIM

Parallel

Распараллеливание алгоритмов для больших сетей

MPI-based TIM

Наш подход к решению