Коэффициент кластеризации

Коэффициент кластеризации — это показатель того, насколько сильно вершины в графе склонны группироваться. Имеющиеся данные свидетельствуют о том, что в большинстве реальных сетей, особенно в социальных сетях, вершины имеют тенденцию образовывать тесно связанные группы с относительно высокой плотностью связей. Эта вероятность, как правило, выше средней вероятности случайного установления связи между двумя узлами (Холланд и Лейнхардт, 1971^[1]; Уоттс и Строгац, 1998^[2]).

Существует две версии этой меры — глобальная и локальная. Глобальная версия была разработана для общего указания на кластеризацию в сети, тогда как локальная указывает на степень «кластеризации» отдельной вершины.

Локальный коэффициент кластеризации

Локальный коэффициент кластеризации вершины (узла) графа определяет, насколько близки её соседи к образованию клики (полного графа). Дункан Уоттс и Стивен Строгац ввели этот показатель в 1998 чтобы определить, принадлежит ли граф классу «Мир тесен».

Граф $G=(V,E)$ формально состоит из набора вершин $V$ и набора рёбер $E$ между ними. Ребро $e_{ij}$ соединяет вершину $v_{i}$ с вершиной $v_{j}$ .

Окрестность $N_{i}$ для вершины $v_{i}$ определяется как непосредственно связанные с ней соседи:

N_{i}=\{v_{j}:e_{ij}\in E\lor e_{ji}\in E\}.

Мы определим $k_{i}$ как $|N_{i}|$ , число вершин в $N_{i}$ , множестве соседей вершины $v_{i}$ .

Локальный коэффициент кластеризации $C_{i}$ вершины $v_{i}$ тогда задаётся числом связей между соседями, поделённом на число связей, которые могли бы быть между ними. Для ориентированного графа $e_{ij}$ отличается от $e_{ji}$ , а потому для каждого соседа из $N_{i}$ существуют $k_{i}(k_{i}-1)$ связей, которые могли бы существовать между соседями ( $k_{i}$ является числом соседей вершины). Тогда локальный коэффициент кластеризации для ориентированного графа задаётся выражением^[2]

C_{i}={\frac {|\{e_{jk}:v_{j},v_{k}\in N_{i},e_{jk}\in E\}|}{k_{i}(k_{i}-1)}}.

Неориентированный граф имеет свойство, что дуги $e_{ij}$ и $e_{ji}$ считаются идентичными (одной дугой). Таким образом, если вершина $v_{i}$ имеет $k_{i}$ соседей, ${\tfrac {k_{i}(k_{i}-1)}{2}}$ рёбер могли бы существовать между соседями. Тогда локальный коэффициент кластеризации для неориентированного графа может быть определён как

C_{i}={\frac {2|\{e_{jk}:v_{j},v_{k}\in N_{i},e_{jk}\in E\}|}{k_{i}(k_{i}-1)}}.

Пусть $\lambda _{G}(v)$ будет числом треугольников в $v\in V(G)$ для неориентированного графа $G$ . То есть, $\lambda _{G}(v)$ является числом подграфов графа $G$ с 3 рёбрами и 3 вершинами, одна из которых $v$ . Пусть $\tau _{G}(v)$ будет числом троек на множестве $v\in G$ . То есть, $\tau _{G}(v)$ является числом подграфов (не обязательно порождённых) с 2 рёбрами и 3 вершинами, одна из которых $v$ и таких что $v$ инцидентна обоим рёбрам. Тогда мы можем определить коэффициент кластеризации также как

C_{i}={\tfrac {\lambda _{G}(v)}{\tau _{G}(v)}}.

Легко показать, что два определения совпадают, поскольку

\tau _{G}(v)=C({k_{i}},2)={\tfrac {1}{2}}k_{i}(k_{i}-1).

Показатель равен 1, если любой сосед соединён дугой с любым другим соседом, и 0, если любой сосед не имеет дуги ни с каким другим соседом.

Поскольку любой граф полностью задаётся его матрицей смежности A, локальный коэффициент кластеризации для простого неориентированного графа может быть выражен в терминах A как^[3]:

C_{i}={\tfrac {1}{k_{i}(k_{i}-1)}}\sum _{j,k}A_{ij}A_{jk}A_{ki}

где:

k_{i}=\sum _{j}A_{ij}

и C_i=0, когда k_i нуль или единица. В приведенном выражении числитель отражает удвоенное количество полных треугольников, в которых участвует вершина i. В знаменателе k_i² отражает число пар рёбер, связанных с вершиной i, плюс число одиночных ребер, пройденных дважды. k_i является число рёбер, связанных с вершиной i. Вычитая k_i мы исключаем последнее слагаемое, оставляя лишь набор пар ребер, которые потенциально могут быть соединены в треугольники. Поскольку для каждой такой пары ребер существует другая пара, способная образовать тот же треугольник, знаменатель в итоге также отражает удвоенное количество возможных треугольников, в которых может участвовать вершина i.

Глобальный коэффициент кластеризации

Глобальный коэффициент кластеризации основан на тройках узлов. Тройка — это три вершины, соединенные двумя (открытая тройка) или тремя (замкнутая тройка) неориентированными рёбрами. Таким образом, треугольный граф включает три замкнутые тройки, по одной для каждой вершины (это означает, что три тройки в треугольнике образуются из пересекающихся выборок узлов). Глобальный коэффициент кластеризации равен отношению числа закрытых троек (или 3 x число треугольников) и полного числа троек (открытых и закрытых). Первая попытка измерить его была предпринята Люсом и Перри (1949)^[4]. Этот показатель указывает на кластеризацию во всей сети (глобально) и может применяться как к неориентированным, так и к ориентированным сетям (часто называемым транзитивностью, см. Вассерман и Фауст , 1994, стр. 243^[5]).

Глобальный коэффициент кластеризации определяется как

C={\frac {\mbox{число закрытых троек}}{\mbox{число всех троек (открытых и закрытых)}}}

.

Число закрытых троек встречается также в литературе как 3 × число треугоьников, так что

C={\frac {3\times {\mbox{число треугольников}}}{\mbox{число всех троек}}}

.

Обобщение для сетей с весами предложили Опсал и Панцараза (2009)^[6], а переопределение для двумодальных сетей (как бинарных, так и взвешенных) — Опсалом (2009)^[7].

Поскольку любой простой граф полностью определён его матрицей смежности A, глобальный коэффициент кластеризации для неориентированного графа может быть выражен в терминах A как:

C={\frac {\sum _{i,j,k}A_{ij}A_{jk}A_{ki}}{{\frac {1}{2}}\sum _{i}k_{i}(k_{i}-1)}}

где:

k_{i}=\sum _{j}A_{ij}

и C=0, если знаменатель равен нулю.

Средний коэффициент кластеризации сети

В качестве альтернативы глобальному коэффициенту кластеризации общий уровень кластеризации в сети измеряется Уоттсом и Строгацем^[2] как среднее значение локальных коэффициентов кластеризации всех вершин $n$ ^[8]:

{\bar {C}}={\frac {1}{n}}\sum _{i=1}^{n}C_{i}.

Данный показатель придает больший вес узлам с низкой степенью, в то время как коэффициент транзитивности уделяет большее внимание узлам с высокой степенью.

Обобщение для сетей с весами было предложено Барраттом и др. (2004)^[9], а переопределение для двудольных графов (также называемых двумодальными сетями) было предложено Латапи и др. (2008)^[10] и Опсалом (2009)^[7].

Альтернативное обобщение для взвешенных и ориентированных графов предложил Фаджиоло (2007)^[11] и Клементе и Грасси (2018)^[12].

Эта формула по умолчанию не определена для графов с изолированными вершинами (см. Кайзер (2008)^[13] и Бармпутис и др.^[14]). Сети с максимально возможным средним коэффициентом кластеризации имеют модульную структуру и, в то же время, наименьшее возможное среднее расстояние между различными узлами^[14].

Протекание в кластеризованных сетях

Для случайной древовидной сети без корреляции степеней вершин можно показать, что сеть может иметь гигантскую компоненту, а порог протекания (вероятность передачи) определяется как $p_{c}={\frac {1}{g_{1}'(1)}}$ , где $g_{1}(z)$ — производящая функция, соответствующая распределению избыточной степени.

В сетях с низкой кластеризацией, $0<C\ll 1$ , критическая точка масштабируется множителем $(1-C)^{-1}$ , так что

$p_{c}={\frac {1}{1-C}}{\frac {1}{g_{1}'(1)}}.$ ^[15]

Это указывает на то, что для заданного распределения степеней кластеризация приводит к более высокому порогу протекания, в основном по причине, что при фиксированном числе связей кластерная структура укрепляет ядро сети, но ценой размывания глобальных связей. Для сетей с высокой кластеризацией, сильная кластеризация может порождать структуру «ядро–периферия», в которой ядро и периферия могут перколировать в различных критических точках и вышеупомянутое приближенное рассмотрение становится неприменимым^[15].

Для изучения устойчивости кластеризованных сетей разработан подход на основе теории протекания^[16]^[17].

Смотрите также

Примечания

↑ Holland P. W., Leinhardt S. Transitivity in structural models of small groups // Comparative Group Studies. — 1971. — Т. 2, вып. 2. — С. 107–124. — doi:10.1177/104649647100200201.
↑ ¹ ² ³ Watts D. J., Steven Strogatz. Collective dynamics of 'small-world' networks // Nature. — 1998. — Июнь (т. 393, вып. 6684). — С. 440–442. — doi:10.1038/30918. — Bibcode:1998Natur.393..440W. — PMID 9623998.
↑ Yu Wang, Eshwar Ghumare, Rik Vandenberghe, Patrick Dupont. Comparison of Different Generalizations of Clustering Coefficient and Local Efficiency for Weighted Undirected Graphs // Neural Computation. — 2017. — Т. 29, вып. 2. — С. 313–331. — doi:10.1162/NECO_a_00914. — PMID 27870616. Архивировано 10 августа 2020 года.
↑ Luce R. D., Perry A. D. A method of matrix analysis of group structure // Psychometrika. — 1949. — Т. 14, вып. 1. — С. 95–116. — doi:10.1007/BF02289146. — PMID 18152948.
↑ Stanley Wasserman, Katherine Faust, 1994. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press.
↑ Tore Opsahl, Pietro Panzarasa. Clustering in Weighted Networks // Social Networks. — 2009. — Т. 31, вып. 2. — С. 155–163. — doi:10.1016/j.socnet.2009.02.002. Архивировано 1 июля 2019 года.
↑ ¹ ² Tore Opsahl. Clustering in Two-mode Networks // Conference and Workshop on Two-Mode Social Analysis (Sept 30-Oct 2, 2009). — 2009. Архивировано 21 марта 2016 года.
↑ Andreas Kemper. Valuation of Network Effects in Software Markets: A Complex Networks Approach. — Springer, 2009. — С. 142. — ISBN 978-3-7908-2366-0.
↑ Barrat A., Barthelemy M., Pastor-Satorras R., Vespignani A. {{{заглавие}}} // Proceedings of the National Academy of Sciences. — 2004. — Т. 101, вып. 11. — С. 3747–3752. — doi:10.1073/pnas.0400087101. — Bibcode:2004PNAS..101.3747B. — arXiv:cond-mat/0311416. — PMID 15007165. — PMC 374315.
↑ Latapy M., Magnien C., Del Vecchio N. Basic Notions for the Analysis of Large Two-mode Networks // Social Networks. — 2008. — Т. 30, вып. 1. — С. 31–48. — doi:10.1016/j.socnet.2007.04.006.
↑ Fagiolo G. Clustering in complex directed networks // Physical Review E. — 2007. — Т. 76, вып. 2 Pt 2. — doi:10.1103/PhysRevE.76.026107. — Bibcode:2007PhRvE..76b6107F. — arXiv:physics/0612169. — PMID 17930104.
↑ Clemente G.P., Grassi R. Directed clustering in weighted networks: A new perspective // Chaos, Solitons & Fractals. — 2018. — Т. 107. — С. 26–38. — doi:10.1016/j.chaos.2017.12.007. — Bibcode:2018CSF...107...26C. — arXiv:1706.07322.
↑ Marcus Kaiser. Mean clustering coefficients: the role of isolated nodes and leafs on clustering measures for small-world networks // New Journal of Physics. — 2008. — Т. 10, вып. 8. — doi:10.1088/1367-2630/10/8/083042. — Bibcode:2008NJPh...10h3042K. — arXiv:0802.2512.
↑ ¹ ² Barmpoutis, D.; Murray, R. M. (2010). Networks with the Smallest Average Distance and the Largest Average Clustering. arXiv:1007.4031 [q-bio.MN].
↑ ¹ ² Yakir Berchenko, Yael Artzy-Randrup, Mina Teicher, Lewi Stone. Emergence and Size of the Giant Component in Clustered Random Graphs with a Given Degree Distribution (англ.) // Physical Review Letters. — 2009. — Vol. 102, iss. 13. — ISSN 0031-9007. — doi:10.1103/PhysRevLett.102.138701. — Bibcode:2009PhRvL.102m8701B. — PMID 19392410. Архивировано 4 февраля 2023 года.
↑ Newman M. E. J. Random Graphs with Clustering // Phys. Rev. Lett.. — 2009. — Т. 103, вып. 5. — doi:10.1103/PhysRevLett.103.058701. — Bibcode:2009PhRvL.103e8701N. — arXiv:0903.4009. — PMID 19792540.
↑ Hackett A., Melnik S., Gleeson J. P. Cascades on a class of clustered random networks // Phys. Rev. E. — 2011. — Т. 83, вып. 5 Pt 2. — doi:10.1103/PhysRevE.83.056107. — Bibcode:2011PhRvE..83e6107H. — arXiv:1012.3651. — PMID 21728605.

[HL-1] Holland P. W., Leinhardt S. Transitivity in structural models of small groups // Comparative Group Studies. — 1971. — Т. 2, вып. 2. — С. 107–124. — doi:10.1177/104649647100200201.

[WS1998-2] ¹ ² ³ Watts D. J., Steven Strogatz. Collective dynamics of 'small-world' networks // Nature. — 1998. — Июнь (т. 393, вып. 6684). — С. 440–442. — doi:10.1038/30918. — Bibcode:1998Natur.393..440W. — PMID 9623998.

[Wang2017-3] Yu Wang, Eshwar Ghumare, Rik Vandenberghe, Patrick Dupont. Comparison of Different Generalizations of Clustering Coefficient and Local Efficiency for Weighted Undirected Graphs // Neural Computation. — 2017. — Т. 29, вып. 2. — С. 313–331. — doi:10.1162/NECO_a_00914. — PMID 27870616. Архивировано 10 августа 2020 года.

[LucePerry-4] Luce R. D., Perry A. D. A method of matrix analysis of group structure // Psychometrika. — 1949. — Т. 14, вып. 1. — С. 95–116. — doi:10.1007/BF02289146. — PMID 18152948.

[WF-5] Stanley Wasserman, Katherine Faust, 1994. Social Network Analysis: Methods and Applications. Cambridge: Cambridge University Press.

[OP-6] Tore Opsahl, Pietro Panzarasa. Clustering in Weighted Networks // Social Networks. — 2009. — Т. 31, вып. 2. — С. 155–163. — doi:10.1016/j.socnet.2009.02.002. Архивировано 1 июля 2019 года.

[TO2009-7] ¹ ² Tore Opsahl. Clustering in Two-mode Networks // Conference and Workshop on Two-Mode Social Analysis (Sept 30-Oct 2, 2009). — 2009. Архивировано 21 марта 2016 года.

[Kemper-8] Andreas Kemper. Valuation of Network Effects in Software Markets: A Complex Networks Approach. — Springer, 2009. — С. 142. — ISBN 978-3-7908-2366-0.

[BBPS-9] Barrat A., Barthelemy M., Pastor-Satorras R., Vespignani A. {{{заглавие}}} // Proceedings of the National Academy of Sciences. — 2004. — Т. 101, вып. 11. — С. 3747–3752. — doi:10.1073/pnas.0400087101. — Bibcode:2004PNAS..101.3747B. — arXiv:cond-mat/0311416. — PMID 15007165. — PMC 374315.

[LMDV-10] Latapy M., Magnien C., Del Vecchio N. Basic Notions for the Analysis of Large Two-mode Networks // Social Networks. — 2008. — Т. 30, вып. 1. — С. 31–48. — doi:10.1016/j.socnet.2007.04.006.

[Fagiolo-11] Fagiolo G. Clustering in complex directed networks // Physical Review E. — 2007. — Т. 76, вып. 2 Pt 2. — doi:10.1103/PhysRevE.76.026107. — Bibcode:2007PhRvE..76b6107F. — arXiv:physics/0612169. — PMID 17930104.

[CG2018-12] Clemente G.P., Grassi R. Directed clustering in weighted networks: A new perspective // Chaos, Solitons & Fractals. — 2018. — Т. 107. — С. 26–38. — doi:10.1016/j.chaos.2017.12.007. — Bibcode:2018CSF...107...26C. — arXiv:1706.07322.

[Kaiser-13] Marcus Kaiser. Mean clustering coefficients: the role of isolated nodes and leafs on clustering measures for small-world networks // New Journal of Physics. — 2008. — Т. 10, вып. 8. — doi:10.1088/1367-2630/10/8/083042. — Bibcode:2008NJPh...10h3042K. — arXiv:0802.2512.

[BM2010-14] ¹ ² Barmpoutis, D.; Murray, R. M. (2010). Networks with the Smallest Average Distance and the Largest Average Clustering. arXiv:1007.4031 [q-bio.MN].

[BAR2009-15] ¹ ² Yakir Berchenko, Yael Artzy-Randrup, Mina Teicher, Lewi Stone. Emergence and Size of the Giant Component in Clustered Random Graphs with a Given Degree Distribution (англ.) // Physical Review Letters. — 2009. — Vol. 102, iss. 13. — ISSN 0031-9007. — doi:10.1103/PhysRevLett.102.138701. — Bibcode:2009PhRvL.102m8701B. — PMID 19392410. Архивировано 4 февраля 2023 года.

[RGwC-16] Newman M. E. J. Random Graphs with Clustering // Phys. Rev. Lett.. — 2009. — Т. 103, вып. 5. — doi:10.1103/PhysRevLett.103.058701. — Bibcode:2009PhRvL.103e8701N. — arXiv:0903.4009. — PMID 19792540.

[HMG-17] Hackett A., Melnik S., Gleeson J. P. Cascades on a class of clustered random networks // Phys. Rev. E. — 2011. — Т. 83, вып. 5 Pt 2. — doi:10.1103/PhysRevE.83.056107. — Bibcode:2011PhRvE..83e6107H. — arXiv:1012.3651. — PMID 21728605.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]