افزایش کارایی فرایند خوشه بندی K- میانگین توسط روش های سلسله مراتبی

نوع مقاله : مقالات پژوهشی

نویسندگان

دانشگاه فردوسی مشهد

چکیده

به علت کمبود آمار و اطلاعات همیشه امکان استفاده از تحلیل فراوانی مکانی جهت تخمین چندک های سیلاب وجود ندارد. از آن جاکه استفاده از یک روش واحد برای ناحیه ای کردن معمولاً نتایج قابل قبولی را به دست نمی دهد، لذا معمولاً چندین روش منطقه ای به طور توأم مورد استفاده قرار می‌گیرد. در این مطالعه سه الگوریتم خوشه‌ای هیبرید که هر یک به طور جداگانه فرایند خوشه‌ای کردن را برای تعیین نواحی مشابه به کار می‌برند، مورد بررسی قرار گرفت. از الگوریتم های خوشه ای سلسله مراتبی متراکمی از روش های پیوند تکی، پیوند کامل و وارد، و از الگوریتم خوشه-ای تفکیکی، از الگوریتم K- میانگین استفاده شد. تأثیر تحلیل خوشه ای هیبرید در ناحیه ای کردن با استفاده از آمار روزآمد شده ی 68 حوضه ی آبریز استان‌های خراسان مورد بررسی قرار گرفت. از چهار شاخص آزمون خوشه ای شامل ضریب کوفنتیک، متوسط عرض سیلهوت، نمایه های دان و دیویس- بولدین جهت تعیین تعداد بهینه ی خوشه ها استفاده گردید. نتایج نشان داد که روش های پیوند تکی و کامل برپایه ی نمایه های اعتبارسنجی ضریب کوفنتیک و متوسط عرض سیلهوت بهتر بودند ولی منجر به تشکیل خوشه هایی نامتجانس (یک خوشه ی بزرگ و تعدادی خوشه ی بسیار کوچک) گردید که در تحلیل فراوانی سیلاب مناسب نمی باشد. گرچه تحلیل خوشه ای هیبرید در حداقل سازی تلاش لازم جهت نیل به نواحی همگن مؤثر بود ولی درجه ی موثر بودن به تعداد خوشه ها بستگی داشت. معیارهای ناهمگنی هاسکینگ منفی بود که بیانگر همبستگی سیلاب در ایستگاه ها بود. نهایتاً هیبرید الگوریتم وارد و K- میانگین برای استفاده در ناحیه ای کردن پیشنهاد گردید. چهار ناحیه همگن تشخیص داده شد.

کلیدواژه‌ها


عنوان مقاله [English]

Adopting Hierarchial Cluster Analysis to Improve The Performance of K-mean Algorithm

نویسندگان [English]

  • B. Ghahraman
  • K. Davary
Ferdowsi University of Mashhad
چکیده [English]

Due to inadequate flood data it is not always possible to fit a frequency analysis to at-site stations. Reliable results are not always guaranteed by a single clustering algorithm, so a combination of methods may be used. In this research, we considered three clustering algorithms: single linkge, complete linkage and Ward (as hierarchial clustering methods), and K-mean (as partitional clustering analysis). Hybrid cluster analysis was tested for up-to-dated of floods data in 68 hydrometric stations in East and NE of Iran. Four cluster validity indices were used to find the optimum number of clusters. Based on the Cophenetic coefficient and average Silhouette width, single linkge, and complete linkage methods were performed well, yet they produced non-consistent clusters (one large and numerous small clusters) which are not amenable for flood frequency analysis. It was shown that hybridization was efficient to form homogeneous regions, however, the usefulness was dependent to the number of classes. Heterogeneity measure of Hosking was negative, due to inter-correlation of floods in the clusters. The hybrid of Ward and K-mean was shown to be the best combination for the region under study. Four homogeneous regions were delineated.

کلیدواژه‌ها [English]

  • Cluster analysis
  • Hyrid
  • Khorasan
  • Linear moments
  • Regional flood frequency analysis
  • Regionalyzation
1- شامکوئیان ح.، قهرمان ب.، داوری ک. و سرمد م. 1388. تحلیل فراوانی سیلاب منطقه ای با استفاده از تئوری گشتاورهای خطی و سیلاب نمایه در حوضه های آبریز استان های خراسان. مجله آب و خاک (علوم و صنایع کشاورزی)، 23(1)، 31-43.
2- قهرمان ب. و داوری ک. 1388. استفاده از گشتاورهای خطی در تحلیل منطقه ای سیلاب در خراسان رضوی. شرکت سهامی آب منطقه ای خراسان رضوی. 88 صفحه.
3- هاسکینگ جی.آر.ام. و والیس جی.آر. 1392. تحلیل فراوانی ناحیه ای (نگرشی بر پایه گشتاورهای خطی). (مترجم: بیژن قهرمان) انتشارات طنین قلم، مشهد. 276 صفحه.
4- نیرومند ح.ع. 1378. تحلیل آماری چندمتغیره کاربردی. دانشگاه فردوسی مشهد.
5- Abdul Aziz O.I. and Burn D.H. 2006. Trends and variability in the hydrological regime of the Mackenzie River Basain, Journal of Hydrology, 319: 282-294.
6- Abida H. and Ellouze M. 2006. Hydrological delineation of homogeneous regions in Tunisia, Water Resources Management, 20: 961-977.
7- Atiem I. and Harmancloglu N.B. 2006. Assessment of regional floods using L-moments approach: the case of the River Nile, Water Resources Management, 20: 723-747.
8- Bhaskar N.R. and O’Connor C.A. 1989. Comparison of method of residuals and cluster analysis for flood regionalization, Journal of Water Resources Planning and Management, ASCE, 115(6): 793–808.
9- Burn D.H. 1989. Cluster analysis as applied to regional flood frequency, Journal of Water Resources Planning and Management, 115(5): 567–582.
10- Burn D.H. 1990. Evaluation of regional flood frequency analysis with a region of influence approach, Warer Resources Research, 26(10): 2257-2265.
11- Burn D.H. and Elnur A.H. 2002. Detection of hydrologic trends and variability, Journal of Hydrology, 255: 107-122.
12- Burn D.H. and Goel N.K. 2000. The formation of groups for regional flood frequency analysis, Hydrological Sciences Journal, 45(1): 97–112.
13- Burn D.H., Zinji Z. and Kowalchuk M. 1997. Regionalization of catchments for regional flood frequency analysis, Journal of Hydrologic Engineering, ASCE, 2(2): 76-82.
14- Casterllarin A., Burn D.H., and Brath A. 2008. Homogeniety testing: how homogeneous do heterogeneous cross-correlated regions seem?, Journal of Hydrology, 360: 67-76.
15- Cunderlik J.M. and Burn D.H. 2003. Non-stationary pooled flood frequency analysis, Journal of Hydrology, 276: 210-223.
16- Davies, D.L. and D.W. Bouldin. 1979. A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1: 224–227.
17- Dinpashoh, Y., A., Fakheri-Fard, M., Moghaddam, S.Jahanbakhsh and M. Mirnia. 2004. Selection of variables for the purpose of regionalization of Iran's precipitation climate using multivariate methods, Journal of Hydrology, 297: 109-123.
18- Dunn J.C. 1973. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters, Journal of Cybernetics, 3: 32–57.
19- Eng K., Milly P.C.D. and Tasker G.D. 2007. Flood regionalization: a hybrid geographic and predictor-variable region-of-influence regression method, Journal of Hydrologic Engineering, ASCE, 12(6): 585-591.
20- Halkidi M., Batistakis Y. and Vazirgiannis M. 2001. On clustering validation techniques, Journal of Intelligent Information systems, 17 (2/3): 107–145.
21- Hosking J.R.M. and Wallis J.R. 1993. Some statistics useful in regional frequency analysis, Water Resources Research, 29 (2): 271–281 (Correction: Water Resources Research 31(1): 251, 1995).
22- Lin G.F., Chen L.H., and Kao S.C. 2005. Development of regional design hyetographs, Hydrological Processes, 19: 937-946.
23- MacQueen J. 1967. Some methods for classification and analysis of multivariate observations. In: Le Cam, L.M., Neyman, J. (Eds.), Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1. University of California Press, Berkeley, CA, pp. 281–297.
24- Rao A.R. and Srinivas V.V. 2006. Regionalization of watersheds by hybrid-cluster analysis, Journal of Hydrology, 318: 37-56.
25- Rousseeuw P.J. 1987. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis, Journal of Computational and Applied Mathematics, 20: 53–65.
26- Sharif M. and Burn D.H. 2006. Simulating climate change scenarios using an improved K-nearest neighbor model, Journal of Hydrology, 325: 179-196.
27- Shu C. and Burn D.H. 2004. Homogenous pooling delineation for flood frequency analysis using a fuzzy expert system with genetic enhancement, Journal of Hydrology, 291: 132.-149.
28- Sokal R.R. and Rohlf F.J. 1962. The comparison of dendrograms by objective methods, Taxonomy, 11: 33–40.
29- Wagner T., Sivapalan M., Troch P., and Woods R. 2007. Catchment classification and hydrologic similarity, Geography Compass, 1(4): 901-931, doi: 10.1111/j.1749-8198.2007.00039.x.
30- Ward Jr., J.H. 1963. Hierarchical grouping to optimize an objective function, Journal of American Statistical Association, 58: 236-244.
31- Wilshire S.E. 1986. Regional flood frequency analysis. II. Multivariate classification of drainage basins in Britain, Hydrological Sciences Journal, 31(3): 335-346.