ການແບ່ງກຸ່ມແບບ ລຳ ດັບຊັ້ນ

ການແບ່ງກຸ່ມແມ່ນເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກ ສຳ ລັບການວິເຄາະຂໍ້ມູນແລະແບ່ງອອກເປັນກຸ່ມຂອງຂໍ້ມູນທີ່ຄ້າຍຄືກັນ. ກຸ່ມຫຼືຊຸດຂອງຂໍ້ມູນທີ່ຄ້າຍຄືກັນນີ້ເອີ້ນວ່າກຸ່ມ. ການວິເຄາະເປັນກຸ່ມເບິ່ງການຄິດໄລ່ກຸ່ມທີ່ສາມາດລະບຸກຸ່ມອັດຕະໂນມັດ. Hierarchical ແລະ Partitional ແມ່ນສອງຊັ້ນຮຽນຂອງລະບົບການຄິດໄລ່ກຸ່ມ. ລະບົບການແບ່ງກຸ່ມເປັນ ລຳ ດັບຊັ້ນ. ສູດການຄິດໄລ່ແບບແບ່ງແຍກແບ່ງຂໍ້ມູນທີ່ ກຳ ນົດໄວ້ໃນການແບ່ງປັນເຊິ່ງກັນແລະກັນ.

ການແບ່ງກຸ່ມ Hierarchical ແມ່ນຫຍັງ?

ລະບົບການແບ່ງກຸ່ມໃຫ້ເປັນກຸ່ມນ້ອຍໆຫຼືແບ່ງກຸ່ມໃຫຍ່ອອກເປັນກຸ່ມນ້ອຍໆ. ໂດຍວິທີໃດກໍ່ຕາມ, ມັນຜະລິດລໍາດັບຊັ້ນຂອງກຸ່ມທີ່ເອີ້ນວ່າ dendogram. ຍຸດທະສາດການແບ່ງກຸ່ມແບ່ງຂັ້ນຄຸ້ມຄອງ ນຳ ໃຊ້ວິທີການດ້ານລຸ່ມຂອງການໂຮມເຂົ້າກັນເປັນກຸ່ມໃຫຍ່, ໃນຂະນະທີ່ຍຸດທະສາດການແບ່ງກຸ່ມແບ່ງປັນໃຊ້ວິທີການດ້ານເທິງລົງຂອງການແບ່ງປັນເປັນກຸ່ມນ້ອຍ. ໂດຍປົກກະຕິ, ວິທີການທີ່ໂລບມາກໂລພາແມ່ນໃຊ້ໃນການຕັດສິນໃຈວ່າກຸ່ມໃດທີ່ໃຫຍ່ກວ່າ / ກຸ່ມນ້ອຍຖືກໃຊ້ ສຳ ລັບການໂຮມເຂົ້າກັນ / ແບ່ງແຍກ. ໄລຍະທາງ Euclidean, ໄລຍະຫ່າງ Manhattan ແລະຄວາມຄ້າຍຄືກັນຂອງ cosine ແມ່ນບາງສ່ວນຂອງການວັດແທກຄວາມຄ້າຍຄືກັນທີ່ໃຊ້ກັນທົ່ວໄປທີ່ສຸດ ສຳ ລັບຂໍ້ມູນທີ່ເປັນຕົວເລກ. ສຳ ລັບຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວເລກ, ການວັດແທກເຊັ່ນໄລຍະທາງ Hamming ແມ່ນໃຊ້. ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຕ້ອງສັງເກດວ່າການສັງເກດຕົວຈິງ (ຕົວຢ່າງ) ແມ່ນບໍ່ ຈຳ ເປັນ ສຳ ລັບການແບ່ງກຸ່ມເປັນ ລຳ ດັບຊັ້ນ, ເພາະວ່າມີພຽງແຕ່ຕາຕະລາງຂອງໄລຍະຫ່າງເທົ່ານັ້ນ. Dendogram ແມ່ນຕົວແທນທີ່ເບິ່ງເຫັນຂອງກຸ່ມ, ເຊິ່ງສະແດງໃຫ້ເຫັນເຖິງ ລຳ ດັບຊັ້ນຢ່າງຈະແຈ້ງ. ຜູ້ໃຊ້ສາມາດໄດ້ຮັບການແບ່ງກຸ່ມທີ່ແຕກຕ່າງກັນໂດຍອີງຕາມລະດັບທີ່ dendogram ຖືກຕັດ.

ການແບ່ງກຸ່ມແບ່ງປັນແມ່ນຫຍັງ?

ສູດການແບ່ງປັນແບບແບ່ງແຍກການຜະລິດພາກສ່ວນຕ່າງໆແລະຈາກນັ້ນປະເມີນມັນໂດຍບາງມາດຖານ. ພວກມັນຖືກກ່າວເຖິງວ່າບໍ່ແມ່ນຜູ້ສອນສາດສະເພາະແຕ່ລະຕົວຢ່າງແມ່ນຖືກຈັດຢູ່ໃນກຸ່ມ ໜຶ່ງ ຂອງກຸ່ມແຍກຕ່າງຫາກທີ່ເປັນກັນເອງ. ເນື່ອງຈາກວ່າພຽງແຕ່ ໜຶ່ງ ຊຸດຂອງກຸ່ມແມ່ນຜົນຜະລິດຂອງລະບົບແບ່ງປັນແບບແບ່ງກຸ່ມແບບປົກກະຕິ, ຜູ້ໃຊ້ຕ້ອງໄດ້ປ້ອນ ຈຳ ນວນກຸ່ມທີ່ຕ້ອງການ (ຕາມປົກກະຕິເອີ້ນວ່າ k). ໜຶ່ງ ໃນບັນດາລະບົບການແບ່ງປັນການແບ່ງປັນທີ່ໃຊ້ກັນທົ່ວໄປທີ່ສຸດແມ່ນວິທີ k-means clustering algorithm. ຜູ້ໃຊ້ແມ່ນ ຈຳ ເປັນຕ້ອງໃຫ້ ຈຳ ນວນຂອງກຸ່ມ (k) ກ່ອນທີ່ຈະເລີ່ມຕົ້ນແລະຂັ້ນຕອນ ທຳ ອິດແມ່ນເລີ່ມຕົ້ນສູນ (ຫລືຈຸດສູນກາງ) ຂອງສ່ວນແບ່ງ k. ໃນລະອຽດ, k-means clustering algorithm ຫຼັງຈາກນັ້ນມອບ ໝາຍ ໃຫ້ສະມາຊິກໂດຍອີງໃສ່ສູນປະຈຸບັນແລະສູນການຄາດຄະເນຄືນໂດຍອີງໃສ່ສະມາຊິກໃນປະຈຸບັນ. ສອງບາດກ້າວເຫຼົ່ານີ້ແມ່ນໄດ້ຖືກເຮັດຊ້ ຳ ຈົນກ່ວາ ໜ້າ ທີ່ຈຸດປະສົງທີ່ຄ້າຍຄືກັນລະຫວ່າງກຸ່ມແລະ ໜ້າ ທີ່ຈຸດປະສົງຄວາມແຕກຕ່າງລະຫວ່າງກຸ່ມໄດ້ຖືກປັບປຸງໃຫ້ດີຂື້ນ. ເພາະສະນັ້ນ, ການເລີ່ມຕົ້ນທີ່ ເໝາະ ສົມຂອງສູນແມ່ນປັດໃຈທີ່ ສຳ ຄັນທີ່ສຸດໃນການໄດ້ຮັບຜົນໄດ້ຮັບທີ່ມີຄຸນນະພາບຈາກສູດການແບ່ງກຸ່ມ.

ຄວາມແຕກຕ່າງກັນລະຫວ່າງກຸ່ມທາດແລະພາກສ່ວນແບ່ງກຸ່ມແມ່ນຫຍັງ?

ການແບ່ງກຸ່ມແບບ ລຳ ດັບແລະສ່ວນແບ່ງມີຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນໃນເວລາແລ່ນ, ການສົມມຸດຕິຖານ, ຕົວ ກຳ ນົດການປ້ອນຂໍ້ມູນແລະກຸ່ມທີ່ໄດ້ຮັບ. ໂດຍປົກກະຕິ, ການແບ່ງກຸ່ມແບ່ງແຍກແມ່ນໄວກ່ວາການແບ່ງກຸ່ມຕາມ ລຳ ດັບ. ການແບ່ງກຸ່ມແບ່ງຂັ້ນຕົ້ນຮຽກຮ້ອງໃຫ້ມີມາດຕະການຄ້າຍຄືກັນ, ໃນຂະນະທີ່ການແບ່ງກຸ່ມແບ່ງແຍກຮຽກຮ້ອງໃຫ້ມີການສົມມຸດຕິຖານທີ່ເຂັ້ມແຂງເຊັ່ນ: ຈຳ ນວນຂອງກຸ່ມແລະສູນປະຖົມ. ການແບ່ງກຸ່ມແບບ ລຳ ດັບຊັ້ນບໍ່ ຈຳ ເປັນຕ້ອງມີຕົວ ກຳ ນົດການປ້ອນຂໍ້ມູນໃດໆ, ໃນຂະນະທີ່ລະບົບການແບ່ງກຸ່ມແບ່ງປັນຕ້ອງການ ຈຳ ນວນຂອງກຸ່ມທີ່ຈະເລີ່ມແລ່ນ. ການແບ່ງກຸ່ມເປັນ ລຳ ດັບຊັ້ນເຮັດໃຫ້ເກີດການແບ່ງກຸ່ມທີ່ມີຄວາມ ໝາຍ ແລະມີຄວາມ ໝາຍ ຫຼາຍຂື້ນແຕ່ວ່າການແບ່ງກຸ່ມແບ່ງແຍກອອກເປັນກຸ່ມ k ແທ້. ສູດການຄິດໄລ່ດ້ານ ລຳ ດັບຂັ້ນແມ່ນ ເໝາະ ສົມ ສຳ ລັບຂໍ້ມູນປະເພດຕາບໃດທີ່ມາດຕະການຄ້າຍຄືກັນສາມາດ ກຳ ນົດໄດ້ຕາມຄວາມ ເໝາະ ສົມ.