ස්වාභාවික භාෂා ප්‍රක්‍රියනය මගින් පෞරුෂත්ව පුරෝකථනය සහ ප්‍රක්‍රියනය (Personality Detection and Prediction Using Natural Language Processing)

YGSL
6 min readJun 25, 2021

--

මානුෂික ජීවිතයේ සෑම පැතිකඩකටම පෞරුෂත්වය බලපානු ලබන අතර, එය පුද්ගල හැසිරීම විස්තර කිරීම මෙන්ම අරමුණු ,අභිමත, හැගීම් සහ සෞඛ්‍ය පිළිබඳ සිතීම සහ දැනීම යන අංශ ද වටලනු ලබයි. තම සිතුවිලි හා හැගීම් ප්‍රකාශ කිරීමට සහ අදහස් හා නූතන , පැරණි සිදුවීම් සහ පුවත් පිළිබඳ තම අභිප්‍රාය ප්‍රකාශ කිරීමට හැකි ස්ථාන බවට ෆේස්බුක් (Facebook) සහ ට්විටර් (Twitter) වැනි සමාජ ජාල වෙබ් අඩවි පත් වි ඇත. පුද්ගලයෙකු තමා සමාජ ජාල වෙබ් අඩවි තමාව නිරූපණය කරන ආකාරයෙන් ඔහු හෝ ඇයගේ පෞරුෂය ,ඉරියව් සහ චර්යා ප්‍රතිබිම්බනය කරනු ලබයි. මනෝවිද්‍යාඥයන් තර්ක කරන ආකාරයට, නිශ්චිත අනාවරණය පුද්ගලයෙකු ගේ පෞරුෂත්වය හා

චිත්ත ස්වභාව සහ ඔවුන්ගේ සමාජ ජාල වෙබ් අඩවි භාවිතා කරන ආකාරය අතර නිශ්චිත සබඳතාවක් ඇත. කෙසේ වෙතත්, පෞරුෂත්වය සහ සංඛ්‍යාත්මක චර්යාව (computational behaviour) අතර සබඳතාවය තවදුරටත් අනාවරණය කරගත යුතුය.

වර්තමානයේ ස්වයංක්‍රිය පෞරුෂත්ව පුරෝකථන පද්ධති වල වර්ධනය කෙරෙහි පර්යේෂකයන් දක්වන අවධානය හේතු වෙන්, පෞරුෂත්ව පුරෝකථනයේ වැදගත් කම තවදුරටත් තහවුරු වේ. බ්ලොග් (blogs), පෝස්ට් ( posts) සහ අනෙකුත් නිර්මාණශීලි ශෛලියගත (stylistic) ලිපි, කැමති -අකමැති ප්‍රදර්ශනය (likes-dislikes), පැති කඩ පින්තූර (profile pictures) සහ ප්‍රකාශ වල සංකීර්ණ ස්වාභාවය හේතු වෙන් සමාජ ජාල වෙබ් අඩවි පැති කඩ (profile) වලින් මනෝභාවය වර්ගීකරණය තීරණාත්මක සහ අසීරු කාර්යයක් වේ. නොයෙකුත් පෞරුෂත්ව ගති ලක්ෂණ ආකෘති පෙර යෝජනා කර ඇත. යම් අන්තර් ජාල (cyber)පෞරුෂත්ව හා සබැඳි අධ්‍යයන ,පුද්ගලික පෞරුෂත්වය සම්බන්ධ නිර්වචන කිහිපයක් දක්වා ඇත.මන්ද යත් , පෞරුෂත්වය , මානුෂික චර්යාව නොයෙකුත් ආකාරයේ පරිසර සම්බන්ධ සාධක(අරමුණු ,අභිමත, හැගීම්) සමග වෙනස් විය හැක නිසා ය. මයර්ස් බ්‍රිග්ස් වර්ග දර්ශකය (Type Indicator (MBTI)) සහ බිග් එයින් ෆැක්ටරි පෞරුෂත්ව ආකෘතිය (Big Five Factor Personality Model) යනු බහුලව භාවිතා වන පෞරුෂත්ව පුරෝකථන ආකෘති වේ.

මයර්ස් බ්‍රිග්ස් වර්ග දර්ශකය (Myers-Briggs Type Indicator (MBTI) model )

ඉසබෙල් බ්‍රිග්ස් මයර්ස් (Isabel Briggs Myers) 1940 දී පමන MBTI දර්ශකය වැඩි දියුණු කරන ලද්දේ, සී. ජී. ජුන්ග්(C. G. Jung) (විශ්ලේෂණාත්මක මනෝ විද්‍යාවේ නිර්මාතෘ) විසින් විස්තර කරන ලද මනෝවිද්‍යාත්මක වර්ග පිළිබඳ න්‍යාය පොදුවේ ප්‍රජාවට තේරුම්ගැනීම පහසු කිරීමටය. මනෝවිද්‍යාත්මක වර්ග පිළිබඳ න්‍යාය සැකසීම සඳහා MBTI ඉසබෙල් බ්‍රිග්ස් මයර්ස් (1940 ගණන් වලදී) විසින් වැඩි දියුණු කරන ලදී. විවිධ සමීක්ෂණයන්හි ප්‍රශ්නවලට පිළිතුරු මත පදනම්ව, යම් පුද්ගලයෙක්හට පෞරුෂත්වය වර්ග දාසයකින්(16) එකක් හෝ ඇති බව සොයාගෙන ඇත. MBTI හි පරමාර්ථය වන්නේ ප්‍රතිචාර දැක්වූවන්ගේ රුචි අරුචිකම්, ශක්තීන්, දුර්වලතා, වෘත්තීය මනාපයන් සහ වෙනත් පුද්ගලයින් සමඟ ගැළපීම ඇතුළු ඔවුන්ගේ පෞරුෂයන් තවදුරටත් ගවේෂණය කිරීමට සහ තේරුම් ගැනීමට ඉඩ දීමයි.

මූලාශ්‍රය: https://blog.adioma.com/16-personality-types/

බිග් ෆයිව් මොඩලය (Big Five model)

පෞරුෂයේ ස්වයංක්‍රීය වර්ගීකරණය ලෙස හැඳින්වෙන සම්මත පෞරුෂත්ව පරීක්ෂණ සමඟ පරිශීලකයාගේ පෞරුෂය සැසඳිය හැකිය. පෞරුෂත්වය සහ මානව මනෝ විද්‍යාව විස්තර කිරීම සඳහා බිග් ෆයිව් මොඩලය සාධක පහක් භාවිතා කරයි. මෙම ආකෘතිය අද මනෝ විද්‍යාඥයින් විසින් පිළිගෙන ඇති වඩාත්ම පිළිගත් පෞරුෂ න්‍යායයි. මෙම සිද්ධාන්තයේ සාක්ෂි වසර ගණනාවක් තිස්සේ වර්ධනය වෙමින් පවතින අතර, ඩී.ඩබ්ලිව් ෆිෂ්ක් (D. W. Fiske-1949) ගේ පර්යේෂණයෙන් පටන් ගෙන පසුව නෝමන් (Norman — 1967), ස්මිත් (Smith -1967), ගෝල්ඩ්බර්ග් (Goldberg — 1981) සහ මැක්‍රේ(McCrae) සහ කොස්ටා(Costa) (1987) යන අයද සම්බන්ධ වී ඇත.

මූලාශ්‍රය: https://blog.adioma.com/5-personality-traits-infographic/

සංඛ්‍යානමය අනුමානයන් භාවිතා කරමින් විශ්ලේෂණය කරන ලද චර්යාත්මක පර්යේෂණවල ප්‍රතිනිර්මාණය කිරීමේ හැකියා මට්ටම පිළිබඳ මෑත මතභේදයන් සහ මනෝවිද්‍යාත්මක අත්හදා බැලීම්වල ප්‍රතිඵලයක් වශයෙන්, විශ්ලේෂණය කිරීම සඳහා වඩාත් කාර්යක්ෂම තාක්ෂණික ක්‍රමවේදයන් සංවර්ධනය කිරීමට වැඩි උනන්දුවක් සහ යොමු වීමක් දක්වා ඇත. එලෙසම පෞරුෂත්වයේ ගති ලක්ෂණ ස්වයංක්‍රීයව පුරෝකථනය කිරීම සඳහා ශාස්ත්‍රීය, පර්යේෂණ සහ ආයතනික වශයෙන් විශාල අවධානයක් ලබා ගෙන ඇත. විශේෂයෙන්, බහුමාධ්‍ය(multimodal) දත්ත වලින් පුද්ගල ගති ලක්ෂණ පුරෝකථනය කිරීම ආවේදනික පරිගණක ක්ෂේත්‍රය(affective computing) තුළ උණුසුම් මාතෘකාවක් බවට පත්ව ඇත. ගැඹුරු ඉගෙනීම(Deep learning ) යන්ත්‍ර ඉගෙනීමේ(machine learning ) උප ක්ෂේත්‍රයක් වන අතර එය ධූරානුක්‍රම ඉගෙනීම(hierarchical learning), ගැඹුරු යන්ත්‍ර ඉගෙනීම(deep machine learning) සහ ගැඹුරු ව්‍යුහාත්මක ඉගෙනීම(deep structured learning) ලෙසද හැඳින්වේ. එහි සරලම ස්වරූපයෙන් ඉදිරිපත් කලහොත් එක් නියුරෝන කට්ටලයකට ආදාන සංඥාවක් ලැබෙන අතර අනෙක් කට්ටලය ප්‍රතිදාන සංඥාවක් යවයි. ගැඹුරු ඉගෙනීම(deep learning) මත පදනම් වූ ආකෘති, පරිගණක දෘෂ්ටිය(computer vision), කථන හඳුනාගැනීම, ස්වයංක්‍රීය අත් අකුරු උත්පාදනය සහ ස්වාභාවික භාෂා සැකසුම් ඇතුළු කාර්යයන් සඳහා පහසුකම් සපයයි. සයිබර් පරිසරවල(cyber environment) මිනිස් හැසිරීම් වල සංකීර්ණ හා ගතික ස්වභාවය එන්එල්පී(ස්වාභාවික භාෂා සැකසුම්-NLP) පිලිබඳ විශ්ලේෂණයෙන් අධ්‍යයනය කළ හැකිය. මන්දයත් දේශීය හා ගෝලීය වශයෙන් සැලකිය යුතු ලක්ෂණ ස්වයංක්‍රීයව උකහා ගැනීමට සහ වැරදි තොරතුරු හඳුනා ගැනීමට එන්එල්පීයට(NLP) හැකි බැවිනි. මෙම ආකෘතියේ ඉගෙනීමේ ධාරිතාවේ ප්‍රතිඵලයක් ලෙස, ගැඹුරු ඉගෙනුම්(deep learning) මත පදනම් වූ ස්නායුක ජාල(neural network) ආකෘති, පෞරුෂත්ව ගති ලක්ෂණ හඳුනා ගැනීම සඳහා විශේෂයෙන් ඵලදායී වේ.

පාඨමය(textual) අන්තර්ගතයන්හි භාවිතා වන සෑම වචනයක්ම සැලකිය යුතු හැඟීම්මය අගයක් දරයි. සපයා ඇති පාඨමය(textual) අන්තර්ගතයක, එක් එක් වචනයේ හැඟීම්බර නිරූපණයක එකතුවකින් අවසානයේ සමස්ත ප්‍රකාශනයෙහි ධනාත්මක බව, ඍණාත්මක බව, කෝපය, අපේක්ෂාව, පිළිකුල, බිය, ප්‍රීතිය, දුක, පුදුමය, විශ්වාසය හෝ සලකා බලනු ලබන වෙනත් ඕනෑම දෙයක් අනුව තීරණය කරයි. එවැනි නිරූපණයන් එම අදහස් ප්‍රකාශ කළ පුද්ගලයාගේ පෞරුෂත්වය තීරණය කිරීම සඳහා භාවිතා කළ හැකිය. අවසානයේදී, විශාල දත්ත කට්ටලයක සමස්ත වර්ගීකරණය හා විශ්ලේෂණය භාවිතා කරමින්, පුද්ගලයෙකුගේ පෞරුෂත්වය තෝරා ගනු ලැබේ. පෞරුෂ පුරෝකථන ක්‍රියාවලියේ පළමු පියවර වන්නේ දත්ත සැකසීමයි. දත්ත කට්ටල සාමාන්‍යයෙන් එකතු කරනු ලබන්නේ සමාජ මාධ්‍ය වේදිකාවකිනි, එහි බොහෝ අපහාසාත්මක සහ නිසරු වචන වචන අඩංගු වන අතර ඒවා කෙනෙකුගේ පෞරුෂය හඳුනා ගැනීම සඳහා අර්ථවත් අර්ථකථන අංග ලෙස භාවිතා කළ නොහැක. මෙම දත්තවල විවිධ විරාම ලකුණු සහ විවිධ සංකේත විශාල ප්‍රමාණයක් අඩංගුවන අතර ඒවා දත්ත කට්ටලයෙන් ඉවත් කළ යුතු ය. දත්ත කට්ටලය දත්ත පිරිසිදු කිරීමේ වටයන් හරහා යෑමෙන් පසුව එහි අතිරික්ත විරාම ලකුණු, සංකේත සහ ‘අ’, ‘ද’ වැනි “නැවතුම් වචන” ඉවත් කරනු ලැබේ. මේ සඳහා පයිතන් හි නිත්‍ය ප්‍රකාශන(regular expressions) සහ NLTK (ස්වාභාවික භාෂා සැකසුම් මෙවලම් කට්ටලය — Natural Language Processing Tool Kit) භාවිතා කරනු ලැබේ. අමු දත්ත (raw data) යන්ත්‍ර ආකෘතියට කෙලින්ම පෝෂණය කළ නොහැක. එමනිසා, පුද්ගලයෙකුගේ පෞරුෂත්ව වර්ග තක්සේරු කිරීම සඳහා මෙම දත්ත පෙළෙන් අර්ථවත් අංග උපුටා ගැනීම අවශ්‍ය වන අතර, මෙම පියවර “විශේෂාංග නිස්සාරණය”(Feature Extraction) ලෙස හැඳින්වේ. වචන මත පදනම්ව පෞරුෂය වර්ගීකරණය කිරීම සඳහා, වචනවලට යම් බරක්(weight) එකතු කළ යුතුය. මෙය සිදු කරනු ලබන්නේ දෛශිකකරණය(Vectorizing.) ,නම් ක්‍රියාවලියෙනි. ගණනය කළ දෛශික(Count Vectorizer) සහ කාලීන සංඛ්‍යාත — ප්‍රතිලෝම ලේඛන සංඛ්‍යාත දෛශික(Term Frequency- Inverse Document Frequency Vectorizer) ආකෘති භාවිතා කරමින් ඒවායේ සංඛ්‍යාතය සහ බර මත පදනම්ව ව්‍යුහගත නොකළ පෙළ(text) දත්ත, දෛශික (ගණිතමය අගයන්) බවට පරිවර්තනය කරනු ලැබේ. මේවා ස්වාභාවික භාෂා සැකසුම්(Natural Language Processing) සඳහා වැඩිපුරම භාවිතා කරන දෛශික ඇල්ගොරිතම දෙකකි. පුද්ගලයෙකුගේ පෞරුෂත්වය පුරෝකථනය කිරීම සඳහා ඇල්ගොරිතම සෑදීම, පුහුණුව, පරීක්ෂණ සහ යන්ත්‍ර ඉගෙනීමේ ආකෘතිය(machine learning model) ඇගයීම යනාදී පියවර අනුගමනය කෙරේ.

පෞරුෂ පුරෝකථනය හා සම්බන්ධ අධ්‍යයන පිටුපස ඇති සදාචාරාත්මක උත්සුක කරුණු (Ethical concerns behind the studies associated with personality prediction)

දත්ත ලබා ගැනීමේ හැකියාව නිසා, බොහෝ පුද්ගල පෞරුෂත්ව හඳුනාගැනීමේ අධ්‍යයනයන් දැන් සිදු කරනු ලබන්නේ සමාජ මාධ්‍ය පැතිකඩ, අන්තර්ගතය බෙදාගැනීම(content shared) සහ වෙනත් පුද්ගලයින් විසින් බෙදාගන්නා පොදු අන්තර්ගතයන්ට ප්‍රතිචාර දැක්වීම ආදිය පදනම් කරගෙනය. කෙසේ වෙතත්, විශ්වසනීය පෞරුෂත්ව ආකෘති ගොඩනැගීම සඳහා සමාජ මාධ්‍ය දත්ත ප්‍රමාණවත් පුහුණු දත්ත ලබා දෙයිද යන්න පිළිබඳ ගැටළුවට අමතරව, සමාජ මාධ්‍ය දත්ත මත පදනම් වූ විශ්ලේෂණයන්හි, ඒවායේ දත්ත භාවිතා කිරීමේදී එම දත්ත වල පෞද්ගලික බව නිසා එහි සදාචාරාත්මක බවෙහි ගැටළුවක්ද පැනනගී. එහි විශාලතම ගැටළුව වන්නේ පරිශීලකයින්ගේ අනුදැනුම හෝ කැමැත්ත නොමැතිව දත්ත අනිසි ලෙස භාවිතා කිරීමයි. විශේෂයෙන්ම අප්‍රකට කේම්බ්‍රිජ් ඇනලිටිකා අධ්‍යයනයෙන්(Cambridge Analytica study) පසුව, මෙම ගැටළුව වැඩි අවධානයක් සහ දැනුවත්භාවයක් ලබා ගැනීමට පටන් ගෙන ඇති අතර, ඩිජිටල් ඉලක්ක කිරීම සහ ආකෘති නිර්මාණය පිළිබඳ මහජන මතය දැඩි ලෙස පිරිහී ඇත. එකඟතා පිලිබඳ ගැටලුවට අමතරව, ඇල්ගොරිතම නැඹුරුව(algorithmic bias) මෙම සන්දර්භය(context) තුළ තවත් ගැටළුවක් වන්නේ එය සමහර කණ්ඩායම් මනෝවිද්‍යාත්මක ඉලක්කවල, ඍනාත්මක බලපෑම් වලට ගොදුරු කර ගත හැකි බැවිනි. පරිශීලකයින්ගේ පෞද්ගලික ලක්‍ෂණ හඳුනා ගැනීම යම් නැඹුරුවීම් වලට හේතු විය හැකි බවත්, එයින් ඇතැම් කණ්ඩායම් අසාධාරණ අවස්ථාවන්ට ලක් විය හැකි බවත් විවිධ පර්යේෂණ මගින් සොයා ගෙන ඇත. උදාහරණයක් ලෙස, නියුරෝටික්(Neurotic) පරිශීලකයෙකු හඳුනා ගන්නා ඇල්ගොරිතමයක්, එහි ඇති දත්ත මගින් නියුරෝටික් පුද්ගලයින් සමාජ අන්තර්ක්‍රියා වල වැඩි වශයෙන් නිරත නොවන බව පෙන්නුම් කල පමණින්, පරිශීලකයාගේ අධ්‍යාපනික හා වෘත්තීය පසුබිම නොසලකා හරිමින් කිසිදු මානව අන්තර්ක්‍රියාවක් ඇතුළත් නොවන රැකියා එම ඇල්ගොරිතමය නිර්දේශ කළ හැකිය. වෙළඳ දැන්වීම් සහ අලෙවිකරණයේ මනෝවිද්‍යාත්මක ඉලක්ක හරහා, පෞරුෂත්වය හඳුනා ගැනීමද සදාචාරාත්මක බවෙහි ගැටළුවක් ගෙන එයි. එමඟින් සමාගම්වලට තම පාරිභෝගික කොටස් විශාල පරිමාණයන්ගෙන් පහසුවෙන් ඉලක්ක කිරීමට සහ ඔවුන්ගේ විකුණුම් සහ පරිවර්තන අනුපාත වැඩි කර ගැනීමටද හැකියාව ලැබේ. කෙසේ වෙතත්, ඔන්ලයින් සූදු වෙළඳ දැන්වීම්(online gambling advertising) සමඟ ඇබ්බැහි වූවන් ආදී විවිධ අවදානම් සහගත හැසිරීම් වල යෙදෙන කණ්ඩායම් මනෝවිද්‍යාත්මක ඉලක්ක කිරීම විශේෂයෙන් හානිකර විය හැකිය. ඒ අතරම, මේවා නිසි ලෙස හසුරුවන විට, පාරිභෝගිකයින් ඔවුන්ගේ මුදල් ඔවුන්ගේ පෞරුෂත්වයට අනුකූල නිෂ්පාදන සඳහා පමණක් වියදම් කිරීමට යොමු කිරීමෙනුත්, අනවශ්‍ය සහ ආවේගශීලී මිලදී ගැනීමේ හැසිරීම් වලින් වැළැක්වීමෙනුත් එකම ඉලක්කගත ප්‍රවේශය පාරිභෝගිකයින් වඩාත් තෘප්තිමත් කළ හැකි වනු ඇත. එබැවින්, ඕනෑම පර්යේෂණයක් මෙන්, පෞරුෂත්වය හඳුනා ගැනීමද, පිළිගත හැකි සහ වැරදි අරමුණු උදෙසාද යොදා ගත හැකිය.

ලියන ලද්දේ — මෝක්ෂා තිසරනි

සිංහල පරිවර්තක — ​​​​රුමේෂිකා පල්ලෙවෙල, රෝෂිනි ජයසුන්දර
දෙමළ පරිවර්තක — ​​මොහොමඩ් ඉසාඩ්

--

--

YGSL
YGSL

Written by YGSL

Science, Research, Industry & Innovation

No responses yet