കമ്പ്യൂട്ടർ · ഗണിതം

കമ്പ്യുട്ടർ വിഷൻ

 

ഏകദേശം 4.5 ബില്യൻ വർഷങ്ങൾക്ക് മുൻപാണ് ഭൂമി ഉത്ഭവിച്ചതെന്ന് കരുതപ്പെടുന്നു ജീവന്റെ കണികകൾ ഉണ്ടായിട്ട് 3.5 ബില്യൺ വർഷങ്ങളായിട്ടുണ്ട് അന്നുതൊട്ട് അനുസ്യൂതമായി തുടരുന്ന പരിണാമ പ്രക്രിയയുടെ ഭാഗമാണ് ഭൂമിയിലെ ലക്ഷോപലക്ഷം ജീവജാലങ്ങൾ . ഏകദേശം 541 മില്യൺ വർഷങ്ങൾക്കുമുമ്പ് ഈ പരിണാമ പ്രക്രിയയിൽ ഒരു വൻ കുതിച്ചുചാട്ടം ഉണ്ടായി cambarian എക്സ്പ്ലോഷൻ എന്നാണ് ഇതറിയപ്പെടുന്നത് .https://en.m.wikipedia.org/wiki/Cambrian_explosion ഇതിനെത്തുടർന്നാണ് വിവിധതരം ബഹുകോശ ജീവികൾ ഭൂമിയിൽ പ്രത്യക്ഷപ്പെടുന്നത് . ഭൂമിയിലെ ജീവജാലങ്ങളുടെ എണ്ണത്തിൽ വൻ വർധനവുണ്ടായി കാഴ്ചശക്തിയുള്ള ജീവികൾ ഭൂമിയിൽ പ്രത്യക്ഷപ്പെടുന്നത് ഇക്കാലത്താണ് . അന്നുതൊട്ട് ഇങ്ങോട്ട് കാഴ്ചയും പരിണാമ പ്രക്രിയയുടെ ഭാഗമായി മാറി.
ജീവികളിൽ കാഴ്ച സാധ്യമാക്കുന്നതിന് പ്രകൃതി സങ്കീർണമായ ഒരു സംവിധാനമാണ് ഒരുക്കിയിട്ടുള്ളത് . ജീവികളുടെ കണ്ണുകൾ ക്യാമറയായും തലച്ചോർ ക്യാമറയിൽ നിന്ന് കിട്ടിയ ചിത്രങ്ങളെ പ്രോസസ് ചെയ്ത് വിവരങ്ങളെ വ്യാഖ്യാനിക്കുന്ന കമ്പ്യൂട്ടറായും പ്രവർത്തിക്കുന്നു.
തലച്ചോർ നാം കാണുന്ന ഓരോ കാഴ്ചയേയും മുൻ അനുഭവങ്ങളുമായി താരതമ്യം ചെയ്തു വിവിധ വികാരങ്ങളെ ഉദ്ദീപിപ്പിക്കുന്നു. മനുഷ്യന്റെ ബൗദ്ധിക ശക്തിയെ പഞ്ചേന്ദ്രിയങ്ങളിൽ നിന്നുത്ഭവിക്കുന്ന വിവിധ തരം സംവേദനങ്ങളെ കൃത്യമായി വ്യാഖ്യാനിക്കുന്നതിനുള്ള കഴിവായി പരിഗണിക്കാം. പഞ്ചേന്ദ്രിയങ്ങളിൽ ഏറ്റവും പ്രധാനപ്പെട്ട ഇന്ദ്രിയമാണ് കണ്ണുകൾ. അതിനാൽ മനുഷ്യബുദ്ധിയേ കൃത്രിമമായി നിർമ്മിക്കാനുള്ള ഗവേഷണത്തിൽ കമ്പ്യൂട്ടർ വിഷൻ ഒന്നാം സ്ഥാനത്താണ്.

കൃത്രിമബുദ്ധി സംബന്ധിച്ച ഗവേഷണങ്ങൾ ആരംഭിക്കുന്നത് ആയിരത്തിത്തൊള്ളായിരത്തി അറുപതുകളിലാണ് അന്നുമുതൽ തന്നെ കാഴ്ച ഗവേഷകരെ ആകർഷിച്ചിരുന്നു എന്നാൽ അക്കാലത്ത് ലഭ്യമായ ടെക്നോളജി, ഗണിത വിദ്യ, കമ്പ്യൂട്ടറുകൾ എന്നിവ കൃത്രിമ കാഴ്ച വികസിപ്പിക്കുന്നതിന് പര്യാപ്തമായിരുന്നില്ല.ഒറ്റപ്പെട്ട ശ്രമങ്ങൾക്ക് പലപ്പോഴും കാളിപ്പാട്ട മൂല്യമേ(toy value) ഉണ്ടായിരുന്നുള്ളു. എന്നാൽ കഴിഞ്ഞ പത്തു പതിനഞ്ചു വർഷത്തിനുള്ളിൽ ഈ രംഗത്ത് വൻ പുരോഗതി ഉണ്ടായിട്ടുണ്ട് വേഗതയേറിയ കംപ്യൂട്ടറുകളുടെ ലഭ്യത നൂതന മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ എന്നിവ കാഴ്ച സംബന്ധിച്ച് ഗവേഷണങ്ങളിൽ പുതിയ മുന്നേറ്റങ്ങൾ ഉണ്ടാക്കിയിട്ടുണ്ട്. ഈ സാങ്കേതിക വിദ്യകൾ പ്രായോഗികമായി ഉപയോഗിക്കാൻ കമ്പ്യൂട്ടർ സയൻസിലും ഗണിതശാസ്ത്രത്തിലും ജ്ഞാനം വേണം.

കൃത്രിമ കാഴ്ചയുടെ പ്രാഥമിക പാഠങ്ങൾ സഹായമില്ലാതെ വിശദീകരിക്കാൻ പറ്റുമോ എന്ന് ഈ ചെറിയ കുറിപ്പിൽ ശ്രമിക്കുന്നു . ഗണിത സൂക്ഷ്മത (mathematical precision) പ്രതീക്ഷിക്കേണ്ടതില്ല.

ആദ്യമായി നമുക്ക് ഒരു കുട്ടി എങ്ങനെയാണ് കാഴ്ച എന്ന അനുഭവം പഠിച്ച് ഉറപ്പിക്കുന്നത് എന്ന് നോക്കാം മനുഷ്യന്റെ കണ്ണുകൾ സെക്കൻഡിൽ അഞ്ചോളം ചിത്രങ്ങൾ വച്ച് തലച്ചോറി തലച്ചോറിലേക്ക് അയയ്ക്കും. ഒരുവർഷത്തിൽ 31 53 60 0 0 സെക്കൻഡുകൾ ആണ് ഉള്ളത് അതായത് കൂട്ടി ഒരു വയസ്സാവുമ്പോഴേക്കും ഏകദേശം 15 കോടി ചിത്രങ്ങൾ കണ്ടിട്ടുണ്ടാകും. തലച്ചോറിനുള്ളിൽ വിവരങ്ങൾ ശേഖരിച്ചു വയ്ക്കുന്നതും ഇങ്ങനെ ശേഖരിച്ച വിവരങ്ങൾ ഉപയോഗിച്ച് മറ്റ് പ്രവർത്തനങ്ങൾ നിയന്ത്രിക്കുന്നതും ന്യൂറോണുകൾ ആണ് .

മനുഷ്യന്റെ പഞ്ചേന്ദ്രിയങ്ങൾക്ക് നിന്ന് വിവരങ്ങൾ ശേഖരിക്കാൻ ന്യൂറോണുകൾക്ക് ആകും. നമ്മൾ കുട്ടിയെ പുതിയ വസ്തുക്കളുടെ ചിത്രം കാണിച്ച് അതിന്റെ നിറം വലിപ്പം എണ്ണം എന്നിങ്ങനെ പഠിപ്പിച്ചു കൊടുക്കുമ്പോൾ തലച്ചോറിലെ ന്യൂറോണുകളെ പരിശീലിപ്പിക്കുകയാണ് ചെയ്യുന്നത്. ഏകദേശം രണ്ടു മൂന്നു വയസ്സ് ആകുമ്പോഴേക്കും കുട്ടികളിൽ കാഴ്ച ഉറച്ചു തുടങ്ങും തുടർന്നുള്ള വർഷങ്ങളിൽ കുട്ടി കാണുന്ന ചിത്രങ്ങൾ ഈ അനുഭവത്തെ ശക്തിപ്പെടുത്തും. പതിയെപ്പതിയെ പുതിയ കാര്യങ്ങൾ കണ്ടുമനസ്സിലാക്കാനും ഇതുവരെ കാണാത്ത കാഴ്ചകൾ കണ്ടാൽ യുക്തമായ തീരുമാനമെടുക്കാൻ കുട്ടി പ്രാപ്തനാകും ഒരു നിമിഷം മാത്രം ഒരു ചിത്രം കാണുന്ന കണ്ട് വലിയ ഉപന്യാസം എഴുതാൻ നമുക്ക് സാധിക്കും ഉദാഹരണത്തിന പുസ്തകത്തിലോ ഇന്റർനെറ്റിലോ കരഞ്ഞുകൊണ്ടിരിക്കുന്ന കുട്ടിയുടെ ചിത്രം കണ്ടാൽ കുട്ടി കരയുകയാണ് എന്നും അതിനെന്തോ കാരണമുണ്ടാകും എന്നും മനസിലാക്കാൻ നമ്മുടെ തലച്ചോറിന് കഴിവുണ്ട്

ഇനി കമ്പ്യൂട്ടറുകളുടെ കാര്യമെടുക്കാം കമ്പ്യൂട്ടറുകൾക്ക് കാഴ്ച സംബന്ധിച്ചു വിവരം കിട്ടുന്നത് ക്യാമറയിൽ നിന്നാണ്. ഇതിനായി ഒരേ സമയം ഒന്നിലധികം ക്യാമറകൾ വേണമെങ്കിൽ ഉപയോഗിക്കാം.കമ്പ്യൂട്ടറുകളിൽ ഓരോ ചിത്രവും സംഖ്യകളുടെ ഒരു ഒരു നിരയായിട്ടാണ് ശേഖരിച്ചുവച്ചിരിക്കുന്നത് . ഈ സംഖ്യകളിൽ നിന്ന് ബുദ്ധിപൂർവം പരിശോധിച്ച് നിഗമനങ്ങളിലെത്തേണ്ടതുണ്ട്. ഒരു ചിത്രം കണ്ടാൽ അതിന്റെ നിറം അതിലുള്ള വസ്തുക്കൾ , ഈ വസ്തുക്കൾ തമ്മിലുള്ള ആപേക്ഷികദൂരം, വസ്തുക്കൾ തമ്മിലുള്ള ബന്ധം തുടങ്ങി നിരവധി കാര്യങ്ങൾ നമുക്ക് നിമിഷങ്ങൾക്കുള്ളിൽ തിരിച്ചറിയാൻ കഴിയും. മനുഷ്യന് ലഭിച്ചിട്ടുള്ള എല്ലാ കഴിവുകളും ക്യാമറായിൽ നിന്നു വരുന്ന സംഖ്യാ നിരയിൽ നിന്ന് കമ്പ്യൂട്ടർ ആർജിക്കണം. കമ്പ്യൂട്ടർ വിഷൻ ഗവേഷകർ കഴിഞ്ഞ പല വർഷങ്ങളായി ഇതിന് ശ്രമിക്കുകയാണ്.

ആദ്യകാല ഗവേഷകരെല്ലാം തന്നെ വസ്തുക്കളെ ചിത്രങ്ങളിൽ നിന്ന് തിരിച്ചറിയാമോ(object recognition), അതിനു വേണ്ട സങ്കേതങ്ങള്‍ൾഎന്തൊക്കെയാണ് , ഒരു ചിത്രം കിട്ടിയാൽ അതിലെ വസ്തുക്കൾ ചിത്രമെടുത്ത ക്യാമറായിൽ നിന്ന് എത്ര അകലെയാണ് (depth estimation) ,
തുടർച്ചയായി എടുത്ത ചിത്രങ്ങളിലുള്ള വസ്തുക്കളെ ട്രാക്ക് ചെയ്യുക(object tracking)
തുടങ്ങിയ പ്രശ്നങ്ങളായിരുന്നു പരിശോധിച്ചിരുന്നത്. ഇവക്കെല്ലാതന്നെ നല്ല കൃത്യത (accuracy) യുള്ള അൽഗോരിതങ്ങൾ ഇപ്പോൾ ലഭ്യമാണ്.

ഒരു ചിത്രത്തിൽ നിന്ന് നമുക്കാവശ്യമുള്ള ഒരു വസ്തുവിനെ തിരിച്ചറിയുന്നതെങ്ങിനെയെന്ന് പരിശോധിക്കാം. ഉദാഹരണത്തിന് കമ്പ്യുട്ടറിന്റെ കയ്യിലുള്ള ചിത്രം പൂച്ചയുടെ പടമാണോ പശുവിന്റെ പടമാണോ എന്ന് തിരിച്ചറിയണമെന്നിരിക്കട്ടെ.

കമ്പ്യൂട്ടറിനെ നമ്മൾ പൂച്ചയുടെയും പശുവിന്റെയും പല പോസിലും സൈസിലും നിറത്തിലുമുള്ള ആയിരക്കണക്കിന് ചിത്രങ്ങൾ കാണിച്ച് കൊടുക്കും. ചെറിയ കുട്ടികളെ പൂച്ചയേയും പശുവിനേയും കാണിച്ച് പറഞ്ഞു പഠിപ്പിക്കാറില്ലെ .അതു പോലെ. കുട്ടി ആ സമയത്ത് പൂച്ചയുടെയും പശുവിന്റെയും വിവിധ ഫീച്ചറുകൾ(features) കണ്ടു കണ്ട് സ്വയം മനസ്സിലാക്കി വെക്കും. ഈ സമയത്ത് കുട്ടിയുടെ തലച്ചോറിലുള്ള ന്യൂറോണുകളെ നമ്മൾ പരിശീലിപ്പിക്കയാണ്. ഇങ്ങനെ പരിശീലിപ്പിക്കപ്പെട്ട തലച്ചോർ ഇതുവരെ കണ്ടിട്ടില്ലാത്ത ഒരു പൂച്ചയെക്കണ്ടാൽ മുൻപു കണ്ടിട്ടുള്ള വിവിധ ജീവികളുടെ ഫീച്ചറുകൾ ഉപയോഗിച്ച് ഒരു അനുമാനത്തിലെത്തും. എന്താണി ഫീച്ചറുകൾ എന്ന ചോദ്യം ഇവിടെ വരും. പൂച്ചയുടെ വലിപ്പം, വാൽ, കാലുകൾ, നഖങ്ങൾ മീശ തുടങ്ങി തിരിച്ചറിയാൻ പല അടയാളങ്ങളില്ലെ. തലച്ചോറിനുള്ളിൽ ഇവ പൂച്ചയുടെ അക്കൗണ്ടിന് നേരേ രേഖപ്പെടുത്തിയിരിക്കും. കുട്ടി ഓരോ പുതിയ പൂച്ചയെക്കാണുമ്പോഴും ഈ തലച്ചോറിനുള്ളിൽ ഫീച്ചറുകളുടെ അപ്ഡേഷൻ നടക്കും.

കമ്പ്യൂട്ടറുകളെയും പരിശീലിപ്പിക്കുന്നത് ഇതേപോലെയാണ്. പരിശീലനം നേടുന്നത് ഒരു ഗണിത അൽഗോരിതമാണെന്ന് മാത്രം. (സപ്പോർട്ട് വെക്ടറുകൾ, ന്യൂറൽ നെറ്റ് വർക്കുകൾ, പ്രോ ബബി ലിസ്റ്റിക് ഗ്രാഫുകൾ തുടങ്ങി പലതും അൽഗോരിതങ്ങളുണ്ട്. വിവിധ അൽഗോരിതങ്ങളെ പിന്നീട് പരിചയപ്പെടുത്താം). ആദ്യം
പൂച്ചയുടെയും പശുവിന്റെയും ഫീച്ചറുകൾ നമ്മൾ കമ്പ്യൂട്ടറിനെ പറഞ്ഞ് പഠിപ്പിക്കും. എന്നിട്ട് ഈ ഫീച്ചറുകളുള്ള പടങ്ങൾ കാണിച്ച് കൊടുക്കും. അൽഗോരിതം ഓരോ ചിത്രത്തിൽ നിന്നും കിട്ടുന്ന ഫീച്ചറുകൾ അനുസരിച്ച് ചിലപരാമീറ്ററുകൾ മാറ്റിക്കൊണ്ടിരിക്കും. ഇങ്ങനെ പലതവണ പശുവിന്റെയും പൂച്ചയുടേയും ചിത്രങ്ങൾ കാണിച്ചു കഴിയുമ്പോൾ അൽഗോരിതം ഇതു വരെ കണ്ടിട്ടില്ലാത്ത ഒരു പൂച്ചയെ കൃത്യമായി തിരിച്ചറിയും.

ഇതിന് ഒരു കുഴപ്പമുണ്ട്. കമ്പ്യൂട്ടറിനെ പഠിപ്പിക്കാൻ ഇത്തരത്തിൽ മുൻ കൂട്ടി ഫീച്ചറുകൾ അറിയാവുന്ന, പൂച്ചയാണ് എന്ന് ലേബൽ ചെയ്യപ്പെട്ട ആയിരക്കണക്കിന് ചിത്രങ്ങൾ വേണം. കമ്പ്യൂട്ടർ വിഷൻ ഉപയോഗപ്രദമാകണമെങ്കിൽ മനുഷ്യനേപ്പോലെ ആയിരക്കണക്കിന് വസ്തുക്കളെ തിരിച്ചറിയേണ്ടതായിട്ടുണ്ട്.ഇതിനായി ലക്ഷക്കണക്കിന് പരിശീലന ചിത്രങ്ങൾ ആവശ്യമാണ്. ഇത്തരത്തിൽ ഉള്ള ഡാറ്റാ സെറ്റിന്റെ നിർമ്മാണവും പരിപാലനവും വളരെ ചിലവേറിയതും സമയമെടുക്കുന്നതുമാണ്.

അമേരിക്കയിലെ പ്രിൻസ്റ്റൺ യൂണിവേർസിറ്റി പത്തു മില്യൺ ചിത്രങ്ങളുള്ള ഇത്തരം ഒരു ഡേറ്റ സെറ്റ് തയ്യാറാക്കിയിട്ടുണ്ട്. ഇമേജ് നെറ്റ് എന്നാണ് ഇതിന്റെ പേര്.http://www.image-net.org ഇപ്പോഴത്തെ പല വിഷൻ പ്രോജക്ടുകളുടേയും അടിസ്ഥാനം ഈ ഡേറ്റ സെറ്റാണ്.

ചൈനിസ് വംശജയായ ഫെ ഫെ ലി എന്ന വനിതാ പ്രൊഫസറാണ് ഇമേജ് നെറ്റിന് പിന്നിൽ. ഇത് സംന്ധിച്ചു ലീയുടെ ടെഡ് ടോക്ക്
( https://www.ted.com/…/fei_fei_li_how_we_re_teaching_compute… ) തീർച്ചയായും കാണേണ്ട ഒന്നാണ്.

ഒരു ചിത്രത്തിലെ വസ്തുക്കളെ തിരിച്ചറിഞ്ഞു കഴിഞ്ഞാൽ, അതിന് സ്വാഭാവിക ഭാഷയിലുള്ള (natural language) വിവരണം ഉണ്ടാക്കേണ്ടതായി വരും. ഉദാഹരണത്തിന് ഒരു ചിത്രത്തിൽ പൂച്ചയും മേശയും ഉണ്ടെന്നിരിക്കട്ടെ. പൂച്ചയും മേശയും തമ്മിലുള്ള ബന്ധം നമുക്ക് എളുപ്പം തിരിച്ചറിയാൻ പറ്റും. പൂച്ച മേശക്കിഴിലാണ് അല്ലെങ്കിൽ മേശപ്പുറത്താണ് എന്ന് നമുക്ക് ഒറ്റനോട്ടത്തിൽ പറയാൻ കഴിയും. പക്ഷെ കമ്പ്യൂട്ടറുകൾക്ക് ഇത് വിഷമം പിടിച്ചു പ്രശ്നമാണ്.
ഇതു പോലെ ചിത്രത്തിലെ വസ്തുക്കളുടെ ഭാവം, വികാരങ്ങൾ തുടങ്ങിയവ തിരിച്ചറിയാനാവുമോ എന്നൊക്കെയുള്ള ഗവേഷണങ്ങൾ നടക്കുന്നുണ്ട്. മെഷിൻ ലേണിംഗ്, നാച്വറൽ ലാംഗ്വേജ് പ്രോസസിംഗ്, റോബോട്ടിക്സ് തുടങ്ങിയ വിഷയങ്ങൾ വമ്പൻ കുതിച്ചു ചാട്ടത്തിന് തയ്യാറായി നിൽക്കുകയാണ്. സ്വയം ഡ്രൈവ് ചെയ്യുന്ന കാറുകൾ, നിങ്ങളുടെ ചൊൽപടിക്ക് നിൽക്കുന്ന ഗൃഹോപകരണങ്ങൾ, ഉടമസ്ഥന്റെ ഇഷ്ടമറിഞ്ഞ് പ്രവർത്തിക്കുന്ന റോബോട്ടുകൾ ഒക്കെ ഉടൻ എത്തും. പക്ഷെ മനുഷ്യനെപ്പോലെ സകല കാര്യങ്ങളും ചെയ്യാൻ കഴിവുള്ള, വിചാരവും വികാരവുമുള്ള ഒരു ജനറൽ പർപസ് യന്തിരനിലേക്ക് ഇനിയും ഒരുപാട് കാതം ദുരമുണ്ട്.

Leave a Reply

Your email address will not be published. Required fields are marked *