ഏകദേശം 4.5 ബില്യൻ വർഷങ്ങൾക്ക് മുൻപാണ് ഭൂമി ഉത്ഭവിച്ചതെന്ന് കരുതപ്പെടുന്നു ജീവന്റെ കണികകൾ ഉണ്ടായിട്ട് 3.5 ബില്യൺ വർഷങ്ങളായിട്ടുണ്ട് അന്നുതൊട്ട് അനുസ്യൂതമായി തുടരുന്ന പരിണാമ പ്രക്രിയയുടെ ഭാഗമാണ് ഭൂമിയിലെ ലക്ഷോപലക്ഷം ജീവജാലങ്ങൾ . ഏകദേശം 541 മില്യൺ വർഷങ്ങൾക്കുമുമ്പ് ഈ പരിണാമ പ്രക്രിയയിൽ ഒരു വൻ കുതിച്ചുചാട്ടം ഉണ്ടായി cambarian എക്സ്പ്ലോഷൻ എന്നാണ് ഇതറിയപ്പെടുന്നത് .https://en.m.wikipedia.org/wiki/Cambrian_explosion ഇതിനെത്തുടർന്നാണ് വിവിധതരം ബഹുകോശ ജീവികൾ ഭൂമിയിൽ പ്രത്യക്ഷപ്പെടുന്നത് . ഭൂമിയിലെ ജീവജാലങ്ങളുടെ എണ്ണത്തിൽ വൻ വർധനവുണ്ടായി കാഴ്ചശക്തിയുള്ള ജീവികൾ ഭൂമിയിൽ പ്രത്യക്ഷപ്പെടുന്നത് ഇക്കാലത്താണ് . അന്നുതൊട്ട് ഇങ്ങോട്ട് കാഴ്ചയും പരിണാമ പ്രക്രിയയുടെ ഭാഗമായി മാറി.
ജീവികളിൽ കാഴ്ച സാധ്യമാക്കുന്നതിന് പ്രകൃതി സങ്കീർണമായ ഒരു സംവിധാനമാണ് ഒരുക്കിയിട്ടുള്ളത് . ജീവികളുടെ കണ്ണുകൾ ക്യാമറയായും തലച്ചോർ ക്യാമറയിൽ നിന്ന് കിട്ടിയ ചിത്രങ്ങളെ പ്രോസസ് ചെയ്ത് വിവരങ്ങളെ വ്യാഖ്യാനിക്കുന്ന കമ്പ്യൂട്ടറായും പ്രവർത്തിക്കുന്നു.
തലച്ചോർ നാം കാണുന്ന ഓരോ കാഴ്ചയേയും മുൻ അനുഭവങ്ങളുമായി താരതമ്യം ചെയ്തു വിവിധ വികാരങ്ങളെ ഉദ്ദീപിപ്പിക്കുന്നു. മനുഷ്യന്റെ ബൗദ്ധിക ശക്തിയെ പഞ്ചേന്ദ്രിയങ്ങളിൽ നിന്നുത്ഭവിക്കുന്ന വിവിധ തരം സംവേദനങ്ങളെ കൃത്യമായി വ്യാഖ്യാനിക്കുന്നതിനുള്ള കഴിവായി പരിഗണിക്കാം. പഞ്ചേന്ദ്രിയങ്ങളിൽ ഏറ്റവും പ്രധാനപ്പെട്ട ഇന്ദ്രിയമാണ് കണ്ണുകൾ. അതിനാൽ മനുഷ്യബുദ്ധിയേ കൃത്രിമമായി നിർമ്മിക്കാനുള്ള ഗവേഷണത്തിൽ കമ്പ്യൂട്ടർ വിഷൻ ഒന്നാം സ്ഥാനത്താണ്.
കൃത്രിമബുദ്ധി സംബന്ധിച്ച ഗവേഷണങ്ങൾ ആരംഭിക്കുന്നത് ആയിരത്തിത്തൊള്ളായിരത്തി അറുപതുകളിലാണ് അന്നുമുതൽ തന്നെ കാഴ്ച ഗവേഷകരെ ആകർഷിച്ചിരുന്നു എന്നാൽ അക്കാലത്ത് ലഭ്യമായ ടെക്നോളജി, ഗണിത വിദ്യ, കമ്പ്യൂട്ടറുകൾ എന്നിവ കൃത്രിമ കാഴ്ച വികസിപ്പിക്കുന്നതിന് പര്യാപ്തമായിരുന്നില്ല.ഒറ്റപ്പെട്ട ശ്രമങ്ങൾക്ക് പലപ്പോഴും കാളിപ്പാട്ട മൂല്യമേ(toy value) ഉണ്ടായിരുന്നുള്ളു. എന്നാൽ കഴിഞ്ഞ പത്തു പതിനഞ്ചു വർഷത്തിനുള്ളിൽ ഈ രംഗത്ത് വൻ പുരോഗതി ഉണ്ടായിട്ടുണ്ട് വേഗതയേറിയ കംപ്യൂട്ടറുകളുടെ ലഭ്യത നൂതന മെഷീൻ ലേണിംഗ് അൽഗോരിതങ്ങൾ എന്നിവ കാഴ്ച സംബന്ധിച്ച് ഗവേഷണങ്ങളിൽ പുതിയ മുന്നേറ്റങ്ങൾ ഉണ്ടാക്കിയിട്ടുണ്ട്. ഈ സാങ്കേതിക വിദ്യകൾ പ്രായോഗികമായി ഉപയോഗിക്കാൻ കമ്പ്യൂട്ടർ സയൻസിലും ഗണിതശാസ്ത്രത്തിലും ജ്ഞാനം വേണം.
കൃത്രിമ കാഴ്ചയുടെ പ്രാഥമിക പാഠങ്ങൾ സഹായമില്ലാതെ വിശദീകരിക്കാൻ പറ്റുമോ എന്ന് ഈ ചെറിയ കുറിപ്പിൽ ശ്രമിക്കുന്നു . ഗണിത സൂക്ഷ്മത (mathematical precision) പ്രതീക്ഷിക്കേണ്ടതില്ല.
ആദ്യമായി നമുക്ക് ഒരു കുട്ടി എങ്ങനെയാണ് കാഴ്ച എന്ന അനുഭവം പഠിച്ച് ഉറപ്പിക്കുന്നത് എന്ന് നോക്കാം മനുഷ്യന്റെ കണ്ണുകൾ സെക്കൻഡിൽ അഞ്ചോളം ചിത്രങ്ങൾ വച്ച് തലച്ചോറി തലച്ചോറിലേക്ക് അയയ്ക്കും. ഒരുവർഷത്തിൽ 31 53 60 0 0 സെക്കൻഡുകൾ ആണ് ഉള്ളത് അതായത് കൂട്ടി ഒരു വയസ്സാവുമ്പോഴേക്കും ഏകദേശം 15 കോടി ചിത്രങ്ങൾ കണ്ടിട്ടുണ്ടാകും. തലച്ചോറിനുള്ളിൽ വിവരങ്ങൾ ശേഖരിച്ചു വയ്ക്കുന്നതും ഇങ്ങനെ ശേഖരിച്ച വിവരങ്ങൾ ഉപയോഗിച്ച് മറ്റ് പ്രവർത്തനങ്ങൾ നിയന്ത്രിക്കുന്നതും ന്യൂറോണുകൾ ആണ് .
മനുഷ്യന്റെ പഞ്ചേന്ദ്രിയങ്ങൾക്ക് നിന്ന് വിവരങ്ങൾ ശേഖരിക്കാൻ ന്യൂറോണുകൾക്ക് ആകും. നമ്മൾ കുട്ടിയെ പുതിയ വസ്തുക്കളുടെ ചിത്രം കാണിച്ച് അതിന്റെ നിറം വലിപ്പം എണ്ണം എന്നിങ്ങനെ പഠിപ്പിച്ചു കൊടുക്കുമ്പോൾ തലച്ചോറിലെ ന്യൂറോണുകളെ പരിശീലിപ്പിക്കുകയാണ് ചെയ്യുന്നത്. ഏകദേശം രണ്ടു മൂന്നു വയസ്സ് ആകുമ്പോഴേക്കും കുട്ടികളിൽ കാഴ്ച ഉറച്ചു തുടങ്ങും തുടർന്നുള്ള വർഷങ്ങളിൽ കുട്ടി കാണുന്ന ചിത്രങ്ങൾ ഈ അനുഭവത്തെ ശക്തിപ്പെടുത്തും. പതിയെപ്പതിയെ പുതിയ കാര്യങ്ങൾ കണ്ടുമനസ്സിലാക്കാനും ഇതുവരെ കാണാത്ത കാഴ്ചകൾ കണ്ടാൽ യുക്തമായ തീരുമാനമെടുക്കാൻ കുട്ടി പ്രാപ്തനാകും ഒരു നിമിഷം മാത്രം ഒരു ചിത്രം കാണുന്ന കണ്ട് വലിയ ഉപന്യാസം എഴുതാൻ നമുക്ക് സാധിക്കും ഉദാഹരണത്തിന പുസ്തകത്തിലോ ഇന്റർനെറ്റിലോ കരഞ്ഞുകൊണ്ടിരിക്കുന്ന കുട്ടിയുടെ ചിത്രം കണ്ടാൽ കുട്ടി കരയുകയാണ് എന്നും അതിനെന്തോ കാരണമുണ്ടാകും എന്നും മനസിലാക്കാൻ നമ്മുടെ തലച്ചോറിന് കഴിവുണ്ട്
ഇനി കമ്പ്യൂട്ടറുകളുടെ കാര്യമെടുക്കാം കമ്പ്യൂട്ടറുകൾക്ക് കാഴ്ച സംബന്ധിച്ചു വിവരം കിട്ടുന്നത് ക്യാമറയിൽ നിന്നാണ്. ഇതിനായി ഒരേ സമയം ഒന്നിലധികം ക്യാമറകൾ വേണമെങ്കിൽ ഉപയോഗിക്കാം.കമ്പ്യൂട്ടറുകളിൽ ഓരോ ചിത്രവും സംഖ്യകളുടെ ഒരു ഒരു നിരയായിട്ടാണ് ശേഖരിച്ചുവച്ചിരിക്കുന്നത് . ഈ സംഖ്യകളിൽ നിന്ന് ബുദ്ധിപൂർവം പരിശോധിച്ച് നിഗമനങ്ങളിലെത്തേണ്ടതുണ്ട്. ഒരു ചിത്രം കണ്ടാൽ അതിന്റെ നിറം അതിലുള്ള വസ്തുക്കൾ , ഈ വസ്തുക്കൾ തമ്മിലുള്ള ആപേക്ഷികദൂരം, വസ്തുക്കൾ തമ്മിലുള്ള ബന്ധം തുടങ്ങി നിരവധി കാര്യങ്ങൾ നമുക്ക് നിമിഷങ്ങൾക്കുള്ളിൽ തിരിച്ചറിയാൻ കഴിയും. മനുഷ്യന് ലഭിച്ചിട്ടുള്ള എല്ലാ കഴിവുകളും ക്യാമറായിൽ നിന്നു വരുന്ന സംഖ്യാ നിരയിൽ നിന്ന് കമ്പ്യൂട്ടർ ആർജിക്കണം. കമ്പ്യൂട്ടർ വിഷൻ ഗവേഷകർ കഴിഞ്ഞ പല വർഷങ്ങളായി ഇതിന് ശ്രമിക്കുകയാണ്.
ആദ്യകാല ഗവേഷകരെല്ലാം തന്നെ വസ്തുക്കളെ ചിത്രങ്ങളിൽ നിന്ന് തിരിച്ചറിയാമോ(object recognition), അതിനു വേണ്ട സങ്കേതങ്ങള്ൾഎന്തൊക്കെയാണ് , ഒരു ചിത്രം കിട്ടിയാൽ അതിലെ വസ്തുക്കൾ ചിത്രമെടുത്ത ക്യാമറായിൽ നിന്ന് എത്ര അകലെയാണ് (depth estimation) ,
തുടർച്ചയായി എടുത്ത ചിത്രങ്ങളിലുള്ള വസ്തുക്കളെ ട്രാക്ക് ചെയ്യുക(object tracking)
തുടങ്ങിയ പ്രശ്നങ്ങളായിരുന്നു പരിശോധിച്ചിരുന്നത്. ഇവക്കെല്ലാതന്നെ നല്ല കൃത്യത (accuracy) യുള്ള അൽഗോരിതങ്ങൾ ഇപ്പോൾ ലഭ്യമാണ്.
ഒരു ചിത്രത്തിൽ നിന്ന് നമുക്കാവശ്യമുള്ള ഒരു വസ്തുവിനെ തിരിച്ചറിയുന്നതെങ്ങിനെയെന്ന് പരിശോധിക്കാം. ഉദാഹരണത്തിന് കമ്പ്യുട്ടറിന്റെ കയ്യിലുള്ള ചിത്രം പൂച്ചയുടെ പടമാണോ പശുവിന്റെ പടമാണോ എന്ന് തിരിച്ചറിയണമെന്നിരിക്കട്ടെ.
കമ്പ്യൂട്ടറിനെ നമ്മൾ പൂച്ചയുടെയും പശുവിന്റെയും പല പോസിലും സൈസിലും നിറത്തിലുമുള്ള ആയിരക്കണക്കിന് ചിത്രങ്ങൾ കാണിച്ച് കൊടുക്കും. ചെറിയ കുട്ടികളെ പൂച്ചയേയും പശുവിനേയും കാണിച്ച് പറഞ്ഞു പഠിപ്പിക്കാറില്ലെ .അതു പോലെ. കുട്ടി ആ സമയത്ത് പൂച്ചയുടെയും പശുവിന്റെയും വിവിധ ഫീച്ചറുകൾ(features) കണ്ടു കണ്ട് സ്വയം മനസ്സിലാക്കി വെക്കും. ഈ സമയത്ത് കുട്ടിയുടെ തലച്ചോറിലുള്ള ന്യൂറോണുകളെ നമ്മൾ പരിശീലിപ്പിക്കയാണ്. ഇങ്ങനെ പരിശീലിപ്പിക്കപ്പെട്ട തലച്ചോർ ഇതുവരെ കണ്ടിട്ടില്ലാത്ത ഒരു പൂച്ചയെക്കണ്ടാൽ മുൻപു കണ്ടിട്ടുള്ള വിവിധ ജീവികളുടെ ഫീച്ചറുകൾ ഉപയോഗിച്ച് ഒരു അനുമാനത്തിലെത്തും. എന്താണി ഫീച്ചറുകൾ എന്ന ചോദ്യം ഇവിടെ വരും. പൂച്ചയുടെ വലിപ്പം, വാൽ, കാലുകൾ, നഖങ്ങൾ മീശ തുടങ്ങി തിരിച്ചറിയാൻ പല അടയാളങ്ങളില്ലെ. തലച്ചോറിനുള്ളിൽ ഇവ പൂച്ചയുടെ അക്കൗണ്ടിന് നേരേ രേഖപ്പെടുത്തിയിരിക്കും. കുട്ടി ഓരോ പുതിയ പൂച്ചയെക്കാണുമ്പോഴും ഈ തലച്ചോറിനുള്ളിൽ ഫീച്ചറുകളുടെ അപ്ഡേഷൻ നടക്കും.
കമ്പ്യൂട്ടറുകളെയും പരിശീലിപ്പിക്കുന്നത് ഇതേപോലെയാണ്. പരിശീലനം നേടുന്നത് ഒരു ഗണിത അൽഗോരിതമാണെന്ന് മാത്രം. (സപ്പോർട്ട് വെക്ടറുകൾ, ന്യൂറൽ നെറ്റ് വർക്കുകൾ, പ്രോ ബബി ലിസ്റ്റിക് ഗ്രാഫുകൾ തുടങ്ങി പലതും അൽഗോരിതങ്ങളുണ്ട്. വിവിധ അൽഗോരിതങ്ങളെ പിന്നീട് പരിചയപ്പെടുത്താം). ആദ്യം
പൂച്ചയുടെയും പശുവിന്റെയും ഫീച്ചറുകൾ നമ്മൾ കമ്പ്യൂട്ടറിനെ പറഞ്ഞ് പഠിപ്പിക്കും. എന്നിട്ട് ഈ ഫീച്ചറുകളുള്ള പടങ്ങൾ കാണിച്ച് കൊടുക്കും. അൽഗോരിതം ഓരോ ചിത്രത്തിൽ നിന്നും കിട്ടുന്ന ഫീച്ചറുകൾ അനുസരിച്ച് ചിലപരാമീറ്ററുകൾ മാറ്റിക്കൊണ്ടിരിക്കും. ഇങ്ങനെ പലതവണ പശുവിന്റെയും പൂച്ചയുടേയും ചിത്രങ്ങൾ കാണിച്ചു കഴിയുമ്പോൾ അൽഗോരിതം ഇതു വരെ കണ്ടിട്ടില്ലാത്ത ഒരു പൂച്ചയെ കൃത്യമായി തിരിച്ചറിയും.
ഇതിന് ഒരു കുഴപ്പമുണ്ട്. കമ്പ്യൂട്ടറിനെ പഠിപ്പിക്കാൻ ഇത്തരത്തിൽ മുൻ കൂട്ടി ഫീച്ചറുകൾ അറിയാവുന്ന, പൂച്ചയാണ് എന്ന് ലേബൽ ചെയ്യപ്പെട്ട ആയിരക്കണക്കിന് ചിത്രങ്ങൾ വേണം. കമ്പ്യൂട്ടർ വിഷൻ ഉപയോഗപ്രദമാകണമെങ്കിൽ മനുഷ്യനേപ്പോലെ ആയിരക്കണക്കിന് വസ്തുക്കളെ തിരിച്ചറിയേണ്ടതായിട്ടുണ്ട്.ഇതിനായി ലക്ഷക്കണക്കിന് പരിശീലന ചിത്രങ്ങൾ ആവശ്യമാണ്. ഇത്തരത്തിൽ ഉള്ള ഡാറ്റാ സെറ്റിന്റെ നിർമ്മാണവും പരിപാലനവും വളരെ ചിലവേറിയതും സമയമെടുക്കുന്നതുമാണ്.
അമേരിക്കയിലെ പ്രിൻസ്റ്റൺ യൂണിവേർസിറ്റി പത്തു മില്യൺ ചിത്രങ്ങളുള്ള ഇത്തരം ഒരു ഡേറ്റ സെറ്റ് തയ്യാറാക്കിയിട്ടുണ്ട്. ഇമേജ് നെറ്റ് എന്നാണ് ഇതിന്റെ പേര്.http://www.image-net.org ഇപ്പോഴത്തെ പല വിഷൻ പ്രോജക്ടുകളുടേയും അടിസ്ഥാനം ഈ ഡേറ്റ സെറ്റാണ്.
ചൈനിസ് വംശജയായ ഫെ ഫെ ലി എന്ന വനിതാ പ്രൊഫസറാണ് ഇമേജ് നെറ്റിന് പിന്നിൽ. ഇത് സംന്ധിച്ചു ലീയുടെ ടെഡ് ടോക്ക്
( https://www.ted.com/…/fei_fei_li_how_we_re_teaching_compute… ) തീർച്ചയായും കാണേണ്ട ഒന്നാണ്.
ഒരു ചിത്രത്തിലെ വസ്തുക്കളെ തിരിച്ചറിഞ്ഞു കഴിഞ്ഞാൽ, അതിന് സ്വാഭാവിക ഭാഷയിലുള്ള (natural language) വിവരണം ഉണ്ടാക്കേണ്ടതായി വരും. ഉദാഹരണത്തിന് ഒരു ചിത്രത്തിൽ പൂച്ചയും മേശയും ഉണ്ടെന്നിരിക്കട്ടെ. പൂച്ചയും മേശയും തമ്മിലുള്ള ബന്ധം നമുക്ക് എളുപ്പം തിരിച്ചറിയാൻ പറ്റും. പൂച്ച മേശക്കിഴിലാണ് അല്ലെങ്കിൽ മേശപ്പുറത്താണ് എന്ന് നമുക്ക് ഒറ്റനോട്ടത്തിൽ പറയാൻ കഴിയും. പക്ഷെ കമ്പ്യൂട്ടറുകൾക്ക് ഇത് വിഷമം പിടിച്ചു പ്രശ്നമാണ്.
ഇതു പോലെ ചിത്രത്തിലെ വസ്തുക്കളുടെ ഭാവം, വികാരങ്ങൾ തുടങ്ങിയവ തിരിച്ചറിയാനാവുമോ എന്നൊക്കെയുള്ള ഗവേഷണങ്ങൾ നടക്കുന്നുണ്ട്. മെഷിൻ ലേണിംഗ്, നാച്വറൽ ലാംഗ്വേജ് പ്രോസസിംഗ്, റോബോട്ടിക്സ് തുടങ്ങിയ വിഷയങ്ങൾ വമ്പൻ കുതിച്ചു ചാട്ടത്തിന് തയ്യാറായി നിൽക്കുകയാണ്. സ്വയം ഡ്രൈവ് ചെയ്യുന്ന കാറുകൾ, നിങ്ങളുടെ ചൊൽപടിക്ക് നിൽക്കുന്ന ഗൃഹോപകരണങ്ങൾ, ഉടമസ്ഥന്റെ ഇഷ്ടമറിഞ്ഞ് പ്രവർത്തിക്കുന്ന റോബോട്ടുകൾ ഒക്കെ ഉടൻ എത്തും. പക്ഷെ മനുഷ്യനെപ്പോലെ സകല കാര്യങ്ങളും ചെയ്യാൻ കഴിവുള്ള, വിചാരവും വികാരവുമുള്ള ഒരു ജനറൽ പർപസ് യന്തിരനിലേക്ക് ഇനിയും ഒരുപാട് കാതം ദുരമുണ്ട്.