Напредокот во Computer Vision Propel Transportation Autonomy

Визијата е моќен човечки сетилен влез. Овозможува сложени задачи и процеси кои ги земаме здраво за готово. Со зголемувањето на AoT™ (Автономија на нештата) во различни апликации, кои се движат од транспорт и земјоделство до роботика и медицина, улогата на камерите, компјутерите и машинското учење во обезбедувањето визија и сознание слични на човекот станува значајна. Компјутерската визија како академска дисциплина се зафати во 1960-тите, првенствено на универзитетите ангажирани во новото поле на вештачка интелигенција (ВИ) и машинско учење. Драматично напредуваше во следните четири децении бидејќи беа постигнати значителен напредок во полупроводничките и компјутерските технологии. Неодамнешниот напредок во длабокото учење и вештачката интелигенција дополнително ја забрзаа примената на компјутерската визија за да се обезбеди перцепција и спознание на околината во реално време, ниска латентност, овозможувајќи автономија, безбедност и ефикасност во различни апликации. Транспортот е една од областите што има значителна корист.

LiDAR (Light Detection and Ranging) е активен пристап за оптичко снимање кој користи ласери за одредување на 3D околината околу објектот. Тоа е една од технологиите кои решенијата за компјутерска визија (кои се потпираат чисто на амбиенталната светлина и не користат ласери за 3D перцепција) се обидуваат да ја нарушат. Вообичаената тема е дека на човечките двигатели не им е потребен LiDAR за перцепција на длабочина, така што не треба ниту на машините. Тековни комерцијални карактеристики за автономно возење L3 (целосна автономија во одредени географски места и временски услови, со возачот подготвен да ја преземе контролата за неколку секунди) производи денес користете LiDAR. Чисто техниките базирани на визија сè уште не можеа да ја понудат оваа способност комерцијално.

ОГЛАС

ТеслаTSLA
е доминантен поборник за користење на пасивна компјутерска визија базирана на камера за да се обезбеди автономија на патнички возила. За време на неодамнешниот настан на компанијата за Денот на вештачката интелигенција, Илон Маск и неговите инженери обезбедија импресивна презентација на неговата вештачка интелигенција, управување со податоци и способности за пресметување кои ја поддржуваат, меѓу другите иницијативи, функцијата Целосно самостојно возење (FSD) на повеќе модели на Tesla. FSD бара човечкиот возач постојано да биде вклучен во задачата за возење (што е во согласност со автономијата на L2). Во моментов, оваа опција е достапна на 160,000 возила купени од клиенти во САД и Канада. Пакетот од 8 камери на секое возило обезбедува мапа на зафатеност од 360°. Податоците од камерата (и други) од овие возила се користат за обука на нејзината невронска мрежа (која користи автоматско означување) за препознавање предмети, зацртување на потенцијалните траектории на возилото, избирање на оптимални и активирање на соодветните контролни дејства. Во текот на изминатите 75 месеци се случија ~ 12 илјади ажурирања на невронската мрежа (~1 ажурирање на секои 7 минути), бидејќи постојано се собираат нови податоци и се откриваат грешки при етикетирање или грешки при маневрирање. Обучената мрежа ги извршува активностите за планирање и контрола преку вградена, непотребна архитектура на наменска компјутерска електроника. Tesla очекува FSD на крајот да доведе до автономни возила (AVs), кои обезбедуваат целосна автономија во одредени домени на оперативниот дизајн, без потреба од ангажман на човечки возач (исто така познат како автономија L4).

Други компании како Phiar, Helm.ai и NODAR се, исто така, ги извршуваат авенијата за компјутерска визија. NODAR има за цел значително да го прошири опсегот на слики и 3D перцепцијата на стерео-камерите со учење да се приспособува на неусогласеноста на камерата и ефектите на вибрации преку патентирани алгоритми за машинско учење. Неодамна собра 12 милиони долари за продуктизација на својот водечки производ, Hammerhead™, кој користи „надворешни“ камери од автомобилска класа и стандардни компјутерски платформи.

Освен цената и големината, чест аргумент против користењето на LiDAR е тоа што има ограничен опсег и резолуција во споредба со камерите. На пример, денес се достапни LiDAR со опсег од 200 m и 5-10 M точки/секунда (PPS слично на резолуцијата). На 200 m, малите пречки како тули или остатоци од гуми ќе регистрираат многу малку поени (можеби 2-3 во вертикална и 3-5 во хоризонтална насока), што го отежнува препознавањето на предметите. Работите стануваат уште погруби на подолги растојанија. За споредба, стандардните мегапиксели камери кои работат на 30 Hz можат да генерираат 30M пиксели/секунда, овозможувајќи супериорно препознавање на објекти дури и на долги дострели. Понапредните камери (12 M пиксели) можат да го зголемат ова уште повеќе. Прашањето е како да се искористат овие огромни податоци и да се произведе активна перцепција со латенции на ниво на милисекунда, мала потрошувачка на енергија и деградирани услови на осветлување.

ОГЛАС


Recogni, компанија со седиште во Калифорнија, се обидува да го реши овој проблем. Според извршниот директор Марк Болито, неговата мисија е да „обезбедуваат натчовечка визуелна перцепција за целосно автономни возила.“ Компанијата е основана во 2017 година, до денес има собрано 75 милиони долари и има 70 вработени. RK Anand, стипса на Juniper Networks, е еден од ко-основачите и главен директор за производи. Тој верува дека користењето на камери со повисока резолуција, со динамички опсег > 120 dB, кои работат со високи стапки на слики (на пример, OnSemi, Sony и Omnivision) ги обезбедува податоците потребни за создавање 3D информации со висока резолуција, што е од клучно значење за реализација на AV. Овозможувачите за ова се:

  1. Прилагодено дизајнирани ASIC за ефикасно обработување на податоците и производство на точни и 3D мапи со висока резолуција на околината на автомобилот. Тие се направени на процес TSMC 7 nm, со големина на чип од 100 mm², кои работат на фреквенција од 1 GHz.
  2. Комерцијални алгоритми за машинско учење за обработка на милиони точки на податоци офлајн за да се создаде обучена невронска мрежа, која потоа може да работи ефикасно и да учи континуирано. Оваа мрежа обезбедува перцепција и вклучува класификација и детекција на објекти, семантичка сегментација, откривање лента, сообраќајни знаци и препознавање на семафори
  3. Минимизирање на операциите за складирање и множење надвор од чипови кои се интензивни на енергија и создаваат висока латентност. Дизајнот ASIC на Recogni е оптимизиран за логаритамска математика и користи собирање. Понатамошната ефикасност се реализира со оптимално групирање на тежините во обучената нервна мрежа.

За време на фазата на обука, комерцијален LiDAR се користи како приземјена вистина за обука на податоци за стерео камера со висока резолуција и висок динамички опсег за да се извлечат информации за длабочина и да се направат робусни против неусогласеност и ефекти на вибрации. Според г-дин Ананд, нивната имплементација на машинско учење е толку ефикасна што може да ги екстраполира проценките на длабочината надвор од опсезите за обука обезбедени со калибрацијата LiDAR (која ја обезбедува вистината на земјата до опсег од 100 m).

ОГЛАС

Податоците за обука погоре беа спроведени во текот на денот со стерео пар камери од 8.3 мегапиксели кои работат со фреквенција од 30 Hz (~ 0.5 Б пиксели во секунда). Ја демонстрира способноста на обучената мрежа да извлече 3D информации во сцената над опсегот од 100 m со кој беше обучен. Решението на Recogni исто така може да го екстраполира своето учење со дневни податоци до ноќни перформанси (Слика 2).

ОГЛАС

Според г-дин Ананд, податоците за опсегот се точни до 5% (на долги дострели) и блиску до 2% (на пократки опсези). Решението обезбедува 1000 TOPS (трилиони операции во секунда) со латентност од 6 ms и потрошувачка на енергија од 25 W (40 TOPS/W), што ја предводи индустријата. Натпреварувачите кои користат математика со цели броеви се > 10X пониски на оваа метрика. Решението на Recogni моментално се тестира кај повеќе добавувачи на автомобилски нивоа 1.

Пророкуваат („Предвидување и гледање каде е дејството“), со седиште во Франција, ги користи своите камери засновани на настани за AV, напредни системи за помош на возачот (ADAS), индустриска автоматизација, потрошувачки апликации и здравствена заштита. Основана во 2014 година, на компанијата неодамна го затвори своето финансирање од C круг од 50 милиони долари, со вкупно собрани 127 милиони долари до денес. Xiaomi, водечки производител на мобилни телефони, е еден од инвеститорите. Целта на Prophesee е да имитира човечка визија во која рецепторите во мрежницата реагираат на динамична информација. Човечкиот мозок се фокусира на обработка на промените во сцената (особено за возење). Основната идеја е да се користат архитектури на камера и пиксели кои детектираат промени во интензитетот на светлината над прагот (настан) и ги обезбедуваат само овие податоци во пресметковниот оџак за понатамошна обработка. Пикселите работат асинхроно (не врамени како кај обичните CMOS камери) и со многу поголеми брзини бидејќи не мора да интегрираат фотони како во конвенционална камера базирана на рамка и да чекаат целата рамка да го заврши ова пред да се прочитаат податоците. Предностите се значајни - помал пропусен опсег на податоци, латентност на одлуки, складирање и потрошувачка на енергија. Првиот сензор за вид на настани базиран на VGA од комерцијален степен на компанијата се одликува со висок динамички опсег (>120 dB), мала потрошувачка на енергија (26 mW на ниво на сензор или 3 nW/настан). Лансирана е и HD (висока дефиниција) верзија (заеднички развиена со Sony), со водечка големина на пиксели во индустријата (< 5 μm).

ОГЛАС

Овие сензори го формираат јадрото на платформата за сензори Metavision®, која користи вештачка интелигенција за да обезбеди паметна и ефикасна перцепција за апликации за автономија и е под евалуација од повеќе компании во транспортниот простор. Освен перцепцијата нанапред за AV и ADAS, Prophesee е активно ангажиран со клиенти за следење на возачот во кабината за апликациите L2 и L3, видете Слика 4:

Можностите за автомобили се профитабилни, но циклусите на дизајнирање се долги. Во текот на изминатите две години, Prophesee забележа значителен интерес и влечење во просторот за машинско визија за индустриски апликации. Тие вклучуваат броење со голема брзина, проверка на површината и следење на вибрации.

ОГЛАС

Prophesee неодамна најави соработка со водечки развивачи на системи за машинско визија за искористување на можностите во индустриската автоматизација, роботиката, автомобилската индустрија и IoT (Интернет на нештата). Други непосредни можности се корекција на заматување на сликата за мобилни телефони и AR/VR апликации. Овие користат сензори со понизок формат од оние што се користат за подолготрајни ADAS/AV можности, трошат уште помала енергија и работат со значително помала латентност.


Израел е водечки иноватор во високата технологија, со значителни вложувања и активно опкружување за стартување. Од 2015 година, се случија околу 70 милијарди американски долари инвестиции предводени од вложување во технолошкиот сектор. Дел од ова е во областа на компјутерската визија. Mobileye ја предводеше оваа револуција во 1999 година кога Амнон Шашуа, водечки истражувач за вештачка интелигенција на Хебрејскиот универзитет, ја основаше компанијата за да се фокусира на перцепцијата базирана на камера за ADAS и AVs. Компанијата поднесе барање за ИПО во 2014 година и беше купена од ИнтелINTC
во 2017 година за 15 милијарди долари. Денес, лесно е водечки играч во компјутерската визија и доменот AV и неодамна ја објави својата намера да поднесе барање за ИПО и да стане независен ентитет. Mobileye имаше приходи од 1.4 милијарди долари годишно и скромни загуби (75 милиони долари). Обезбедува способности за компјутерска визија на 50 автомобилски OEM кои го распоредуваат на 800 модели на автомобили за способности ADAS. Во иднина, тие имаат намера да водат во автономијата на возилото L4 (не е потребен возач) користејќи ја оваа експертиза за компјутерска визија и можностите LiDAR базирани на силиконската фотоничка платформа на Intel. Вредноста на Mobileye се проценува на ~ 50 милијарди долари кога конечно ќе излезат на берзата.

ОГЛАС

Капитал на Шампел, со седиште во Ерусалим, е во првите редови на инвестирање во компании кои развиваат производи базирани на компјутерска визија за различни апликации од транспорт и земјоделство до безбедност и безбедност. Амир Вајтман е ко-основач и управен партнер и ја започна својата компанија за вложување во 2017 година. Првиот фонд инвестираше 20 милиони долари во 14 компании. Една од нивните инвестиции беше во Innoviz, кој излезе на берза преку спојување на SPAC во 2018 година и стана LiDAR еднорог. Предводен од Омер Кеилаф (кој потекнува од технолошката единица на разузнавачкиот корпус на израелските одбранбени сили), компанијата денес е лидер во распоредувањето на LiDAR за ADAS и AV, со повеќекратни победи во дизајнот кај BMW и Volkswagen.

Вториот фонд на Шампел Капитал (Impact Deep Tech Fund II) беше инициран во јануари 2022 година и до денес собра 30 милиони долари (целта е 100 милиони долари до крајот на 2022 година). Доминантен фокус е на компјутерската визија, со 12 милиони долари распоредени во пет компании. Три од нив користат компјутерска визија за транспорт и роботика.

TankU, со седиште во Хаифа, започна со работа во 2018 година и собра 10 милиони долари финансирање. Ден Валдхорн е извршен директор и дипломирал на Единицата 8200, елитна високотехнолошка група во рамките на израелските одбранбени сили одговорна за разузнавање на сигналот и дешифрирање на кодови. Производите SaaS (Софтвер како услуга) на TankU ги автоматизираат и обезбедуваат процесите во сложени надворешни средини кои ги сервисираат возилата и возачите. Овие производи ги користат сопствениците на возните паркови, приватни автомобили, станици за полнење гориво и електрична енергија за да спречат кражби и измами во автоматизираните финансиски трансакции. Услугите за гориво за возила генерираат ~ 2 T $ глобални приходи годишно, од кои сопствениците на приватни и комерцијални возила трошат 40% или 800 милијарди долари. Трговците на мало и сопствениците на флота губат ~ 100 милијарди долари годишно поради кражба и измама (на пример, користење на картичка за гориво за возен парк за неовластени приватни возила). Измама CNP (не е присутна картичката) и манипулација/крадење гориво се дополнителни извори на загуба, особено кога се користат детали за украдена картичка во мобилни апликации за плаќања.

ОГЛАС

Производот TUfuel на компанијата го олеснува безбедното плаќање со еден допир, ги блокира повеќето видови на измами и ги предупредува клиентите кога се сомневаат во измама. Тоа го прави врз основа на мотор со вештачка интелигенција обучен на податоци од постоечките CCTV-и во овие објекти и податоци за дигитални трансакции (вклучувајќи POS и други задни податоци). Параметрите како траекторијата и динамиката на возилото, ID на возилото, времето на патување, километражата, времето на полнење гориво, количината на гориво, историјата на горивото и однесувањето на возачот се некои атрибути кои се следат за да се открие измама. Овие податоци, исто така, им помагаат на трговците на мало да ја оптимизираат работата на страницата, да ја подобрат лојалноста на клиентите и да распоредат маркетинг алатки засновани на визија. Според извршниот директор Ден Валдхорн, нивното решение открива 70% од возниот парк, 90% од кредитните картички и 70% од настаните за измами поврзани со манипулации.

Сонол е компанија за енергетски услуги која поседува и управува со мрежа од 240 станици и продавници низ Израел. TUfuel е распореден на нивните локации и покажа подобрена безбедност, спречување измами и лојалност на клиентите. Испитувањата на производите се во тек во САД во соработка со водечки глобален снабдувач на бензински пумпи и опрема за продавници. Слични иницијативи се во тек и во Африка и Европа.

ОГЛАС

со седиште во Тел Авив ИТЦ е основана во 2019 година од академици за машинско учење од Универзитетот Бен-Гурион. ITC создава SaaS производи кои „Мерете го протокот на сообраќај, предвидете го метежот и ублажете го преку паметна манипулација со семафорите – пред да почнат да се создаваат метеж“. Слично на TankU, користи податоци од камери надвор од полица (веќе инсталирани на бројни сообраќајни раскрсници) за да добие податоци за сообраќајот во живо. Податоците од илјадници камери низ градот се анализираат, а параметрите како типот на возилото, брзината, насоката на движење и редоследот на типовите возила (камиони наспроти автомобили) се извлекуваат преку примена на сопственички алгоритми за вештачка интелигенција. Симулациите предвидуваат проток на сообраќај и потенцијални ситуации на сообраќаен метеж до 30 минути однапред. Семафорите се приспособуваат со помош на овие резултати за непречено одвивање на сообраќајот и спречување на застојот.

За обука на системот за вештачка интелигенција потребни се еден месец визуелни податоци низ типичен град и вклучува комбинација од надгледувано и ненадгледувано учење. Решението на ITC е веќе распоредено во Тел-Авив (рангирана на 25-то место во најпренатрупаните градови во светот во 2020 година), со илјадници камери распоредени на стотици раскрсници контролирани од семафори. Системот на ITC моментално управува со 75K возила, што се очекува да продолжи да расте. Компанијата инсталира а слична способност во Луксембург и започнува со испитувања во поголемите американски градови. На глобално ниво, неговото решение управува со 300,000 возила со оперативни локации во Израел, САД, Бразил и Австралија. Двир Кениг, CTO, е страстен за решавање на овој проблем - да им го врати личното време на луѓето, да ги намали стакленички гасови, да ја подобри севкупната продуктивност и што е најважно, да ги намали несреќите на пренатрупани раскрсници. Според г-дин Кениг, „Нашите распоредувања покажуваат намалување на сообраќајниот метеж за 30%, намалувајќи го непродуктивното време на возење, стресот, потрошувачката на гориво и загадувањето“.

ОГЛАС

Роботика во затворен простор беше основана во 2018 неодамна собра 18 милиони долари финансирање. Компанијата, со седиште во близина на Тел-Авив, Израел, развива и продава решенија за автономни беспилотни летала за внатрешна безбедност, безбедност и следење на одржување. Извршниот директор и ко-основач, Дорон Бен-Давид, има значително искуство во роботиката и аеронаутиката акумулирано во IAIИАИ
(главен главен изведувач на одбраната) и МАФАТ (напредна истражувачка организација во рамките на израелското Министерство за одбрана), која е слична на ДАРПА во САД. Зголемените инвестиции во паметни згради и пазари за комерцијална безбедност ја поттикнуваат потребата за автономни системи кои можат да користат компјутерска визија и други сензорни влезови во мали и големи внатрешни комерцијални простори (канцеларии, центри за податоци, магацини и малопродажни простори). Indoor Robotics го таргетира овој пазар со користење дронови во затворени простории опремени со камери и сензори за термички и инфрацрвен опсег.

Офир Бар-Левав е главен деловен директор. Тој објаснува дека недостатокот на ГПС ги попречил дроновите во затворени простории да се локализираат во зградите (обично негиран или неточен од ГПС). Дополнително, недостасуваа удобни и ефикасни решенија за приклучување и напојување. Indoor Robotics го решава ова со четири камери поставени на дрон (горе, долу, лево, десно) и едноставни сензори за опсег што прецизно мапираат затворен простор и неговата содржина. Податоците од камерата (камерите обезбедуваат податоци за локализација и мапирање) и термичките сензори (исто така монтирани на дронот) се анализираат со систем за вештачка интелигенција за да се откријат потенцијалните проблеми со безбедноста, безбедноста и одржувањето и да се предупреди клиентот. Беспилотните летала се напојуваат преку „плочка за приклучување“ поставена на таванот, која заштедува вреден простор на подот и овозможува собирање податоци додека се полни. Финансиските предности од автоматизирањето на овие секојдневни процеси каде што човечкиот труд е сложен и скап во однос на регрутирање, задржување и обука се очигледни. Користењето воздушни беспилотни летала наспроти роботи од земја, исто така, има значајни предности во однос на капиталните и оперативните трошоци, подобро искористување на просторот на подот, слобода на движење без наидување на пречки и ефикасност на снимање на податоци од камерата. Според г-дин Бар-Левав, ТАМ (Вкупниот адресибилен пазар) на интелигентните безбедносни системи на затворен простор ќе изнесува 80 милијарди долари до 2026 година. Клучните локации на клиентите денес вклучуваат магацини, центри за податоци и канцелариски кампуси на водечките светски корпорации.

ОГЛАС


Компјутерската визија ја револуционизира играта на автономија – во автоматизација на движењето, безбедност, паметно следење на згради, откривање измами и управување со сообраќајот. Моќта на полупроводниците и вештачката интелигенција се моќни овозможувачи. Откако компјутерите ќе го совладаат овој неверојатен сензорен модалитет на скалабилен начин, можностите се бескрајни.

Извор: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/