• <input id="mmiwo"><label id="mmiwo"></label></input>
  • <code id="mmiwo"><label id="mmiwo"></label></code>
  • 安防峰會
    您正在使用IE低版瀏覽器,為了您的雷鋒網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    人工智能 正文
    發私信給雷鋒字幕組
    發送

    0

    計算機視覺(及卷積神經網絡)簡史

    本文作者:雷鋒字幕組 2019-03-20 10:19
    導語:盡管計算機視覺近期突然興起(重大突破時刻發生在2012年,那時AlexNet網絡贏得ImageNet的冠軍),它確實不是以一個新的科學領域。

    計算機視覺(及卷積神經網絡)簡史計算機視覺(及卷積神經網絡)簡史

    本文為 AI 研習社編譯的技術博客,原標題 :

    A Brief History of Computer Vision (and Convolutional Neural Networks)

    作者 | Rostyslav Demush

    翻譯 | 鱷魚艾德克、小先生愛你         

    校對 | 醬番梨        審核 | 約翰遜·李加薪       整理 | 立魚王

    原文鏈接:

    https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3

    計算機視覺(及卷積神經網絡)簡史

    盡管計算機視覺近期突然興起(重大突破時刻發生在2012年,那時AlexNet網絡贏得ImageNet的冠軍),它確實不是以一個新的科學領域。

    世界范圍內的計算機方面的科學家在過去的六十年一直嘗試尋找使得機器能夠在視覺數據中提取出含義,計算機視覺的歷史是非常令人著迷的,這個方面是大多數人所不了解的。

    在這篇文章中,我將會嘗試介紹現代計算機視覺系統是如何通過卷積神經網絡驅動的。

    我將會從一個二十世紀五十年代出現的,和軟件工程毫不相關的作品開始。

    計算機視覺中最有影響力的論文之一由兩位神經生理學家David Hubel和Torsten Wiesel于1959年發表。他們的出版物題為“貓的紋狀皮層中單個神經元的感受野”,描述了視覺皮層神經元的核心反應特性。以及貓的視覺體驗如何塑造其皮質結構。

    兩人進行了一些非常精細的實驗。他們將電極放入麻醉貓腦的初級視皮層區域,觀察或至少試圖在該區域進行神經元活動,同時向動物展示各種圖像。他們的第一次努力沒有結果——他們無法讓神經細胞對任何事情做出反應。

    然而,在研究的幾個月后,他們注意到,一個神經元在他們將一個新的幻燈片滑入投影機時被發射,而不是偶然。這是一次幸運的意外。經過一些初步的混淆,Hubel和Wiesel意識到讓神經元興奮的是由玻璃片的鋒利邊緣的陰影所產生的線條的運動。

    計算機視覺(及卷積神經網絡)簡史計算機視覺(及卷積神經網絡)簡史

    https://goodpsychology.wordpress.com/2013/03/13/235/

    研究人員通過實驗發現初級視覺皮層含有許多簡單和復雜的神經元,并且視覺處理過程總是從類似特定方向邊緣的這類簡單結構開始。

    聽起來是不是挺熟悉?這就是隱藏于深度學習之后的核心準則。

    計算機視覺歷史中下一個值得關注的是第一臺數字圖像掃描儀的發明。

    在1959年,Russell和他的同學研制了一臺可以把圖片轉化為被二進制機器所理解的灰度值的儀器。正是由于他們的成果,我們現在能夠用不同的方法處理數字圖像。

    第一張被數字掃描的圖片是Russell的嬰兒照。它僅僅是一副5cm*5cm的關于30976(176*176)個像素所構成的圖片,但它變得舉世聞名是因為原始圖片被保存在波特蘭藝術博物館。

    計算機視覺(及卷積神經網絡)簡史計算機視覺(及卷積神經網絡)簡史

    https://www.engadget.com/2010/06/30/russell-kirsch-helped-create-them-now-he-wants-to-kill-square-p/

    接下來討論Lawrence Roberts的“三維固體的機器感知”,這本在1963年出版的書被廣泛認為是現代計算機視覺的前導之一。

    在他的博士論文中,Larry描述了從二維圖片中推導三維信息的過程。他把視覺世界所看到的簡化為幾何形狀。

    計算機視覺(及卷積神經網絡)簡史計算機視覺(及卷積神經網絡)簡史

    http://www.packet.cc/files/mach-per-3D-solids.html

    他在論文中描述和編寫程序的目的是將二維圖像處理成線條,然后利用這些線條建立起三維重示,最終顯示物體移除了所有隱藏線條的三維結構。

    在三維到二維展示之后,Larry寫下了二維到三維的構造是計算機輔助三維系統的一個良好開端,他完全正確。

    我們應該注意到Lawrence并沒有在計算機視覺這方面花費太多精力,相反他加入了DARPA,現在以因特網發明被人所熟知的項目。

    在1960s,AI成為了一門學科,一些研究人員關于這塊領域的未來非常樂觀,他們相信用不了25年時間就能造出和人類一樣智能的計算機。同一時期,MITAI實驗室的Seymour Papert教授決定啟動夏季視覺項目,并在幾個月內解決機器視覺問題。

    他認為一小群MIT的學生在夏天開發了視覺系統的重要組成部分。Seymour和Gerald Sussman協調學生將設計一個可以自動執行背景/前景分割,并從真實世界的圖像中提取非重疊物體的平臺。

    這個課題沒有成功,50年之后,我們仍然在向解決計算機視覺前進。據許多人說,這個項目是計算機視覺作為一個科學領域的正式誕生的標志。

    在1982年,一個英國神經學家David Marr發表了另一篇有影響的論文-“愿景:對人類表現和視覺信息處理的計算研究”。

    基于Hubel和Wiesel的想法(他們發現視覺處理不是從整體對象開始),David給了我們下一個重要的見解:他確定了這個愿景是等級的,視覺系統的主要功能是創建環境的3維表示,以便我們可以與之交互。

    他介紹了一個視覺框架,其中檢測邊緣,曲線,角落等的低級算法被用作對視覺數據進行高級理解的鋪墊。

    David Marr的視覺代表框架包括:

    • 圖像的原始草圖,其中表示邊緣,條形,邊界等(這顯然受到Hubel和Wiesel研究的啟發);

    • 2?維的草圖表示,其中表面,圖像上的深度和不連續性信息拼接在一起;

    • 根據曲面和體積基元分層組織的3維模型。

    David Marr的成果在當時是開創性的,但它非常抽象和高級。 它沒有包含任何可以在人工視覺系統中使用的數學建模的信息,也沒有提到任何類型的學習過程。

    大約在同一時間,日本計算機科學家Kunihiko Fukushima也受到Hubel和Wiesel的啟發,建立了一個自組織的簡單和復雜細胞的人工網絡,可以識別模式并且不受位置變化的影響。 網絡Neocognitron包括幾個卷積層(通常是矩形的),他的感受野具有權重向量(稱為濾波器)。

    這些濾波器的功能是在輸入值的二維數組(例如圖像像素)上滑動,并在執行某些計算后,產生激活事件(2維數組),這些事件將用作網絡后續層的輸入。

    Fukushima的Neocognitron可以說是第一個神經網絡; 它是今天的神經網絡的祖父。

    幾年后,在1989年,一位年輕的法國科學家Yann LeCun將一種后向傳播風格學習算法應用于Fukushima的卷積神經網絡結構。 在完成該項目幾年后,LeCun發布了LeNet-5--這是第一個引入我們今天仍在CNN中使用的一些基本成分的現代網絡。

    在他面前的Fukushima,LeCun決定將他的發明應用于角色識別,甚至發布了用于閱讀郵政編碼的商業產品。

    除此之外,他的工作創建手寫數字的MNIST數據集 - 這可能是機器學習中最著名的基準數據集。

    1997年,一位伯克利教授Jitendra Malik(以及他的學生Jianbo Shi)發表了一篇論文,描述了他試圖解決感性分組的問題。

    研究人員試圖讓機器使用圖論算法將圖像分割成合理的部分(自動確定圖像上的哪些像素屬于一起,并將物體與周圍環境區分開來)。

    他們沒有走得太遠; 感知分組的問題仍然是計算機視覺專家正在努力解決的問題。

    在1990s,計算機視覺作為一個領域,在很大程度上改變了它的關注點。

    大約在1999年,許多研究人員停止嘗試通過創建它們的3維模型(Marr提出的路徑)來重建對象,而是將他們的努力轉向基于特征的對象識別。 David Lowe的作品“來自局部尺度不變特征的物體識別”特別表明了這一點。

    文章描述了一種視覺識別系統,該系統使用對旋轉,位置和部分照明變化不變的局部特征。 根據Lowe的說法,這些特征有點類似于在顳下皮層中發現的神經元的特性,這些特征涉及靈長類視覺中的物體檢測過程。

    不久之后,在2001年,Paul Viola 和Michael Jones推出了第一個實時工作的人臉檢測框架。 雖然不是基于深度學習,但算法仍然具有深刻的學習風格,因為在處理圖像時,它了解哪些特征(非常簡單,類似Haar的特征)可以幫助定位面部。

    計算機視覺(及卷積神經網絡)簡史計算機視覺(及卷積神經網絡)簡史

    https://www.researchgate.net/figure/Haar-features-used-for-Viola-Jones-face-detection-method_fig1_268348020

    Viola / Jones面部探測器仍被廣泛使用。 它是一個強大的二元分類器,由幾個弱分類器構成; 在學習階段,在這種情況下非常耗時,使用Adaboost訓練弱級分類器的級聯。

    為了找到感興趣的對象(面部),模型將輸入圖像分割成矩形塊并將它們全部提交給弱檢測器的級聯。 如果補丁通過級聯的每個階段,則將其歸類為正數,否則,算法會立即拒絕它。 該過程在各種規模上重復多次。

    該論文發表五年后,Fujitsu 發布了一款具有實時人臉檢測功能的相機,該功能依賴于Viola / Jones算法。

    隨著計算機視覺領域不斷發展,社區迫切需要基準圖像數據集和標準評估指標來比較其模型的性能。

    2006年,Pascal VOC項目啟動。 它提供了用于對象分類的標準化數據集以及用于訪問所述數據集和注釋的一組工具。 創始人還在2006年至2012年期間舉辦了年度競賽,該競賽允許評估不同對象類識別方法的表現。

    2009年,另一個重要的基于特征的模型由Pedro Felzenszwalb,David McAllester和Deva Ramanan  - 可變形零件模型開發。

    從本質上講,它將對象分解為部分集合(基于Fischler和Elschlager在20世紀70年代引入的圖像模型),在它們之間強制實施一組幾何約束,并將被模擬的潛在對象中心視為潛在變量。

    DPM在對象檢測任務(使用邊界框用于本地化對象)和擊敗模板匹配以及當時流行的其他對象檢測方法方面表現出色。

    你可能聽說過的ImageNet大規模視覺識別競賽(ILSVRC)始于2010年。繼PASCAL VOC之后,它也每年舉辦一次,包括一個賽后研討會,參與者討論他們從中學到了什么。 最具創意的作品。

    與只有20個對象類別的Pascal VOC不同,ImageNet數據集包含超過一百萬個圖像,手動清理,跨越1k個對象類。

    自成立以來,ImageNet挑戰已成為跨越大量對象類別的對象類別分類和對象檢測的基準。

    在2010年和2011年,ILSVRC的圖像分類錯誤率徘徊在26%左右。 但是自從2012年,來自多倫多大學的一個團隊進入了一個卷積神經網絡模型(AlexNet)進入競爭,這改變了一切。 該模型與Yann LeCun的LeNet-5結構相似,誤差率為16.4%。

    這是CNN的突破性時刻。

    在接下來的幾年中,ILSVRC中圖像分類的錯誤率下降到幾個百分點,自2012年以來,獲勝者一直是卷積神經網絡。

    正如我前面提到的,自20世紀80年代以來,卷積神經網絡已經存在。 那么為什么它們需要這么長時間才能變得流行呢?

    那么,我們當前的CNN流行有三個因素:

    由于摩爾定律,與20世紀90年代發布LeNet-5相比,我們的機器現在速度更快,功能更強大。

    NVIDIA的可并行化圖形處理單元幫助我們在深度學習方面取得了重大進展。

    最后,今天的研究人員可以訪問大型,標記的高維視覺數據集(ImageNet,Pascal等)。 因此,他們可以充分培養他們的深度學習模型,避免過度擬合。

    結論

    盡管最近取得了令人印象深刻的進展,但我們仍然沒有接近解決計算機視覺問題。 然而,已經有多家醫療機構和企業找到了將由CNN驅動的計算機視覺系統應用于現實問題的方法。 這種趨勢不太可能很快停止。

    想要繼續查看該篇文章相關鏈接和參考文獻?

    點擊【計算機視覺(及卷積神經網絡)簡史】或長按下方地址:

    https://ai.yanxishe.com/page/TextTranslation/1518

    AI研習社今日推薦雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網

    李飛飛主講王牌課程,計算機視覺的深化課程,神經網絡在計算機視覺領域的應用,涵蓋圖像分類、定位、檢測等視覺識別任務,以及其在搜索、圖像理解、應用、地圖繪制、醫學、無人駕駛飛機和自動駕駛汽車領域的前沿應用。

    加入小組免費觀看視頻:https://ai.yanxishe.com/page/groupDetail/19

    計算機視覺(及卷積神經網絡)簡史


    雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知

    分享:
    相關文章

    文章點評:

    表情
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說
    11选5下期推算方法