Uudne ruumilis-ajaline pidev viipekeele tuvastamine, kasutades tähelepanelikku mitme funktsiooniga võrku (1)
Jun 01, 2023
Abstraktne: Videovoogudes püüame õigesti tuvastada segmenteerimata märgid, mis on seotud pideva viipekeeletuvastusega (CSLR). Hoolimata selles valdkonnas pakutavate süvaõppemeetodite arvu suurenemisest, keskendub enamik neist peamiselt ainult RGB-funktsiooni, kas täiskaadri kujutise või käte ja näo detailide kasutamisele. Teabe nappus CSLR-i koolitusprotsessi jaoks piirab tugevalt võimalust õppida videosisendkaadreid kasutades mitut funktsiooni. Lisaks võib kõigi video kaadrite kasutamine CSLR-i ülesande jaoks viia ebaoptimaalse jõudluseni, kuna iga kaader sisaldab erineval tasemel teavet, sealhulgas müra järelduse põhifunktsioone. Seetõttu pakume välja uudse ajaruumilise pideva viipekeele tuvastamise, kasutades tähelepanelikku mitme funktsiooniga võrku, et täiustada CSLR-i, pakkudes täiendavaid võtmepunkti funktsioone. Lisaks kasutame ruumiliste ja ajaliste moodulite tähelepanukihti, et rõhutada korraga mitut olulist funktsiooni. Mõlema CSLR-i andmestiku katsetulemused näitavad, et pakutud meetod saavutab parema jõudluse võrreldes praeguste nüüdisaegsete meetoditega vastavalt 0,76 ja 20,56 WER-i skoori CSL-i ja PHOENIX-i andmekogumite puhul.

Supermani ürtide cistanche
Märksõnad: pidev viipekeel; ruumiline; ajaline; mitme funktsiooniga; võtmepunktid; enesetähelepanu
1. Sissejuhatus
Viipekeel eelistab suhtlemisel käsitsi žeste, kehakeelt ja huulte liigutusi heli asemel [1,2]. Tavaliselt kasutavad viipekeelt kurdid või vaegkuuljad, kuid seda saab kasutada ka olukordades, kus helisid on võimatu või raske kuulda. Seetõttu on vaja viipekeeletuvastussüsteemi (SLR), kuna see aitab ühendada vaegkuuljaid ja mittekuuljaid.
Viimastel aastatel on teadlased peegelkaameratele palju tähelepanu pööranud, kuna see pakub rikkalikku visuaalset teavet. Viimased peegelkaamerate uuringud on tavaliselt rühmitatud isoleeritud viipekeeletuvastuseks (ISLR) või pidevaks viipekeeletuvastuseks (CSLR). Mitmed teosed käsitlevad ainult ISLR-i [3,4], teised aga analüüsivad ainult lihtsamaid ülesandeid, näiteks staatilisi žeste tähestiku tuvastamiseks [5]. Samal ajal on uusimad meetodid tavaliselt keerulisemad, kuna need lahendavad CSLR-i ülesandeid [6–8]. Võrreldes ISLR-iga on CSLR keerulisem probleem, kuna see hõlmab lausete rekonstrueerimist.

Cistanche tee
Cistanche deserticola teetoodete vaatamiseks klõpsake siin
【Küsi lisa】 E-post:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
CSLR-uuringute järele on endiselt suur nõudlus, kuna selle rakendamine on tihedalt seotud reaalse maailma igapäevaste tingimustega. Selle lähenemisviisi eesmärk on tuvastada videoseerias esinevad läikete seeriad ilma selge segmenteerimiseta või üldse mitte. Lisaks hõlmab see palju masinõppe uuringuid ja põhjalikku arusaamist inimkäitumisest. Näiteks hõlmab see inimese liikumise jälgimist [9], žestide tuvastamist [10] ja näotuvastust [11]. Sellegipoolest on CSLR-i ülesannete täitmisel mitmeid väljakutseid.
Esiteks on andmete kogumine ja annoteerimine CSLR-i jaoks kulukas [12]. See on võib-olla üks väljakutsetest, millega selle arendamisel silmitsi seisab, kuna CSLR on seotud suure võrguga ja andmemaht mõjutab jõudlust tugevalt [13]. Lisaks on mitmed viipekeele jaoks saadaolevad andmekogumid nõrgalt märgistatud [12, 14, 15]. Selle probleemi lahendamiseks on paljudes uuringutes kasutatud nõrgalt kontrollitud lähenemisviisi, lisaks võrguarhitektuurile joonduse ja funktsioonide ekstrakti mooduli rakendamist [12].
Teiseks, võrreldes ISLR-iga, on CSLR keerulisem. Piisav teave saadakse mitme funktsiooni kasutamisega; On tõestatud, et see saavutab parema jõudluse kui ühe funktsiooni kasutamine, nagu on kirjeldatud varasemates töödes [16–18]. Need mitmed funktsioonid koosnevad peamisest tunnusest, milleks on kehakujutis, mis saavutab suurima täpsuse, ja lisafunktsioonidest, nagu poos, pea, vasak käsi ja parem käsi, millel on individuaalse soorituse jaoks madalam täpsus [17,18]. Suure andmemahuga suure võrgu väljaõpetamine on aeganõudev [13]. Sisendvoo lisamine suurendab ka treeninguaega, samas kui täiendavate pildipõhiste funktsioonide kasutamine suurendab kulusid [19]. Seetõttu peame valima olulised omadused, et saaksime tõhusalt treenida.

Hiina ürdi tsitanche
Kolmandaks, videosisendil on järjestuses suur hulk pilte. Mõnel pildil on kiire liikumise tõttu ebaselge käekuju, mis võib viia vale teabeni. Seetõttu kasutab meie pakutud mudel olulise teabe valimiseks enesetähelepanu, mis põhineb [20]-l. Veelgi enam, enesetähelepanu, mida tõestab [21, 22], mõjutab jõudluse parandamist.
Seetõttu pakume kõigi probleemide lahendamiseks välja uudse mudeli, mida nimetatakse uudseks ruumi-ajaliseks tähelepanelikuks mitmefunktsiooniks (STAMF). Järgisime varasemaid töid [17,23], mis on osutunud toimivateks nõrkade annotatsiooniprobleemidega CSLR-i jaoks. Nad konstrueerivad mudeli kolme põhikomponendi abil: esimene on ruumimoodul, teine on ajaline moodul ja kolmas on järjestusõppe moodul. Pakume CSLR-ülesannete täitmiseks tõhusat ja tõhusat mitme funktsiooniga sisendit, kasutades täiskaadri funktsiooni koos võtmepunkti funktsioonidega. Täiskaadri funktsioon esindab põhifunktsioonina kehapilti ja lisafunktsioonina võtmepunkti funktsioone. Peamine omadus on keha poos, sealhulgas käepoos. See kehapoos on kõige tõhusam lisafunktsioon, kuna mõnes töös on tõestatud, et see saavutab kõrgeima täpsuse pärast täiskaadri funktsiooni [17,18]. Samuti kasutame tähelepanumoodulit, mis kasutab [20]-l põhinevat enesetähelepanu, et tabada oluline funktsioon ja aidata järjestuse õppimisel jõudlust parandada.
Selle käsikirja panus on kokku võetud järgmiselt: • Tutvustame järjestusmoodulisse uudset ajalist tähelepanu, et tabada olulisi ajapunkte, mis aitavad kaasa lõppväljundile; • Tutvustame multifunktsionaalset funktsiooni, mis koosneb täiskaadri funktsioonist kaadri RGB väärtusest kui põhifunktsioonist ja võtmepunkti funktsioonidest, mis hõlmavad mudelituvastuse tõhustamiseks lisafunktsioonina kehapoos koos käekuju detailidega; • Kasutame WER-i mõõdikut, et näidata, et meie pakutud STAMF-mudel ületab katsete kaudu mõlema CSLR-i võrdlusandmestiku tipptasemel mudeleid.

Cistanche toidulisand minu lähedal - parandage mälu
2. Seotud teosed
Tehnoloogias on tehtud mitmeid edusamme ja peegelkaamerate kohta on tehtud palju uuringuid. Varasemad uuringud [24–27] uurisid võimalust kasutada ISLR-i, millel on iga sõna segmentimine. Viimastel aastatel on funktsioonide eraldamiseks kasutatud süvaõppepõhiseid meetodeid, kasutades nende tugeva visuaalse esituse tagamiseks konvolutsioonivõrke, kas 2D [28, 29] või 3D [30, 31]. Enamik viipekeele tuvastamise varaseid uuringuid keskendus multimodaalsete omadustega ISLR-ile [30–32], nagu RGB, sügavuskaardid ja skeletid, mis annavad parema jõudluse.
Tänapäeval on CSLR muutunud populaarsemaks, kuigi seda ei ole iga sõna vahel selgelt segmenteeritud. Varasemad tööd kasutavad järjestuse sihtmärgi loomiseks CNN-i funktsioonide ekstraktorit [6,33] ja HMM-i [34]. Mõned hiljutised uuringud CSLR-süsteemide kohta [17,23] on hõlmanud kolme peamist sammu probleemide tuvastamise ülesande täitmisel. Esiteks viisid nad läbi ruumiliste tunnuste ekstraheerimise, seejärel ajalise segmenteerimise ja lõpuks lause sünteesi keelemudeliga [35] või kasutasid järjestusõpet [17, 23]. See järjestuste õppimine kasutas Bi-LSTM-i ja CTC-d, et kaevandada videojadade märkide läike seost. Kuigi see kasutab nõrka annotatsiooni, mis sisaldab segmenteerimata videojadasid märkide läigete määratlemiseks, on need lähenemisviisid näidanud paljutõotavaid tulemusi.
Kõige värskemas seotud CLSR-uuringus, milles rakendati mitme funktsiooniga lähenemisviisi, [17] kasutati aga korraga viit funktsiooni. Mitme funktsiooniga lähenemine on raskem võrreldes vähemate funktsioonide kasutamisega [19]. See lähenemine ei suuda käsitleda ka videojada mürarikkaid kaadreid, millel on ebaselge teave, näiteks kiire liikumise tõttu udune käekuju. Lisaks võib RNN-põhisele järjestusõppele tuginedes tekkida probleeme pikkade järjestustega ja see võib kaotada globaalse konteksti [20].

Cistanche toidulisand minu lähedal - parandage mälu
Praeguse uurimistöö eesmärk on parandada jõudlust, lisades enesetähelepanumehhanismi [21, 22], mis suudab globaalse konteksti õppimiseks käsitleda pikemaid jadasid. Enesetähelepanu põhineb varastel uuringutel [20], mis näitasid, et enesetähelepanu eeliseks on võime tulla toime pikkade sõltuvustega. Selle enesetähelepanu abil on aga lihtsam õppida lühemat teed võrreldes pikema teega, millel on pikad sõltuvused. Eelmistes CLSR-i töödes [21,22] võis enesetähelepanu aidata võrgul seda funktsiooni tõhusamalt õppida.
Seetõttu tutvustame selles artiklis uudset ajaruumilist tähelepanelikku mitme funktsiooni mudelit. See pakutud mudel eraldab tõhusalt olulised funktsioonid ja õpib järjestuse paremini selgeks, andes olulist teavet, kasutades mitme funktsiooni enesetähelepanu mehhanismi. Kõik protsessid viiakse läbi otsast lõpuni.
3. Kavandatud meetod
Selles jaotises kirjeldatakse meie pakutud CSLR-i mudeli põhitehnikaid. Seetõttu alustame seda jaotist meie pakutud mudeli ülevaate selgitamisega. Lisaks pakume üksikasjalikumat teavet iga võtmekomponendi kohta, sealhulgas ruumimooduli, ajalise mooduli ja järjestusõppe mooduli kohta. Lisaks selgitame ka meie pakutud tähelepanumoodulit, et aidata mudelil paremini õppida. Lõpuks saame oma pakutud mudelisse integreerida koolituse ja järelduste tegemise raamistiku.
3.1. Raamistiku ülevaade
Videosisendi korral on meie pakutud mudeli eesmärk ennustada vastav märk õigeks läikelauseks. Esimene moodul genereerib mitu ruumifunktsiooni, nagu täiskaadri ja võtmepunkti funktsioonid video iga T-kaadri jaoks. Seejärel võimaldab ajaline moodul meil eraldada ruumiliste tunnuste ajalisi seoseid mõlema voo kaadrite vahel. Viimase sammuna on ruumilised ja ajalised võrgud ühendatud kahesuunalise pika-lühiajalise mäluga (Bi-LSTM) ja CTC-ga järjestuste õppimiseks ja järelduste tegemiseks. Järgmisena selgitame oma põhikomponente üksikasjalikumalt ja järjestikku. Meie pakutud arhitektuuri ülevaade on näidatud joonisel 1.

Joonis 1. Pakutud meetodi üldine arhitektuur koosneb kolmest komponendist: ruumimoodul, ajaline moodul ja järjestusõppe moodul. Ruumimoodul võtab esmalt pildijada, et eraldada kaadripõhised funktsioonid, ja seejärel rakendab ajalist moodulit ajaliste funktsioonide eraldamiseks. Seejärel saadetakse ajalised tunnused jadaõppe moodulisse, et sõna ennustada ja see lauseks konstrueerida
3.2. Ruumiline moodul
Ruumimoodul kasutab täiskaadri funktsiooni ja võtmepunkti funktsioone, nagu on näidatud joonisel 2. See moodul kasutab selgroona 2D-CNN-i võrguarhitektuuri ja ResNet50 on valitud mitme funktsiooni jäädvustamiseks. ResNet50 on ajaliselt tõhusam kasutada võrreldes hiljutise ResNeti arhitektuuriga, samal ajal kui tulemus on võrreldav [36, 37]. RGB kasutab otse ResNet50, samas kui võtmepunkti hangib HRNet [38] videokaadrist ja ekstraheeritakse võtmepunkti funktsioonide saamiseks ResNet50 abil.

Joonis 2. Ruumimooduli arhitektuur kasutab mitmevoolist sisendit. RGB-voog täiskaadri funktsioonina ja võtmepunktide voog võtmepunkti funktsioonina.
3.2.1. Täiskaadri funktsioon
Rakendasime oma eeltöötlusetapid RGB-andmetele ja sisestasime seejärel oma andmed mudelisse. Seejärel lisasime need oma arhitektuuri täiskaadri sisendiks. Joonis 3 näitab algse RGB-pildi illustratsiooni vasakul küljel ja kärbitud kujutist paremal. Kärbitud pilti kasutab mudel sisendina. See illustreerib eeltöötlusetappi, mis vähendab pildi vähemtähtsaid osi ja keskendub rohkem allkirjastajale. See kärpimine kasutab andmestiku täiendamiseks juhusliku kärpimise meetodit [12]. Täiskaadri funktsioon ekstraheeritakse jada iga kaadri kärbitud pildist, kasutades ResNet50.

Joonis 3. RGB-pilti kasutav täiskaader, (vasak pilt) on algkujutis ja (parempoolne pilt) on kärbitud kujutis, mida soovitatud mudeliga kohandada
3.2.2. Võtmepunkti funktsioonid
Eraldasime ruumimooduli võtmepunkti funktsioonid iga videosisendi kaadri RGB andmetest. Võtmepunkti funktsioonide kvaliteedil on meie pakutud mudelis oluline roll, seega peame kasutama tugevat lähenemisviisi, näiteks HRNet [38]. Kasutasime kõigi 133 keha põhipunkti hindamiseks eelkoolitatud HRNet [38] ja selle tulemuse 133 põhipunktist 27. Nagu on näidatud joonisel 4, on vasak pool ülakeha algne klahvipunkt ja parem pool on valitud 27 ülakeha klahvipunkti. Nende 27 põhipunkti hulka kuuluvad randmed, küünarnukid, õlad, kael, käed ja sõrmed.

Joonis 4. Andmestiku PHOENIX-RWTH võtmepunkti omadused [33,39], (vasakpoolne pilt) eraldamine RGB-kujutisest ja (parempoolne pilt) on valitud võtmepunkt, mida pakutav mudel kasutab.
3.3. Ajaline moodul
Ajalise mooduli eesmärk on õppida ruumilisest moodulist ajaruumilist teavet. Ajutised moodulid konstrueeritakse iga voo jaoks virnastatud ajalise koondamise abil. Nagu on näidatud joonisel 5, koosneb ajutise koondamise moodul ajalisest konvolutsioonikihist ja koondkihist funktsioonide eraldamiseks järjestikustest sisenditest.

Joonis 5. Ajalise mooduli arhitektuur koosneb virnastatud 1D-CNN-ist ja koondamiskihist, mis on manustatud tähelepanumooduliga. Töötage paralleelselt mõlema virnastatud kihtide lõpus ühendatud funktsioonivooga ja looge üks neli korda väiksema jada pikkusega ajaline objekt.
Sisend on eelmise etapi ruumiliste multifunktsioonide loend. Ajutine funktsioon saadakse ajalise konvolutsioonikihi abil, mis on sama sisend- ja väljundpikkusega üks 1D konvolutsioonikiht, millele järgneb üks koondamiskiht, mis vähendab suurust pooleni. Eelmiste tööde kohaselt on parim konfiguratsioon nende kahe virnastatud ajalise koondamiskihi kasutamine [12]. Pärast iga ajalist ühendamist manustame tähelepanumooduli, mida selgitatakse üksikasjalikult jaotises 3.4. Lõpuks ühendame mõlema voo ajalise koondamise väljundi.
3.4. Tähelepanu moodul
Videol on mitu kaadrit, kus mõned pildi osad on mõnikord udused. RTWH-PHOENIX andmestikul [33,39] on rohkem defektseid kaadreid kui CSL-i andmekogumil [8,40,41]. See juhtub siis, kui liikumine on liiga kiire, tekitades uduse pildi ja tulemuseks on vale võtmepunkti asukoht. Seda kaadrit peetakse defektseks ja see võib viia nii RGB kui ka võtmepunkti funktsioonide valesti tõlgendamiseni. Joonisel 6 on kujutatud RTWH-PHOENIX andmestiku defektsed kaadrid [33]. Selle probleemi lahendamiseks lisasime tähelepanukihi.

Joonis 6. RWTH-PHOENIX andmestiku defektkaadrite illustratsioon [33,39]. Mõned võtmepunktid käte piirkonnas on uduste piltide tõttu vales asendis.
CTC algoritmi kasutades teostatakse tee joondamine koos selle märgistusega, kasutades tühja silti ja eemaldades korduvad sildid. CTC eelistab ennustada tühje silte, mitte läikepiire, kui ta ei suuda läikepiiri eristada, kuid ükski tulemustest ei ole veenev. See sunnib võrgustikku kasutama CTC-d, et saada analüüsimisel, õppimisel ja ennustamisel tulemuste hüppeid [42,43]. Üldiselt otsib CTC kadu võtmekaadreid ja viimane tulemus on konkreetse võtmekaadri ennustus, mis on suure tõenäosusega tühi või mittetühi silt. Kui läige ennustab järjestikku sama etiketti või tühja silti, annab see sama väljundi. Kui aga sama sildi vahel on sisestussilt, isegi kui viga on ainult üks, toob see kaasa palju suurema kadu. Siin aitab tähelepanukihi lisamine valida olulise ajalise jada enne, kui seda kasutatakse järjestikuses õppes.
Tähelepanumoodul kasutab mitme peaga enesetähelepanu mehhanismi [20]. Mitme peaga moodulit kasutatakse mitme paralleelse tähelepanumehhanismi samaaegseks käivitamiseks. Mitmepealine tähelepanu töötab iseseisvalt, et keskenduda lühiajalistele või pikaajalistele sõltuvustele eraldi peas. Seejärel ühendatakse iga väljund lineaarselt ja teisendatakse soovitud kuju.
Samal ajal hoolitseb mitme peaga enesetähelepanu mehhanism mitmest esituse alamruumist pärineva teabe eest, olenevalt vaatluste ajaloost. Lihtsuse huvides tähistame sisendjadasid kui X. Matemaatiliselt on ühe peaga tähelepanu mudeli puhul antud sisend X t − T pluss 1:t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P, saadakse kolm alamruumi, nimelt päringu alamruum Q ∈ RN × dq, võtme alamruum K ∈ RN × dk ja väärtuse alamruum V ∈ RN × dv. Varjatud alamruumi õppeprotsessi saab sõnastada järgmiselt [20]:
Q=XWQ, K=XWK , V=XWV,
Seejärel kasutatakse tähelepanu väljundi arvutamiseks skaleeritud punktitoote tähelepanu järgmiselt [20]:
Tähelepanu (Q, K, V)=nii f tmaxQKT/ p dkV,
Lisaks, kui meil on mitu pead, mis järgivad samaaegselt sisendi mitut esitust, saame samaaegselt saada asjakohasemaid tulemusi. Viimane samm on kõigi peade ühendamine ja lõpliku skoori arvutamiseks uuesti projitseerimine [20]:
Mitmikpea(Q,K,V)=Concat(head1,..., heads )WO,
pea=Tähelepanu (Qi, Ki, Vi),
kus Qi=XWQ i , Ki=XWVi ja WO ∈ R hd × dmudel. Lõpuks saab see funktsioonide jadast valida olulise osa, kuna kogu jada teave pole oluline.
Nagu on näidatud joonisel 7, kasutame tähelepanumoodulit mitmes konfiguratsioonis. Esimene tähelepanumoodul asetatakse ruumimooduli lõppu, teine ja kolmas tähelepanumoodul aga ajalisesse moodulisse. Teine tähelepanumoodul, mida nimetatakse varajaseks ajaliseks mooduliks, asetatakse pärast esimest ajalise koondamise plokki sisendina, samas kui kolmas ajalise tähelepanu moodul, mida nimetatakse hiliseks ajalise tähelepanu mooduliks, asetatakse pärast teist ajalise koondamise plokki.

Joonis 7. Tähelepanu moodulid on manustatud erinevates konfiguratsioonides ruumi- ja ajamoodulitesse.






