Ego4D, dataset video in soggettiva

Chi studia le applicazioni di intelligenza artificiale, e più in particolare di computer vision, sa bene che uno dei limiti più importanti nella definizione e apprendimento dei modelli è la disponibilità di dataset normalizzati su cui effettuare la fase di apprendimento e testing.<!–more–>

Per questa ragione, in questo ultimo periodo, molti enti di ricerca si stanno adoperando per realizzare e mettere a disposizione del mondo scientifico tali raccolte, organizzandole su base tematica o disciplinare.

In questo contesto, è stato presentato Ego4D (Egocentric 4D Live Perception), un progetto sviluppato da Facebook insieme ad un consorzio di università internazionali, nato dalla volontà di raccogliere registrazioni video in soggettiva durante le comuni attività giornaliere.

Cosa rende originale Ego4D ?

La scelta di questo POV (point of view) nasce dal fatto che attualmente gran parte dei dataset disponibili è composto da fotografie o video riprese da punti di vista esterni al soggetto che compie l’azione, offrendo agli algoritmi la possibilità di distinguere con maggiore facilità gli elementi costituivi ed il tracking dei soggetti coinvolti.
Nei video in soggettiva, invece, la descrizione visiva di una scena o di una azione cambia totalmente, portando limitazioni e problematiche che attualmente non possono essere affrontate a causa proprio della scarsità di dataset di training.

Una delle novità di questo progetto è proprio la scelta del punto di ripresa.
Infatti, a differenza di quanto avviene normalmente con altre tipologie di raccolte video, in questo caso le registrazioni sono avvenute mediante camere indossabili, posizionate in modo da registrare secondo il punto di vista del soggetto, permettendo così di addestrare futuri modelli AI che possono coadiuvare attività umane mediante sensori “egocentrici”, capaci cioè di percepire la scena dal punto di vista dell’operatore.

Il progetto ha coinvolto oltre 850 partecipanti distribuiti in nove paesi, tra cui l’Italia ,con l’Università di Catania, preservando una eterogeneità di scenari e attività, oltre ovviamente garantendo la privacy dei soggetti ripresi.

I contesti registrati, come detto in precedenza, riguardano attività quotidiane personali (ad esempio cucinare, fare shopping, disegnare, ecc.) e professionali (es. elettricisti, muratori, cuochi, ecc.).

Tale scelta è stata motivata dalla volontà di rendere eterogeneo l’ambiente in cui si svolgono tali azioni, consentendo così che future applicazioni possano essere facilmente predisposte indipendentemente dal contesto in cui si svolgono.

 Raccolta video eterogenea. Sono stati coinvolti 855 partecipanti da 74 location in 9 nazioni differenti.

A partire dal mese di novembre 2021, il database contenente oltre 3.000 ore di video sarà reso disponibile alla comunità scientifica.

I benchmark di Ego4D

Oltre alla creazione della raccolta video, il progetto Ego4D si pone l’obiettivo di verificare 5 benchmark applicativi riguardanti i temi: interazione sociale, interazione mano-oggetto, diarizzazione audiovisiva, memoria episodica e previsione.
Questi obiettivi, rappresentano in modo chiaro la direzione della ricerca applicativa:

  • la possibilità di riconoscere un’azione svolta nel passato, in modo da riconoscere e “ricordare” avvenimenti e azioni svolte
  • comprendere comportamenti e abitudini, in modo da simulare previsioni sociali o sistemiche;
  • apprendere i movimenti e i meccanismi che l’uomo usa per interagire con gli oggetti, in modo da interpretare gesture da integrare nei vari algoritmi;
  • consentire l’utilizzo del suono in soggettiva per migliorare l’apprendimento dell’ambiente e delle azioni che si svolgono;
  • studiare e comprendere l’interazione interpersonale.

L’obiettivo ultimo che si pone il progetto è quello di integrare e migliorare le potenzialità e l’integrazione della computer vision all’interno dei sistemi di automazione

Per approfondire:

Articolo

Facebook AI Research

Pagina web del progetto Ego4D

HuMoR: 3D Human Motion Model for Robust Pose Estimation

In questo periodo così florido per il settore dell’intelligenza artificiale, e più in particolare per la computer vision, si susseguono giornalmente pubblicazioni in cui si sperimentano applicazioni di modelli per la stima delle pose umane. Questo tema, sebbene possa sembrare apparentemente ristretto a specifici ambiti applicativi, in realtà trova applicazioni in svariati settori disciplinari: dalla guida autonoma al gaming, dai sistemi di sicurezza ad applicazioni sul tracciamento automatizzato del comportamento umano.

Oggi voglio descrivervi una pubblicazione che utilizza un metodo alternativo per svolgere questo tipo di identificazione.

Pubblicata da Rempe, Davis and Birdal, Tolga and Hertzmann, Aaron and Yang, Jimei and Sridhar, Srinath and Guibas, Leonidas J. all’ International Conference on Computer Vision (ICCV) di quest’anno, la ricerca illustra un approccio metodologico innovativo per la stima di pose umane con un approccio generativo espressivo basato su un conditional variational autoencoder.
Il progetto risulta supportato dal Toyota Research Institute (“TRI”) tramite il programma di finanziamento University 2.0 program, dal programma Samsung GRO, Ford-Stanford Alliance e da altre fonti universitarie.

HuMoR: come funziona

Iniziamo col dire che l’individuazione di una posa umana parte da processi prioritari di individuazione di una persona, individuazione della forma di questa persona ed individuazione di un contesto ambientale che eventualmente può occludere il soggetto in movimento.

Queste procedure possono essere affrontate con metodi differenti, anche in base al tipo di input su cui stiamo lavorando (ad esempio una nuvola di punti, keypoint mocap, un semplice video, ecc.) ma conservano delle difficoltà computazionali legate alla variazione della forma umana del soggetto coinvolto e alla variabilità che questa forma umana compie durante i suoi movimenti.

L’approccio utilizzato dai ricercatori prova a risolvere queste problematiche tramite un approccio statistico, che modella una distribuzione di probabilità delle possibili transizioni di posa.

Volendo azzardare una semplificazione, si potrebbe immaginare questo approccio come un tentativo di “prevedere” le possibili pose che il soggetto potrà compiere nei fotogrammi successivi tramite l’analisi della posa attuale utilizzata da un modello predisposto in fase di training da opportuni dataset (tra cui AMASS)

I risultati presentati dal gruppo di ricerca mostrano l’utilizzo di questo algoritmo nell’individuazione di movimenti umani in video RGB-D (RGB+Depth) con parziale occlusione, riuscendo a identificare correttamente i movimenti e l’interazione tra soggetto e oggetti.

Inoltre, il modello può essere utilizzato per generare plausibili transizioni di movimenti, partendo da una pose iniziale e generando automaticamente le restanti.

La ricerca dimostra un’ottima applicabilità ed una robustezza applicativa anche in caso di zone parzialmente occluse, lasciando ottime aspettative a future implementazioni strutturate all’interno di applicativi appositi.

Per approfondire:

Pagina GitHub del progetto

Articolo pubblicato

iTwin.js, il Digital Twin opensource

Negli ultimi anni, con lo sviluppo e l’applicazione sempre più diffusa della metodologia BIM e, più in generale, delle tecniche di progettazione parametrica e informativa, il termine digital twin è sempre più presente e incluso nelle politiche di sviluppo digitale, soprattutto in ambito ingegneristico.

Facciamo innanzitutto una brevissima premessa.
Con il termine digital twin, intendiamo una rappresentazione digitale di un elemento, un asset o un’opera, descritta nelle sue componenti formali e informative, con la caratteristica di consentire l’aggiornamento continuo dei suoi attributi.
Come è facile intuire, quindi, una delle proprietà fondamentali di un gemello digitale è proprio la sua capacità di essere aggiornato e interrogato nel tempo, possibilmente da remoto.
Proprio questa sua scalabilità temporale suggerisce un approccio possibilmente basato su architetture opensource, in modo da essere svincolato da policy commerciali che possono, nel tempo, limitare o rallentare la sua fruizione.

Per questa ragione, si stanno diffondendo sempre più soluzioni opensource che offrono ambienti informativi fruibili su piattaforme online, sia in ambito edile che civile.
In particolare, in quest’ultimo settore, il digital-twin si pone all’interno dei normali flussi operativi, offrendo potenzialità di interrogazione progettuali o informative direttamente in loco, durante la cantierizzazione o l’utilizzo dell’opera, anche tramite tecnologie di realtà aumentata o mixed.

iTwin.js

Nel contesto sopra descritto, si inserisce la libreria di cui voglio parlarvi oggi.
Si chiama iTwin.js, e comprende una serie di strumenti che consentono di creare la propria infrastruttura digitale per la gestione degli asset. Questi pacchetti, sviluppati in JavaScript (necessitano di supporto es2017) sono basati su tecnologie open tra cui SQLite, Node.js, NPM, WebGL, Electron, Docker, Kubernetes, e naturalmente HTML5 e CSS, consentendo quindi l’integrazione con le più comuni infrastrutture dati disponibili.

Il codice sorgente della libreria è ospitato su GitHub ed è distribuito sotto la licenza MIT.

Partendo da un rilievo fotogrammetrico o Lidar, ad esempio, è possibile utilizzare dei connectors gratuiti in grado di sincronizzare questi dati con i formati più utilizzati nel settore (ad esempio .dgn, .dwg, .rvt, .ifc, ecc.) riuscendo a diventare così un contenitore informativo fruibile da qualsiasi dispositivo.

In questo modo, il progettista può creare e personalizzare la propria infrastruttura digitale in modo da rispondere perfettamente alle proprie esigenze di controllo o interrogazione di cui necessita, adottando gli approcci di federazione che meglio discretizzano il proprio flusso lavorativo.

Con iTwin.js è possibile creare webapp, applicativi per desktop o per mobile che si interfacciano con il modello digitale ospitato all’interno della piattaforma iModelHub, da cui viene copiato ed interrogato tramite i servizi dedicati.

Le API disponibili sono qui elencate.

E’ possibile visionare un esempio di interfaccia web da questo link

Per approfondire: www.itwinjs.org/

Maschere Alpha in Metashape

Durante l’elaborazione fotogrammetrica, gran parte dei software presenti sul mercato consentono l’adozione di maschere.
Queste maschere consentono di definire delle porzioni fotografiche da ignorare nei calcoli del programma.
Per intenderci, se nelle immagini di una campagna di rilievo fotografico compaiono persone o autoveicoli in movimento, ad esempio, gli algoritmi SfM avranno difficoltà nella risoluzione della scena, proprio a causa del movimento che tali oggetti hanno durante le riprese (ricordiamo che, nella maggior parte delle configurazioni di ripresa, i software fotogrammetrici si basano sulla deduzione geometrica della posizione della camera rispetto ad una scena statica).

Oltre al movimento di soggetti, ci sono particolari materiali che per loro proprietà frenel comportano condizioni riflessive o di trasparenza che cambiano in base all’angolo di ripresa (ad. esempio materiali metallici, vetrature, plastiche lucide) e che quindi portano a potenziali problemi di risoluzione fotogrammetrica.

Per tutte queste ragioni, può essere utile ignorare, mascherare, delle porzioni fotografiche, andando a migliorare e facilitare i risultati dell’elaborazione fotogrammetrica.

Per creare queste maschere, i programmi fotogrammetrici offrono alcuni semplici comandi di selezione, lasciando all’utente l’onere di operare questo partizionamento manualmente per ciascuna immagine coinvolta.

In alternativa, alcuni programmi consentono anche il caricamento delle maschere tramite appositi file esterni, opportunamente realizzati tramite una logica binaria (solitamente i pixel sono identificati con colori bianco e nero).
Questo approccio ha il vantaggio di consentire l’utilizzo di specifici software di fotoritocco che, per loro natura, offrono maggiori comandi di selezione che si basano su regole di contrasto o similitudine tonale o cromatica.

In questo tutorial, mostro il flusso di lavoro per creare, all’interno di Adobe Photoshop, delle maschere che vengono salvate nel canale alpha dell’immagine stessa, andando a sfruttare alcuni specifici comandi di selezione semi-automatizzata presenti all’interno del programma Adobe.
Infine, all’interno di Metashape, ci occuperemo di fare leggere e assegnare automaticamente i canali alpha di ciascuna immagine caricata, facendole interpretare come maschere.

VLOG – Rilievo con il drone

In questo VLOG, vi accompagno durante alcune fasi di un rilievo fotogrammetrico, con l’ausilio di una campagna aerea con il nostro drone DJI SPARK, fra gli ulivi secolari che segnano le splendide campagne pugliesi.

Nella fase di pre-flight, organizziamo le attività di rilievo, valutiamo gli obiettivi, le finalità e impostiamo i parametri e le modalità ottimali della campagna di volo. Queste scelte influenzeranno anche la fase di elaborazione, portando ad ottenere un prodotto fruibile per gli scopi che ci eravamo preposti, senza overloading di dati.
L’elaborazione è stata effettuata con il software Agisoft Metashape 1.7.3.
L’obiettivo riguardava uno studio architettonico degli edifici presenti, all’interno di una ipotesi di riprogettazione funzionale.

Visita il canale youtube del MAULab del Politecnico di Bari per altri video: https://www.youtube.com/c/MAULabPolitecnicodiBari

Super-resolution e machine learning

Quante volte ho sorriso durante la visione di alcuni film nel vedere esperti tecnologi al fianco di detective che riuscivano con pochi click a generare, partendo da un semplice fotogramma di una camera piazzata in un vicolo, un ingrandimento che trasformava magicamente un ammasso di pixel sfocati in una immagina nitida, svelando così il volto dell’assassino o la targa di un veicolo.
Se fino a poco tempo fa potevano essere considerate libertà cinematografiche che rendevano più avvincente la sceneggiatura aggiungendo quel pizzico di fantasy-hi-tech che piace tanto al pubblico, oggi possiamo affermare che è diventata una applicazione possibile.

Tralasciando le applicazioni specifiche in ambito automobilistico (in cui modelli e algoritmi sono calibrati sul riconoscimento specifico di targhe di autoveicoli), uno degli approcci più condivisi fra i ricercatori si chiama Super-resolution e la troviamo, in alcune sue applicazioni primordiali, già utilizzabile all’interno di alcuni prodotti Adobe (es. Photoshop dalla versione 13.2) o di software specifici (oltre ad alcune implementazioni hardware all’interno delle GPU).La sua genesi affonda le radici in sperimentazioni e algoritmi differenti, utilizzati in ambito grafico per assolvere a esigenze differenze.
All’interno dei prodotti Adobe, ad esempio, già da qualche anno troviamo la tecnologia Enhance Details (in cui l’immagine veniva migliorata nella nitidezza e nell’aspetto cromatico, senza alterare la sua risoluzione).

Gli algoritmi di super-resolution che troviamo all’interno dei software Adobe, invece, consentono generalmente un ricampionamento lineare 2x per lato (andando così a raddoppiare la risoluzione totale per un massimo di 4x) mantenendo una migliore qualità dell’immagine rispetto all’utilizzo dei consueti algoritmi di interpolazione (es. linear, nearest-neighbor, bilinear e bicubic).

Super-resolution

La tecnologia super-resolution si basa su algoritmi di machine-learning addestrati opportunamente per interpolare i pixel aggiunti sulla base della tipologia delle forme e dell’immagine su cui viene applicata. Questo consente di evitare i consueti problemi di aliasing generati dai metodi precedenti.

Esempio di ingrandimento classico con l’utilizzo di filtri bicubico.
Si noti sulla destra la presenza di aliasing che fa perdere nitidezza ai contorni.
 Image Credit: Masa Ushioda/Seapics/Solent News

Un esempio di sperimentazione ci viene offerta da alcuni ricercatori di Google che nel 2016 hanno messo a punto un’applicazione di un modello di machine-learning chimato RAISR: Rapid and Accurate Image Super Resolution, che ha consentito di ottenere immagini ingrandite con una ottima resa qualitativa.
Questo approccio ha visto la creazione di un dataset composto da 10.000 coppie di immagini (a bassa e alta risoluzione) utilizzato come training per la calibrazione del modello di machine-learning.

L’ applicazione ha permesso l’affinamento di filtri adattivi non-lineari che, applicati ad una immagine ingrandita con uno dei metodi classici di interpolazione (es. bilinear), consentono un miglioramento dei risultati rappresentativi andando ad diminuire la presenza di artefatti.

I filtri così generati, che basano la loro matematica su alcune peculiarità delle immagini (contorni, gradienti, direzione, forza, coerenza, ecc.), vengono associati tramite funzioni hash alle caratteristiche dell’immagine oggetto di ingrandimento, così da essere utilizzati nei punti e nei modi opportuni.
L’immagine così elaborata viene, infine, “unita” a quella interpolata linearmente in partenza, utilizzando una funzione di media pesata, abbattendo i possibili artefatti generati dai filtri.

Workflow dell’applicazione. A sinistra l’immagine di partenza. Al centro l’immagine ingrandita con un filtro bicubico, a destra l’immagine in output dall’algoritmo RAISR.
Top: Original, Bottom: RAISR super-resolved 2x. Original image from Andrzej Dragan

Super-Resolution via Repeated Refinements

Ma come dicevano all’inizio, i progressi nel campo dell’elaborazione di immagini sintetiche sta facendo passi da gigante, grazie anche all’integrazione di modelli sempre più complessi di machine learning all’interno dei laboratori di ricerca.

Un esempio che oggi voglio descrivere è rappresentato dal Super-Resolution via Repeated Refinements (SR3), un algoritmo sviluppato all’interno dei laboratori Google, che basa la propria funzionalità sul processo di denoising stocastico applicato al resample di un’immagine.

L’ approccio al problema è innovativo. Pur basandosi sempre su modelli di machine-learning, questo algoritmo applica il training su immagini sottoposte a noising progressivo. In questo modo il modello viene calibrato per poter essere successivamente utilizzato in modo inverso, partendo da un noising completo fino all’immagine scalata.

Esempio di Image Super-Resolution via Iterative Refinement
by Chitwan Saharia Jonathan Ho,  William Chan,  Tim Salimans,  David Fleet,  Mohammad Norouzi)
Super Resolution results: (Sopra) 64×64 → 512×512 face super-resolution, (Sotto) 64×64 -> 256×256 natural image super-resolution.

Questo approccio ha dimostrato ottimi risultati di benchmark nella scalatura 4x-8x soprattutto per immagini ritraenti visi umani e immagini naturali. Nell’articolo (che si può leggere tramite i riferimenti in basso), si ipotizza anche la possibilità di superare il confine degli 8x applicando più volte in cascata l’algoritmo stesso, arrivando a raggiungere fattori moltiplicativi più elevati.

E’ facile immaginare che tali applicazioni di sintesi digitale porteranno sempre più applicazioni in ambiti differenti, da quello fotografico a quello medico, consentendo magari anche il riutilizzo di video e foto registrate con apparecchiature hardware con caratteristiche e ottiche obsolete.

Per approfondire:

RAIY. Romano, J. Isidoro and P. Milanfar, “RAISR: Rapid and Accurate Image Super Resolution,” in IEEE Transactions on Computational Imaging, vol. 3, no. 1, pp. 110-125, March 2017, doi: 10.1109/TCI.2016.2629284.

Image Super-Resolution via Iterative Refinement – 2021 – Image and Video Processing (eess.IV); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) – Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, Mohammad Norouzi

Yulun Zhang, Kunpeng Li, Kai Li, Lichen Wang, Bineng, Zhong, and Yun Fu. Image super-resolution using very deep residual channel attention networks. In Proceedings of the European conference on computer vision (ECCV).

Autodesk Educational: controllo centralizzato

In questi giorni molti utenti educational stanno ricevendo un’email in cui Autodesk annuncia una nuova modalità di registrazione e assegnazione delle licenze Educational.

Con questa nuova modalità, Autodesk permette ai Docenti di assegnare le licenze educational ai propri studenti in modo centralizzato. In questo modo, si potranno indicare un massimo di 125 nominativi che saranno automaticamente assegnati come educational student, accedendo immediatamente alle licenze disponibili per i software scelti.

In questo modo, l’accesso ai software educational diventa più facile e immediato, bypassando le procedure di verifica finora necessarie per dimostrare l’eleggibilità dello status educational.

Come funziona?

Il Docente (che dovrà essere già autenticato e riconosciuto come utente educational), dopo l’accesso alla propria pagina Autodesk Educational potrà scegliere se scaricare i software disponibili come singolo utente (per il proprio utilizzo nell’ambito educativo) o gestire l’assegnazione di una classe.
In quest’ultimo caso, avrà la possibilità di scegliere che tipologia di gestione vuole utilizzare, se tramite un server centralizzato di autenticazione o una più comune gestione per singolo utente, che permette a ciascun nominativo indicato di scaricare ed utilizzare sul proprio pc i programmi selezionati.

Ogni docente ha a sua disposizione 125 nominativi per ciascun software disponibile, che potrà indicare nella pagina apposita tramite i loro indirizzi email. Questi nominativi dovranno corrispondere a studenti (di età minima 13 anni), docenti o collaboratori scolastici (vedi pagina idoneità).

La funzionalità di questi abbonamenti sarà legata alla effettiva eleggibilità del docente che, come succedeva fino a poco tempo fa, deve essere rinnovata di anno in anno. E’ bene specificare, dunque, che se tale rinnovo viene interrotto o non rinnovato, tutti gli abbonamenti degli studenti associati verranno automaticamente disabilitati.

Considerato l’aggiornamento della procedura di autenticazione educational che Autodesk aveva avviato nel corso dell’anno precedente, che prevedeva una più attenta e accurata riconoscibilità dello status di studente/docente, è evidente che questa nuova procedura mira a facilitare la gestione in ambito educativo, consentendo un’attivazione centralizzata e veloce dei vari abbonamenti necessari a far lavorare una classe o un laboratorio.

Per approfondire:
condizioni per essere ammesso alle versioni educational
pagina Autodesk Educational

Nuovo Decreto n. 312 sul BIM

E’ stato da poco pubblicato un nuovo decreto che aggiorna il Decreto Baratono (D.M. 560/2017), testo di riferimento nazionale all’adozione della metodologia BIM per gli appalti pubblici.

In questo nuovo testo, si introducono alcune definizioni che vanno meglio a definire le modalità di adozione delle procedure BIM, andando anche a chiarire le modalità di premialità previste per incentivare l’adozione di questa nuova metodologia.

Nel D.M. 560/2017 veniva specificato che le stazioni appaltanti dovevano adempiere preliminarmente alle seguenti attività:

  • Adozione di un piano formativo per il proprio personale coinvolto nelle procedure
  • Adozione di un piano di acquisizione ed organizzazione dell’infrastruttura hardware/software necessaria per la gestione dei processi BIM
  • L’assunzione di un atto organizzativo in cui specificare i processi di monitoraggio e gestione delle varie fasi procedurali in tutte le sue specifiche applicative.

Nel nuovo Decreto viene alleggerito tale requisito allo scopo di incentivare l’adozione sperimentale del BIM nelle pubbliche amministrazioni, prevedendo tale possibilità anche se queste non hanno ancora adottato le condizioni di cui sopra, ma le abbiano previste in una programmazione.

Come sappiamo, l’adozione del BIM ha portato notevoli stravolgimenti all’interno di enti appaltanti e studi professionali, andando spesso a ridefinire dinamiche, procedure e competenze interne. Per agevolare tale processo di adeguamento ed in considerazione anche delle forti limitazioni che il COVID ha portato all’interno dell’intero mercato, il nuovo decreto definisce una riprogrammazione delle date di adozione come segue:

  • 1 gennaio 2022: per le opere di nuova costruzione ed interventi su costruzioni esistenti, fatta eccezione per le opere di ordinaria manutenzione di importo a base di gara pari o superiore a 15 milioni di euro;
  • 1 gennaio 2023: per le opere di nuova costruzione, ed interventi su costruzioni esistenti, fatta eccezione per le opere di ordinaria e straordinaria manutenzione di importo a base di gara pari o superiore alla soglia di cui all’articolo 35 del codice dei contratti pubblici;
  • 1 gennaio 2025: per le opere di nuova costruzione, ed interventi su costruzioni esistenti, fatta eccezione per le opere di ordinaria e straordinaria manutenzione di importo a base di gara pari o superiore a 1 milione di euro.

Come si nota, viene meno la soglia al di sotto del milione di euro, probabilmente in attesa di monitorare l’adozione di queste nuove procedure nel mercato e valutarne i processi attuati.

Un’altra modifica interessante introdotta dal D.M. 312/2021 riguarda la disponibilità del modello informativo dello stato di fatto,  che il Decreto precedente (art. 7) prevedeva dovesse essere incluso all’interno del capitolato informativo e che ora diventa facoltativo, liberando così l’onere di una digitalizzazione del patrimonio edilizio gestito dell’ente appaltante che poteva rallentare la sperimentazione e l’adozione delle nuove procedure.

Per incentivare l’adozione del BIM, questo nuovo decreto introduce anche la possibilità di prevedere delle premialità in fase di aggiudicazione di gara, andando ad identificare quelle offerte che consentano l’integrazione dei modelli all’interno dell’infrastruttura di gestione dell’ente o tali da agevolare la tracciabilità ed il monitoraggio del ciclo di vita dell’opera.

Per approfondire:

Decreto Ministeriale numero 312 del 02/08/2021
Articolo Ingenio-web

Immagine di copertina di Paul Wilkinson

In-camera VFX con UE4.27

Siamo ormai abituati agli annunci dirompenti del team Epic sulle nuove incredibili integrazioni all’interno del famoso ambiente di sviluppo Unreal Engine.

Una delle discipline in cui gli sviluppatori della casa americana stanno investendo da diverso tempo è l’integrazione del rendering in realtime in fase di produzione visiva.
Ne è un esempio l’integrazione del mo-cap in tempo reale o del tracking della camera da ripresa.

Le funzioni in-camera VFX

Immaginiamo di avere a disposizioni un set di ripresa con un background costituito da pannelli LED (come tanti monitor) collegati tra loro che proiettano un’immagine sincronizzata con la scena virtuale presente all’interno di un progetto di Unreal Engine.
La camera di ripresa presente fisicamente all’interno dello stage, viene collegata ad un sistema di live tracking in modo che i suoi movimenti vengano tracciati e sincronizzati con la camera virtuale presente all’interno del progetto UE4 e visualizzata on-stage; in questo modo, la scena visualizzata sui display in background risulta perfettamente calibrata con la ripresa live simulando un inner-frustum calibrato con il FOV della camera
I display esterni al campo visivo, proietteranno l’ambiente virtuale circostante, in un outer-frustum che collaborerà ad una illuminazione (e riflessione) realistica dei soggetti e dei materiali ripresi.

A questo, si aggiunge la possibilità di inserire effetti visivi all’interno della ripresa virtuale, ritrovandoli immediatamente in off-axis projection, con un perfetto allineamento con la scena reale.
Grazie ai sistemi nDisplay, Live Link, Multi-User Editing, e Web Remote Control offerti da Unreal, l’utente è in grado di creare un vero e proprio set digitale virtuale.

Shooting virtuale

Ed è proprio su questa linea di sviluppo che i programmatori di Epic in collaborazione con lo studio di produzione Bullit, hanno sperimentato una piccola produzione cinematografica in virtual-real time, integrando le nuove tecnologie presenti nella versione 4.27 di Unreal Engine.

All’interno degli studi californiani della NantStudios, si è sperimentato un workflow innovativo, in cui pre-produzione, shooting e post-produzione si sono integrati all’interno di un ambiente totalmente virtualizzabile e programmabile in tempo reale.
Sfruttando la potenza di calcolo di due GPU NVIDIA Quadro A6000 ed un sistema di proiezione LED dello stage virtuale, il team è riuscito a chiudere questa produzione in soli 4 giorni, sfruttando i nuovi tools di controllo e simulazione in-camera offerti dall’ambiente grafico Unreal.
La possibilità di riconfigurare in pochissimo tempo una scena, simulandone configurazioni ambientali ed illuminazione, ha portato ad una notevole diminuzione dei tempi di produzione con, ovviamente, conseguente risparmio economico.

Inoltre, la possibilità di provare nuove configurazioni in realtime, ha permesso un approccio più creativo e spontaneo, facilitando la sperimentazione di nuovi setup, consentendo al regista di valutarne immediatamente la resa.

Questo nuovo paradigma di produzione porta con sè anche una rivoluzione nei flussi di lavoro normalmente configurati in una produzione; riunire sul set, durante le riprese, tutti i teams coinvolti normalmente nelle fasi di pre-produzione e post-produzione, porta ad una collaborare in tempo reale sulla scena in fase di shooting, riducendo eventuali incoerenze che normalmente possono verificarsi in fase di lavorazione non simultanea.

Un innovativo modo di concepire la produzione visiva troverà presto integrazioni sempre più diffuse nei vari ambienti di sviluppo, avvicinando settori e professionalità che normalmente sono separati in comparti differenti della computer grafica.

Per approfondire: visita il sito UnrealEngine

Visualizza l’hardware raccomandato

NVIDIA DLSS 2.0

Con l’architettura Turing, NVIDIA ha iniziato ad implementare dal 2018 nuove tecnologie che sfruttano algoritmi di Intelligenza Artificiale per ottimizzare la resa qualitativa delle applicazioni e dei giochi.
Una fra queste è la tecnologia DLSS, acronimo di Deep Learning Super Sampling.

Si tratta di un algoritmo implementato nel chipset NVIDIA che permette di effettuare dei calcoli di rendering con un subsampling dell’immagine, quindi ad una risoluzione inferiore, per poi rielaborarla automaticamente tramite un super-sampling effettuato internamente dai Tensor core presenti nel chip, per ottenere un’immagine ad una risoluzione maggiore, conservando una qualità ottimale ed un alto frame rate.

Ciò che differenzia questa tecnologia rispetto ai più consueti algoritmi di up-scaling, è la rete neurale profonda utilizzata internamente che, istruita dalle immagini del gioco stesso, permette una migliore calibrazione e di conseguenza una resa grafica più efficiente, specificatamente sulle features del gioco stesso.

Architettura DLSS v.2.0

In definitiva, questa strategia consente di diminuire i tempi di calcolo conservando ottime qualità visive anche alle più alte risoluzioni, con il limite, ovviamente, di richiedere alle case produttrici l’integrazione di questa funzionalità all’interno del proprio workflow (quindi solo alcuni titoli sono compatibili con il DLSS).

Nel 2020, con l’implementazione dei nuovi chipset, NVIDIA ha portato degli aggiornamenti anche a questa tecnologia (DLSS v.2.0) portando nuovi vantaggi in termini prestazionali ed implementativi.

Deliver Us the Moon – DLSS 2.0


In particolare, la fase di training della rete neurale viene in parte generalizzata sui componenti grafici più comuni all’interno dei giochi (come i sistemi particellari di fumo, fuoco, ecc.) senza la necessità quindi di ricevere un dataset di immagini specifico da ciascun produttori.

Inoltre, per i titoli che supportano questa tecnologia, è possibile impostare tre livelli di qualità computazionale: qualità, bilanciato, performance, in modo da poter impostare, sulla base delle caratteristiche hardware in possesso, un setup funzionale.

Ovviamente anche AMD è impegnata nella ricerca ed implementazione tecnologica nella pipeline di rendering dei propri chipset e al Computex 2021 ha presentato FidelityFX Super Resolution, la sua risposta al DLSS di NVIDIA (per approfondire visita il link)

Per approfondire DLSS 2.0: visita il link