Een blik op ’s werelds eerste volledig AI-gebaseerde beeldsignaalprocessor

Twee bedrijven werken samen om de “wereld’s eerste volledig AI-gebaseerde beeldsignaalverwerker” te creëren, bedoeld om de hardware-gebaseerde ISPs die decennialang centraal hebben gestaan in digitale beeldvorming vervangen. Chips&Media, een Koreaans IP-aanbieder voor beeldverwerking, werkt samen met Visionary.ai, een Israëlische startup die zich richt op beeldverwerking bij weinig licht, om deze nieuwe ISP te ontwikkelen.

De samenwerking heeft als doel AI te gebruiken om het gehele beeldvormingsproces naar software te verplaatsen die draait op neurale verwerkingspunten (NPU’s). Beiden zien dit als een manier om videobewerking in realtime af te stemmen, bij te schaven en bij te werken. Hoewel dit ook implicaties kan hebben voor still photography, hebben beide bedrijven aangegeven dat videoprovincies bij weinig licht een grotere structurele verschuiving nodig hebben.

Van vaste hardware naar software-gedefinieerde beeldvorming

ISP’s komen veel voor in moderne camera’s, maar hun algehele hardware-architectuur is in de loop der tijd nauwelijks veranderd. Chipfabrikanten bouwen ze grotendeels om wiskundige stappen te voltooien die weinig ruimte laten voor aanpassingen buiten de fabriek, behalve handmatige afstelling per sensor. De twee bedrijven zien dit als een beperkende factor omdat het niet langer schaalbaar is met de beeldvormingseisen die samengaan met de uitbreiding van smartphones naar autonoom rijden, XR-apparaten en zelfs spiegelloze camera’s.

“Dit is het allereerste volledige end-to-end ISP-pijplijn die volledig draait op een NPU, zonder enig vertrouwen op een hardware ISP,” zegt Oren Debbi, medeoprichter en CEO van Visionary.ai, in een interview met PetaPixel. “Bestaande pijplijnen bevestigen neurale blokken aan een vaste-functie ISP. Wij vervangen de conventionele ISP volledig door een end-to-end neurale beeldvormingspijplijn.”

Dat betekent dat RAW-sensorgegevens rechtstreeks op een NPU of GPU worden verwerkt. Omdat het volledig softwarematig is, ontstaat er ruimte om afstemming en optimalisatie aan te passen via OTA-updates die geen invloed hebben op de eigen silicium.

Centraal in deze aanpak staat sensor-specifieke training. Visionary.ai traint een maatwerk neuraal netwerk voor elke beeldsensor, maar heeft een automatisch trainingsplatform ontwikkeld dat binnen enkele uren een nieuw model kan produceren met slechts een korte hoeveelheid videoclips. Debbi zegt dat dit de integratie-overhead aanzienlijk vermindert en het bedrijf in staat stelt om over sensoren en platforms heen op te schalen zonder de lange afsteltijden die bij klassieke ISPs horen.

AI-verbeterde ISPs spelen al een rol in smartphones en camera’s, hoewel beide bedrijven betogen dat die systemen nog steeds sterk hardwaregericht zijn. Fabrikanten voegen doorgaans neurale netwerken toe als geïsoleerde blokken, maar ze verwerken de kern-RAW-gegevens meestal niet omdat vaste-functie-hardware en wiskundige pijplijnen die taak elders afhandelen.

“Het beeldvormingsproces is neurale-voorkeur, niet een klassieke ISP met enkele AI-add-ons,” zegt Debbi. “Een aantal camerahandoefeningen kan tegenwoordig nog conventioneel blijven, maar de kern van de beeldpipeline hangt niet langer af van hardware met vaste functies.”

Dat impliceert wel een hybride benadering waarbij neurale netwerken de beeldvorming afhandelen terwijl camerahandoefeningen, zoals belichting en witbalans, nog steeds de traditionele behandeling krijgen. Debbi merkt op dat op AI gebaseerde oplossingen voor die componenten al bestaan, maar hij verwacht dat ze snel zullen rijpen.

Het voordeel, voegt hij toe, is dat een neurale-first-pijplijn betekent dat vaste hardware-blokken of handmatige afstelling niet langer limieten opleveren voor beeldkwaliteit. Als fabrikanten de flexibiliteit hebben om bij te werken, te specialiseren en uitsluitend via software opnieuw te trainen, kunnen ze de beeldoutput per sensor en toepassing optimaliseren terwijl ze ook rekening houden met vermogen en latentie.

Beeldkwaliteit onder uitdagende omstandigheden

Donkere omstandigheden leveren de meeste zichtbare verbetering op, voegt hij toe. Standaard ISP-pijplijnen moeten vaak ruis onderdrukken en fijne details verliezen, waardoor verscherpingsalgoritmen over het hele frame worden toegepast die een beeld onnatuurlijk kunnen laten lijken of artefacten zoals halo’s en uitlopers van pixels kunnen veroorzaken.

“Je ziet het grootste verschil in lastige gevallen waarin klassieke ISPs detail, ruis en artefacten moeten afwegen — extreem weinig licht, hoge dynamische range en gemengde verlichting,” zegt Debbi. “In de praktijk betekent dit schonere schaduwen zonder glazige texturen, minder halo’s en over-verscherpingsartefacten, een stabielere kleur en minder temporele artefacten in video. Omdat de pijplijn end-to-end is geleerd, kunnen we de perceptuele kwaliteit en stabiliteit over scènes heen optimaliseren, niet alleen in geïsoleerde blokken zoals denoising of HDR.”

Daarnaast is de neurale pijplijn ontworpen om zich aan te passen aan scènes die dynamic zijn om ghosting en flicker te verminderen zonder natuurlijke details op te offeren wanneer onderwerpen bewegen, een langdurige uitdaging voor multi-frame klassieke pijplijnen.

Terwijl de huidige productfocus duidelijk op video ligt, erkent Debbi dat still photography ook kan profiteren van een volledig AI-gebaseerde ISP. Hij zegt dat marktvraag en implementatiemogelijkheden tot nu toe vooral gericht zijn geweest op videotoepassingen, maar de onderliggende architectuur is gebouwd rond het verwerken van opeenvolgingen van beelden om de beste resultaten te bereiken.

Aangezien telefooncamera’s vaak frames bracketen en stapelen om alles te produceren, van HDR- en low-lightbeelden, zou het loskoppelen van een deel van dit proces van de hardware theoretisch betere resultaten kunnen opleveren.

Visionary.ai erkent dit door op te merken dat de meeste neurale beeldvorming op het apparaat vandaag de ISP naartoe gebeurt, met een verwerking op YUV- of RGB-gegevens waarbij “significante sensorinformatie” al is weggegooid. Debbi gelooft dat de expertise van zijn bedrijf ligt in efficiënte RAW-domeinverwerking, hetzij door de ISP volledig te vervangen, hetzij door integratie in een bestaande pijplijn “Bayer to Bayer” om specifieke functies zoals AI-denoising uit te voeren.

Daarnaast kan de software-gedefinieerde AI-ISP effectief die kloof dichten voor platforms met beperkte of geen ISP-hardware, waardoor die chips camerafuncties kunnen ondersteunen die anders niet haalbaar zouden zijn.

Three photos show the inside of a stone tunnel, looking toward its bright, leafy exit. The tunnel appears dark, with sunlight illuminating the opening and rough stone walls.

Prestaties en vermogen in balans

Het kenmerk van AI-beeldvorming is dat het stroom verbruikt wanneer het continu op de achtergrond draait. Het systeem ondersteunt ook verschillende bedrijfsmodi, waardoor fabrikanten vermogen kunnen inruilen voor kwaliteit, afhankelijk van de toepassing.

“We kunnen draaien op een heel kleine NPU en verbruiken slechts iets meer dan beeldvorming met een traditionele ISP, en die kloof wordt kleiner,” zegt Debbi. “Naarmate NPUs sterker worden en onze modellen verder optimaliseren, verwachten we dat dit nog minder stroom zal verbruiken dan hardware-ISP’s.”

De WAVE-N NPU van Chips&Media is ontworpen voor taken met een hoge doorvoersnelheid in visieverwerking en dient als volledige referentie-implementatie voor de AI ISP, waarmee een end-to-end neurale beeldvorming-pijplijn in realtime draait op videogerichte AI-hardware.

Tegelijkertijd is de AI ISP zelf hardware-agnostisch, zodat fabrikanten de softwarepijplijn kunnen afstemmen op een breed scala aan NPUs of GPUs, afhankelijk van hun SoC-architectuur, energiebudget en kostendoelen. Ze kunnen bovendien in de loop der tijd aanzienlijke beeldverbeteringen leveren, waaronder betere HDR, verbeterde belichtingsfusie, verbeterde segmentatie en op use-case gebaseerde modi voor toepassingen, variërend van nachtelijk autorijden tot videoconferenties.

Inpasbaar met bestaande hardware

Ondanks de inspanningen om de manier waarop ISPs werken in camera’s en beeldverwerkingsapparatuur te doorbreken, erkennen beide bedrijven dat vaste-functie ISPs niet onmiddellijk zullen verdwijnen, “maar het zwaartepunt verschuift duidelijk naar programmeerbare AI-computers.”

Doordat het software-gebaseerd is, hangt de integratie van deze AI ISP grotendeels af van de positie van een OEM in de chipontwikkeling. Voor bestaand silicium kan Visionary.ai het “binnen enkele maanden” inzetten via alleen software-integratie. Voor chips die nog pre–tape-out zijn, kan het verplaatsen van meer beeldvormingsfunctionaliteit naar AI het aandeel dedicated ISP-silicium binnen dezelfde generatie verminderen.

“Software-updates gaan sneller dan silicium, passen zich beter aan aan nieuwe sensoren en gebruiksgevallen, en verlagen uiteindelijk kosten en complexiteit,” zegt hij. “De winnaars zullen de oplossingen zijn die real-time latentie, vermogen en consistente visuele kwaliteit op schaal bereiken.”

De bedrijven verwachten niet dat fixed-function ISPs onmiddellijk verdwijnen, maar ze geloven dat de langetermijntraject duidelijk is. Nu AI-computing krachtiger wordt en deploy tooling rijpt, worden software-gedefinieerde beeldvormingpijplijnen naar verwachting oudere ISPs op veel gebieden voorbijstreven.

Door op CES 2026 een volledige AI-gebaseerde ISP te presenteren, positioneren Chips&Media en Visionary.ai hun samenwerking als een vroeg teken van die verschuiving, een ontwikkeling die de manier waarop beeldkwaliteit wordt geleverd, geüpdatet en opgeschaald in de beeldvormingsindustrie kan hervormen.