Robert Bomark

Lär dig AI 🇸🇪

Activity

Mon

Wed

Fri

Sun

Aug

Sep

Oct

Nov

Dec

Jan

Feb

Mar

Apr

May

Jun

What is this?

Less

Memberships

Svenska AI-Akademin(Gratis)

3.5k members • Free

Lär dig AI 🇸🇪

937 members • Free

AI Studion Sverige

82 members • Free

2 contributions to Lär dig AI 🇸🇪

Linda von Beetzen

May 20 •

Allmänt

Bästa plattformen för transkribering av längre mötesvideo?

Hej på er! Jag behöver transkribera en mötesvideo på cirka 1 timme och tar gärna emot tips. Vilken plattform eller tjänst skulle ni rekommendera för att: 1. Ladda upp en video på cirka 1 timme 2. Få hela videon transkriberad till text Tacksam för alla rekommendationer! Vänliga hälsningar Linda

New comment May 29

Robert Bomark

0 likes • May 29

Hej Linda! Ett annat alternativ är VisionaryAI Suite som jag själv utvecklar. Programmet kan transkribera längre ljud- och videofiler lokalt på den egna datorn, men även gå ett steg längre genom att identifiera talare, skapa tidslinjer, generera sammanfattningar och analysera innehållet med AI. För möten kan det vara väldigt praktiskt att få både transkription, talaruppdelning och en sammanfattning av vad som faktiskt diskuterades. Går att läsa mer om programmet här: bomarkanalys.se Jag är alltid nyfiken på att höra hur andra löser sina transkriberingsflöden också 😊

Robert Bomark

May 20 •

Allmänt

Ett stort genombrott för Vision och multimodal videoförståelse

Nu börjar VisionaryAI Suite faktiskt nå en nivå där det känns som något mycket större än ett vanligt AI-projekt 🤯🔥 Jag heter Robert och har under lång tid byggt ett lokalt AI-system för att analysera bilder, video och ljud med multimodal AI. De senaste veckorna har jag gjort några riktigt stora genombrott kring Vision och multimodal videoförståelse. Systemet kan nu: • analysera riktiga videobildrutor med Vision-modeller • koppla visuella händelser till exakt tidslinje • kombinera vision, tal, OCR och metadata • bygga semantisk förståelse över tid • skilja mellan observation, tolkning och osäkra antaganden • kontrollera hallucinationer och grounding • skapa sökbar multimodal tidslinjeintelligens Det som känns mest spännande är att detta nu börjar gå från klassisk AI tagging till något som mer liknar en riktig multimodal media intelligence plattform. Och allt körs lokalt genom LM Studio och Vision-modeller 😅🔥 Jag har också byggt mycket kring semantiskt minne, grounded cinematic scene descriptions, hallucinationskontroll och tidslinjebaserad scenförståelse. Det känns faktiskt rätt surrealistiskt att se systemet förstå videoklipp scen för scen och koppla ihop vad som syns, vad som sägs och vad som händer över tid. Sibbe, jag tror faktiskt detta börjar närma sig en nivå där det skulle vara väldigt spännande att låta fler AI-intresserade människor testa det 🤩 Jag är genuint nyfiken på vad människor här inne tycker om riktningen detta är på väg mot.

1-2 of 2

Level 1

2points to level up

Robert Bomark

@robert-bomark-6478

Vibecoding user

Active 31d ago

Joined Mar 31, 2026

Contributions

Followers

Following