OpenAI uvádí GPT-4o

Nejnovější model zvládá text, audio, obrázky, i video

May 14, 2024

Vydání #54:

Aktualizace GPT-4 přináší nové funkce a případy užití
Google uvádí AlphaFold 3 a Med-Gemini
Microsoft pracuje na modelu srovnatelném s GPT-4
Nový AI lab v Paříži získává na start $200M
Rozhovory s Altmanem, Hassabisem, Druckenmillerem

🏆 Zpráva týdne

OpenAI uvádí GPT-4o

GPT-4o („o“ jako „omni“) je krokem k mnohem přirozenější interakci mezi člověkem a počítačem - jako vstup přijímá libovolnou kombinaci textu, zvuku a obrazu a generuje libovolnou kombinaci textových, zvukových a obrazových výstupů.

Lepší hlasová zkušenost – nově je možné ChatGPT skočením do řeči přerušovat, získat jeho audio odpověď v různých hlasových provedeních (třeba robotickém nebo zpěvem) a co je možná nejzajímavější, využít jej k analýze přijímaného audia od uživatele. V rámci dema ukazovali, jak ChatGPT dokáže analyzovat dechovou frekvenci a poskytnout zpětnou vazbu k uklidnění. ChatGPT tak nově bude výrazně empatičtější. Hlasový mód byl dosud často frustrující funkcí – zatímco přerušit ChatGPT hlasem nešlo, při menší pauze předpokládal, že jste domluvili (Call Annie toto umí již >rok). Nově je hlasová konverzace rychlejší, plynulejší, lidštější (lepší intonace, pauzy) – opět se tak připomíná film Her.
OpenAI tvrdí, že GPT-4o má lepší výkon v přibližně 50 jazycích. Působivé demo ukazuje, že tlumočení s AI je vyřešený problém.
OpenAI taky demonstruje, že nově zvládne model ještě lepší překlad textu i interpretaci všeho z obrázků a videa. Po zapnutí kamery či sdílení obrazovky bude možné vést konverzaci s ChatGPT ohledně toho, co skrz zařízení vidí. Prakticky tak získává ChatGPT možnost vidět svět “lidskýma” očima a pomáhat v celé řadě situací a scénářů (od zpětné vazby na vzhled po řešení matematických problémů v reálném čase). OpenAI tvrdí, že do budoucna bude možné vést zcela plynulou video konverzaci s ChatGPT. Do budoucna tak bude možné např. ukázat ChatGPT živý sportovní přenos a nechat si vysvětlit pravidla.
Ohromující je pak demo, které ukazuje jak vypadá budoucnost personalizovaného vzdělávání.

16 příkladů užití ve vlákně na X (pro zobrazení nutné mít X účet)
OpenAI také vydává desktopovou verzi ChatGPT, která je navržena tak, aby se hladce integrovala do všeho, co děláte na počítači. Klávesovou zkratkou (Option + Space) můžete ChatGPT okamžitě položit otázku. Přímo v aplikaci můžete také pořizovat snímky obrazovky a diskutovat o nich. V demu ukazují, jak jednoduše využít pro analýzu kódu. Aplikace má i hlasový mód. Pracují také na verzi pro Windows.
Textové a obrazové funkce GPT-4o se nyní začínají rozšiřovat mezi placené uživatele ChatGPT Plus a Team a brzy budou dostupné i pro firemní uživatele. Přístup získají také uživatelé zdarma, ovšem s omezeným množstvím požadavků (díky tomuto získají řadu dříve placených funkcí zdarma). Hlasová verze GPT-4o začne být dostupná „v nejbližších týdnech“.
Vývojáři budou moci využívat textové a vizuální funkce GPT-4o, přičemž funkce zvuku a videa budou v nadcházejících týdnech dostupné pro malou skupinu OAI partnerů. GPT4-o pak bude mít oproti Turbo 2x větší rychlost při poloviční ceně, a k tomu 5x více limitu požadavků (rate limits).
Představují taky nový vzhled ChatGPT, který je navržen tak, aby působil přátelštěji. Nová hlavní stránka, rozvržení zpráv a další prvky.

⏩ Ve zkratce

How can Google DeepMind's AlphaFold 3 change the world using AI for the better [read now] - IBTimes India

Google oznámil AlphaFold 3, který dokáže s nebývalou přesností předpovídat strukturu a interakce molekul.
Google představil Med-Gemini, sadu AI modelů vyladěných pro zdravotnictví, která stanovuje nové rekordy v celé řadě lékařských měřítek.
Google oznámil službu Google Threat Intelligence, která integruje model Gemini.
Souhrny zpráv od Groku (xAI), nazývané „Příběhy“, jsou k dispozici prémiovým předplatitelům služby X - později se očekává jejich širší rozšíření. Shrnutí bude tvořené z toho, co o zprávě říkají uživatelé, nikoli samotnou zprávou.
Francouzští výzkumníci vytvořili OpenStreetView-5M, bezplatnou a volně přístupnou datovou sadu pro trénink AI systémů ke geolokaci obrázků.
GitHub oznámil službu Copilot Workspace. Jedná se o cloudové IDE s agenty založenými na Copilotu, kteří mohou plánovat, psát a ladit kód.
ElevenLabs představuje model pro generování hudby a ukazuje ukázky písní s texty generovanými na základě textových podnětů.
Amazon dává dispozici Q, asistenta s AI pro firmy a vývojáře.
Anthropic uvedl na trh plán Team za 30 dolarů měsíčně spolu s novou mobilní aplikací (iOS).
Bloomberg uvádí, že Apple brzy uzavře dohodu s OpenAI o použití jejich technologií v iPhonu.
Microsoft vyvíjí MAI-1, nový LLM, který může dosahovat přibližně stejných výsledků jako současné přední modely, včetně GPT-4.
Microsoft spustil službu genAI pro americké zpravodajské služby, která využívá izolovaný model GPT-4 k bezpečné analýze citlivých informací.
Japonsko testuje AI systém pro detekci medvědů poté, co se zvýšil počet útoků,
Jihokorejka přišla o 50 tisíc dolarů kvůli milostnému podvodu poté, co ji deepfake video s Elonem Muskem přesvědčilo, že mluví opravdu s Muskem.
Audible nyní nabízí více než 40 000 audioknih vytvořených pomocí AI.
Se Zapier AI se dají dělat skvělé věci.

📚 Co si přečíst a zhlédnout

▶️ Investor Stanley Druckenmiller říká, že AI je dlouhodobě podceňovaná (byť krátkodobě možná nadhodnocená), věří Nvidii a zbožňuje Perplexity.

▶️ Sam Altman na půdě Stanfordu a taky v All-In podcastu. Pro čtenáře newsletteru zřejmě nic nového, zajímavé zejména jako ukázka schopnosti mluvit a nic neříct.

▶️ Demis Hassabis v rozhovoru na posledním TEDu o tom, jak AI může pomoci najít odpovědi na největší otázky světa i vesmíru.

䷉ TechCrunch rozhovor se CEO Quory Adamem D'Angelem – o AI, chatbotové platformě Poe a o tom, proč OpenAI není konkurentem.

💰Investice

🇬🇧 Wayve získalo $1.05B v kole Series C, které vedla SoftBank. Firma vyvíjí AI pro autonomní řízení, které nabízí vícero automobilkám.

🇫🇷 Holistic AI uzavřel první část investičního kola ve výši $200M. Nový AI lab složený z ex-DeepMind týmu chce stavět modely s lepší pamětí a schopnostmi plánování.

🇺🇸 DatologyAI získalo $46M v rámci Series A financování. Startup vyvíjí platformu, která umožní firmám automaticky kompilovat data pro trénink AI.

🇺🇸 Elisity získala $37M v rámci Series B. Společnost se specializuje na mikro-segmentaci založenou na identitě.

🇺🇸 Lamini získal $25M. Startup se sídlem v Palo Alto vyvíjejí platformu pro nasazování generativní AI ve firmách.

🇪🇸 LuzIA, AI asistent pro WhatsApp, získal $19M od investorů jako monashees, Khosla Ventures, Endeavor Catalyst.

🇮🇹 Futura získala €14M v rámci financování Series A. Investici vedlo Eurazeo. Startup pomáhá studentům přizpůsobovat a sledovat jejich učení.

🇺🇸 Sagetap získal seed financování ve výši $6.8M. Vytváří “první tržiště pro nákup podnikového softwaru založené na umělé inteligenci”.

🇺🇸 Danti získává $5M na rozvoj svého AI poháněného vyhledávače na geografická data.

🆇 Výběr z X

Robin Raszka komentuje: 2025: real-time 3D.

Velmi užitečná funkce pro rychlejší konverzaci s ChatGPT. Označte část textu a kus promptu máte hotový. Video ukázka na odkazu ⬇️

Apple v AI vývoji zatím nepředvedl s výjimkou pár malých modelů a publikovaného výzkumu prakticky nic významného. Zpětný odkup akcií tak spíš budí otázky.

AR brýle (které dělá Meta s Ray-Ban) jsou dnes jedním z mála užitečných HW produktů se zabudovanou AI. (O Rabitt R1 ani Humane AI Pin se to říct nedá).

🤖 a ⁇

Anthropic: nabídka práce prompt engineera za $405k / rok.

Taky Anthropic: přidává do konzole asistenta, který pro sebe prompty píše sám.

Pro další novinky mrkněte na náš Twitter, LinkedIn či blog.

Miton AI Newsletter

Discussion about this post