Vydání #79:
Google představuje špičkové modely i aktualizace produktů
OpenAI pokračuje v uvádění novinek v rámci 12 dní OAI
Nové modely od Pika Labs či xAI
Ilya Sutskever po dlouhé době s přednáškou
Petr Baudiš (Rossum) na téma budování pro éru AGI
🏆 Zprávy týdne
Google uvádí Gemini 2 a mnoho dalšího
Google představil Gemini 2.0, nový model s vylepšenými multimodálními schopnostmi, nativní integrací nástrojů, pokročilými schopnostmi vyhledávání/výzkumu a několika experimentálními projekty.
Gemini 2.0
Gemini 2.0 Flash debutuje jako rychlejší a schopnější model, který překonává větší 1.5 Pro v několika benchmarcích, přičemž si zachovává podobnou rychlost.
Model nyní přímo generuje obrázky a vícejazyčný zvuk a zpracovává text, kód, obrázky i video.
Gemini 2.0 Stream Realtime je k dispozici zdarma a umožňuje interakce prostřednictvím textu, hlasu, videa nebo sdílení obrazovky.
Gemini-Exp-1206 je ještě pokročilejší model, který má na LM aréně aktuálně 1. příčku. Dostupné pro uživatele Gemini Advanced.
Chystané projekty (zatím nejsou veřejně dostupné):
Project Astra přináší multimodální konverzační schopnosti s pamětí na 10 minut, nativní integraci s aplikacemi Google a latenci odpovědí blízkou lidské reakci.
Project Mariner zavádí AI asistenci prostřednictvím prohlížeče Chrome a dosahuje 83,5% přesnosti při navigaci na webu.
Jules, nový asistent pro programování, se integruje přímo s GitHubem a pomáhá vývojářům plánovat a provádět úkoly pod dohledem.
Noví agenti zaměření na hry nyní dokážou analyzovat průběh hry v reálném čase a poskytovat strategické rady napříč různými typy her.
Asistent na desk research
Deep Research je nová agentická funkce; funguje jako AI asistent pro online výzkum. Je nyní dostupná v Gemini Advanced na desktopu a mobilním webu.
Funkce zahrnují vytváření vícestupňových výzkumných plánů, analýzu informací z celého webu a generování komplexních zpráv s odkazy na zdroje.
Další novinky od Googlu
Google DeepMind představuje Veo 2, model pro generování videa, který dokáže vytvářet klipy delší než dvě minuty v rozlišení až 4K, dostupný ve VideoFX prostřednictvím čekací listiny. Sklízí větší nadšení než Sora.
Google Labs představily nový experiment s názvem Whisk, kreativní AI nástroj, který kombinuje Imagen 3 a Gemini a pomáhá uživatelům remixovat a transformovat vizuály pomocí funkce image-to-image.
Google představuje NotebookLM Plus, podnikovou verzi služby NotebookLM s vyššími limity a přidanými kontrolami přístupu a správy dat. NotebookLM taky získal lepší a hezčí UI a brzy umožní interakce v rámci audio výstupů.
12 dní OpenAI
V minulém vydání jsme psali o prvním velkém oznámení: modelu o1 a spuštění ChatGPT Pro. To nejzajímavější z dalších dní:
Sora - dlouho očekávaný model pro generování videí; nyní k dispozici předplatitelům ChatGPT Plus a Pro prostřednictvím speciální platformy s několika novými editačními a kreativními funkcemi.
Canvas - pracovní plocha v ChatGPT (zejména pro psaní a programování) nyní dostupná všem uživatelům.
Pokročilý hlasový mód s videem a Santa mód - ChatGPT nyní dokáže analyzovat a reagovat na živé video vstupy a dokonce sdílet obrazovky během konverzace.
Projekty v ChatGPT - funkce pro organizaci souborů a chatů do složek, která je nyní k dispozici uživatelům aplikací Plus, Pro a Team a „brzy“ i uživatelům zdarma.
Vyhledávání univerzálně dostupné v rámci ChatGPT - i pro bezplatné uživatele.
⏩ Ve zkratce
OpenAI přidává o1 jako další model dostupný prostřednictvím API, ale zpočátku pouze pro vybrané vývojáře. Zároveň oznamuje nové verze GPT-4o a GPT-4o mini jako součást své Realtime API.
OpenAI předvedla v Paříži AI agenta poháněného GPT-4o, který zvládá složité úkoly zákaznické podpory, například vyřešil vrácení telefonu analýzou pravidel a nabídnutím řešení.
Microsoft spouští Phi-4, jazykový model s 14 miliardami parametrů, který podle nich překonává srovnatelné i větší modely, jako je Gemini Pro 1.5, v oblasti matematického uvažování.
Cognition Labs spustilo Devina, asistenta poháněného AI, který zefektivňuje vývojové workflow automatizací úkolů, jako jsou opravy chyb, vytváření pull requestů a refaktoring kódu.
Pika Labs vydalo verzi 2.0 svého AI generátoru videí, která přináší nový nástroj „Ingredients“. Tento nástroj umožňuje uživatelům začlenit vlastní obrázky do AI generovaných videí.
Meta vydala aktualizaci pro své Ray-Ban chytré brýle, která přináší živou AI asistenci, překlad jazyka v reálném čase a integraci se Shazamem pro rozpoznávání hudby.
Meta žádá americkou vládu, aby zablokovala přechod OpenAI na ziskovou společnost. (v tomto mají s xAI a Muskem shodu)
xAI představilo svůj vlastní model pro generování obrázků s kódovým názvem Aurora. Tento model nyní nahrazuje Flux - na záložce Grok na X.
Amazon spustil AGI San Francisco Lab, které vede bývalý tým z Adept. Cílem laboratoře je vyvíjet AI agenty schopné provádět akce v reálném světě.
Reddit představuje „Reddit Answers“, konverzační nástroj poháněný AI, který poskytuje kurátorské shrnutí diskuzí, doporučení a populárních názorů napříč platformou.
Výzkumník stojící za Advanced Voice Mode odhalil svůj další projekt: WaveForms. Firma se zaměří na vývoj AI hlasů, které dokážou zachytit jemné emocionální náznaky, jako je frustrace, váhání nebo nadšení.
🛠️ AI prakticky
Potřebujete si srovnat AI modely dle ceny a kvality v určitých úlohách? Artificial Analysis nabízí solidní přehled. Pohled na nedávno spuštěnou WebDev Arenu, kde LLMs soupeří ve vytváření webových aplikací, nabízí Tereza Tížková z E2B.
📚 Co si přečíst a zhlédnout
▶️ Ilya Sutskever v přednášce na NeurIPS 2024 říká, že internetová data byla jako fosilní paliva pro AI – a nyní je třeba hledat nové cesty.
▶️ SPC podcast s CPO Anthropicu a bývalým spoluzakladatelem Instagramu, Mikem Kriegerem. Pomalejší start, ale pak velmi dobré - pro foundery, PMs, vývojáře taky.
䷉ Petr Baudiš (CTO Rossum) se zamýšlí nad budováním produktů pro věk AGI.
💰Investice
🇺🇸 Databricks získalo $10B v rámci Series J financování. Jde o jedno z největších VC kol v historii, objemem překonávající mnohé IPOs. Vedoucím investorem je Thrive Capital, s účastí Andreessen Horowitz, Insight Partners a dalších.
🇺🇸 Speak získal $78M v rámci Series A financování. Startup zaměřený na výuku jazyků pomocí AI s důrazem na mluvení, nikoli gamifikaci. Vedoucím investorem byl Accel.
🇺🇸 Basis získal $34M v rámci Series A financování. NYC startup vyvíjející AI platformu pro automatizované účetnictví. Vedoucím investorem bylo Khosla Ventures, s účastí Nata Friedmana, Jeffa Deana, Adama D'Angela a dalších investorů.
🇺🇸 Twelve Labs získal $30M v rámci posledního investičního kola. Startup umožňuje počítačům analyzovat a porozumět video obsahu podobně jako lidé. Investory jsou Databricks Ventures, Snowflake Ventures, HubSpot Ventures, SK Telecom a In-Q-Tel.
🇺🇸 Vapi získal $20M v rámci Series A financování. Startup pomáhá firmám s nasazením AI hlasových agentů. Kolo vedli Bessemer, Y Combinator.
🇺🇸 TrueWind získal $13M v rámci Series A financování. Startup zaměřený na AI účetní asistenty. Kolo vedli Rho Capital a Thomson Reuters Ventures.
🇺🇸 Sekai získal $3.1M v rámci seed financování. Palo Alto startup, který nabízí AI-driven platformu pro tvorbu interaktivních příběhů spojujících postavy, umění a hudbu. Vedoucím investorem byl Hashed.
🇫🇷 Yampa získala €3M v rámci seed financování. Francouzský poskytovatel autonomních AI agentů pro zákaznické služby. Vedoucím investorem byl Partech.
🇬🇧 Refute získal $2.9M v rámci pre-seed financování. Londýnský startup, který vyvíjí AI nástroje pro detekci a boj proti dezinformacím online. Kolo vedli Playfair a Episode 1.
🆇 Výběr z X
S AI to zřejmě bude jako s tím podivným filmem - všechno, všude, najednou.
Od přátel a partnerů ke skutečně efektivním osobním asistentům, mentorům, či koučům – díky sdílení obrazu.
Spoluzakladatel Intercomu ve 🧵 sdílí příklady nových typů UI, které práce s AI vytváří.
🤖 a 📈
San Francisco, Q4 2024. Připomnělo radu YC k prodeji vertikálního AI softwaru: zaměřte se rovnou na lídry; nesnažte se prodávat lidem, jejichž práci máte nahradit.