OpenAI vydává model o1 (dříve 🍓)

Největší úspěchy sklízí v matice a exaktních disciplínách

Sep 18, 2024

Vydání #69:

OpenAI zpřístupňuje modely o1-mini a o1-preview
Velká aktualizace pro Copilot od Microsoftu
Agenti od Oracle, Salesforce, Slacku, Microsoftu
Podcast s Rastym Turkem o AI, médiích, zábavě, ale i zvláštnostech founderů

🏆 Zprávy týdne

OpenAI představuje modely o1 a o1-preview

o1 Hub > PageTimelineCard > Introducing OpenAI o1-preview > Media > Media Item

OpenAI představila svůj nejnovější model o1, dříve nesl označení „Strawberry“, ve dvou verzích: o1-preview a o1-mini.

Na rozdíl od dřívějších modelů o1 „přemýšlí, než odpoví“, a využívá podrobný řetězec “myšlenek” před odpovědí. To mu umožňuje zdokonalovat svůj proces, zkoušet různé strategie a rozpoznávat chyby, což vede k přesnějším odpovědím.
V testech tento přístup umožnil modelu dosahovat výkonů blízkých inteligenci lidí s PhD v oblastech, jako je fyzika, chemie a biologie.
Model o1-preview vyniká v programování, matematice a překonává GPT-4o v náročných úlohách s menším počtem halucinací. Například model o1-preview vyřešil 83 % úloh kvalifikační zkoušky Mezinárodní matematické olympiády ve srovnání s 13 % úloh u modelu GPT-4o.
o1 mini je optimalizovaný především pro programování a úlohy STEM (science, technology, mathematics, engineering); stojí o 80 % méně než o1-preview.
Oba modely jsou v současné době k dispozici všem uživatelům ChatGPT Plus a Team, přičemž zpočátku platí limity používání.

Extra perspektiva

Modely otevřely diskusi o tom, že kvalita výstupu modelu už není omezena jen předtréninkem. Kvalita modelu o1 se zvyšuje, když se mu dá delší čas na „přemýšlení“ nad problémem, a tuto dobu, kterou má na „přemýšlení“, lze změnit.
- Předchozí model 4o je omezen na výpočet (compute) v době tréninku (předtrénink), zatímco o1 využívá tento výpočet a výpočet v době testu (delší přemýšlení o problému a kontrola, zda jeho odpověď dává smysl).
Za úspěchem je třeba vidět i velké investice do získání expertních dat.
Racionální pohled od AI výzkumníka Delipa Rao uklidňuje nadšení ze schopností uvažování. Říká, že srovnávat tyto “modely”, jež v pozadí udělají několik tahů v sekvenci, jež nazývají “uvažování” (a jsou tak z povahy spíše agentickými systémy) s ostatními, které mají jen jeden tah, není správné. Je to hlavně PR.

Microsoft přináší aktualizace svého Copilota

MSFT oznámil nové funkce a rozšíření integrace napříč aplikacemi Microsoft 365, jako jsou Excel, PowerPoint, Teams, Outlook, Word a OneDrive.

Copilot agenti: Pokročilí asistenti, kteří automatizují složité podnikové procesy, pracují na pozadí a samostatně vykonávají úkoly.
Agent Builder: Nástroj pro tvorbu vlastních agentů Copilot bez programování, který usnadňuje vývoj AI i netechnickým uživatelům.
Nástroj Narrative Builder v PowerPointu pro okamžité vytváření návrhů prezentací.
Funkce Outlooku „Prioritizuj můj inbox“, která shrnuje akce, které je třeba provést v e-mailu.
Copilot nově dostupný univerzálně v Excelu, verze s Pythonem, která umožní každému v přirozeném jazyce dělat pokročilou datovou analýzu, je zatím v preview.
Copilot Stránky: Nové kolaborativní plátno pro týmovou práci, které umožňuje interakci více uživatelů v reálném čase na trvalém, upravitelném obsahu.

⏩ Ve zkratce

Mistral vydává svůj první multimodální model, Pixtral 12B, který je k dispozici na GitHubu a Hugging Face a „brzy“ také prostřednictvím platforem Le Chat a Le Platforme.
Fei-Fei Li, uznávaná AI vědkyně, spouští World Labs; vyvíjí modely schopné chápat a vytvářet 3D prostředí.
Google představil DataGemma, první otevřené modely určené k propojení s reálnými daty ze služby Google Data Commons, jejichž cílem je omezit halucinace faktickými statistikami.
Salesforce uvádí na trh Agentforce, sadu AI agentů, kteří řeší úkoly v oblasti prodeje, marketingu, obchodu a zákaznických služeb, a to za cenu od 2 dolarů za konverzaci.
Slack představuje agenty, kteří umožňují placeným uživatelům přístup k agentům Salesforce (vlastní Slack), ale i třetích stran od firem jako Asana, Cohere, Adobe.
Oracle představil více než 50 agentů pro svou sadu Fusion Cloud Applications Suite, která je určena k automatizaci podnikových procesů napříč funkcemi, jako je správa kapitálu, dodavatelský řetězec a zákaznická zkušenost.
Anthropic představil Workspaces ve své API, která vývojářům umožňují spravovat několik různých nasazení Claude s podrobným řízením limitů výdajů, sazeb a správy přístupu.
Data o nehodách Waymo naznačují, že auta bez řidiče jsou výrazně bezpečnější než vozidla řízená lidmi, s menším počtem nehod způsobujících zranění a nasazení airbagů na ujetý kilometr.
UBS vyvinulo nástroj, který během 20 sekund analyzuje 300 000 společností a generuje nápady na fúze a akvizice a identifikuje potenciální kupce.
BlackRock a Microsoft plánují spustit fond v hodnotě více než $30B, který bude investovat do AI infrastruktury (budování datových center a energetických projektů).

📈 Pohled investora

Jan Barta z Pale Fire Capital o jeho AI investování v tištěném vydání Forbesu:

“Mě baví hrát AI z jiných úhlů. Třeba firmy dělající spoustu contracting prací ohledně datacenter, které mají objednávky na roky dopředu. Další věc je elektřina. V Americe výrobci elektřiny strašně vyrostli, protože její spotřeba se – i díky těm data centrům – velmi zrychluje. RWE, kde mám velkou pozici, je čtvrtý největší developer obnovitelných zdrojů v Americe a bude z vyšších cen elektřiny nepřímo benefitovat.”

📚 Co si přečíst, zhlédnout, a poslechnout

🎧 Rasty Turek v Miton podcastu Cinkátko: jeden z nejúspěšnějších zakladatelů z CEE regionu, který uspěl v USA, se podělí o svůj pohled na AI, budoucnost médií a zábavy, ale i rozdíly mezi podnikáním v Evropě a USA.

▶️ Podcast Google DeepMind: Jeff Dean, hlavní vědec DeepMindu a Google Research, hovoří o minulosti, současnosti a budoucnosti umělé inteligence, zejména o dlouhodobém potenciálu multimodálních modelů, jako je Gemini.

䷉ Nový startup World Labs od AI vědkyně Fei-Fei Li v profilu Wired.

💰Investice

🇺🇸 11xAI získal $24M v rámci Series A financování, vedeném Benchmark. Startup je zaměřený na vývoj AI botů, kteří automatizují end-to-end workflow.

🇺🇸 AceUp získal $22.5M v rámci Series A financování vedeném PJC. Bostonský startup poskytující AI poháněné služby business coachingu a výkonnostní analytiky.

🇫🇷 Jus Mundi získala €20M v sérii B. Kolo vedl Acton Capital. AI pro právníky.

🇬🇧 Ogre AI získala €3M financování. Kolo vedlo VERBUND X Ventures za účasti Early Game Ventures, Soulmates Ventures, MMC a Sofia Angels Ventures. Je to londýnská platforma pro předpovědi a správu v energetickém sektoru.

🇳🇱 Churned získal Є2.5M. Kolu vedly společnosti Newion a Volta Ventures, k nimž se připojila společnost Goldfish. Vyvíjí platformu pro řízení customer success.

Akvizice

🇺🇸 Mastercard kupuje Recorded Future, která využívá AI k identifikaci potenciálních hrozeb, za $2.65B. Prodávajícím je private equity firma Insight Partners.

🆇 Výběr z X

Jen mi v uších pořád zní CEO Anthropicu: skutečně spolehliví agenti jsou generaci až dvě daleko (v pojetí škály modelu, např. GPT-5).

YC je plný B2B AI startupů a na 5 AI meetupech v San Franciscu jsem neviděl jediný startup orientovaný na koncové zákazníky. Vše pro vývojáře nebo B2B.