Claude od Anthropicu ovládá počítač

Největší konkurent OpenAI taky uvádí vylepšené modely

Oct 24, 2024

Vydání #73:

Anthropic nabízí v betě funkci ovládání počítače
xAI vydává v betě API přístup
Nové modely od Cohere, Mety, IBM, Mistralu
Perplexity spouští interní vyhledávání a čelí žalobě News Corp
Čtení od Sequoia Capital a a16z

🏆 Zpráva týdne

Anthropic uvádí Claude 3.5 Haiku, 3.5 Sonnet, a schopnost “použití počítače”

An illustration of Claude navigating a computer cursor

Vylepšené modely:

Vylepšený model Sonnet 3.5 je výrazně lepší v programování a používání nástrojů, překonává ostatní modely v klíčových benchmarcích.
Nový model Haiku 3.5 odpovídá schopnostem předchozích špičkových modelů za nižší náklady a vyšší rychlost.

Použití počítače:

Anthropic uvedl, že model naučil „obecné počítačové dovednosti“, čímž ho přiblížil lidskému způsobu práce.
Claude nyní dokáže autonomně navigovat v počítačových rozhraních a provádět složité úkoly napříč více aplikacemi a webovými stránkami. Vývojáři mohou nasměrovat Claudea, aby používal počítače stejným způsobem jako lidé – tím, že se dívá na obrazovku, pohybuje kurzorem, kliká na tlačítka a píše text. Claude 3.5 Sonnet je prvním AI modelem, který nabízí použití počítače ve veřejné beta verzi.
Anthropic upozornil, že použití počítače je stále nedokonalé (včetně několika vtipných příkladů), a doporučil testovat funkci na úkolech s nízkým rizikem, dokud se dovednosti nezlepší.
Dostupné přes API.

⏩ Ve zkratce

Muskovo xAI uvolňuje Grok API, což může potenciálně otřást trhem s AI, kterému dominují OpenAI a Anthropic.
Microsoft oznámil, že příští měsíc uvede do veřejného preview autonomní AI agenty prostřednictvím Copilot Studio.
Google přidává možnost pro uživatele NotebookLM přizpůsobit si zvukové souhrny, spouští pilotní projekt NotebookLM Business a uvádí, že nástroj používá více než 80 000 organizací.
Google uvolňuje open-source nástroj SynthID Text, který umožňuje vývojářům značit (vodoznak) a detekovat text generovaný modely, dostupný pod licencí Apache 2.0.
Ideogram právě představil nové pracoviště poháněné AI s názvem Canvas, které zavádí pokročilé nástroje jako Magic Fill a Extend pro kombinaci úpravy obrázků a generování nových kreativních workflow.
Asana představila AI Studio, platformu bez nutnosti programování, která týmům umožňuje navrhovat a nasazovat AI agenty pro automatizaci workflow.
Cohere vylepšilo svůj model Embed 3 o multimodální schopnosti, což podnikům umožňuje provádět RAG vyhledávání napříč textovým a obrazovým obsahem.
Inflection AI spustila Agentic Workflows.
Stability AI vydává Stable Diffusion 3.5 Large, model s 8 miliardami parametrů, který vytváří 1MP obrázky, a 3.5 Large Turbo, přičemž plánuje vydat 3.5 Medium 29. října.
Perplexity čelí žalobě od News Corp (Murdoch, vlastní např. WSJ), The New York Times poslali varování (cease and desist dopis). Vadí jim, že Perplexity shrnuje jejich obsah; uživatelé tak neklikají na odkazy a původní zdroj, který má médiím jako vlastníkovi licence přinášet tržby.
Perplexity spouští Internal Knowledge Search pro vyhledávání na webu nebo v interních souborech a Spaces, způsob organizace výzkumu. Pro své Pro a Enterprise zákazníky.
Perplexity představuje Reasoning Mode pro vylepšení vícevstupového zpracování dotazů pro komplexní AI výzkum.
Meta představila Spirit LM, svůj první open-source multimodální jazykový model, který je schopen integrovat textové a hlasové vstupy a výstupy, ale pouze pro nekomerční použití.
The Open Source Initiative uvádí, že Meta "znečišťuje" pojem open-source tím, že jej používá pro Llama, a plánuje příští týden zveřejnit svou definici open-source AI.
IBM spouští své open-source modely Granite 3.0, včetně obecných verzí s 2 miliardami a 8 miliardami parametrů a modelů Mixture-of-Experts, zaměřených na firemní zákazníky.
Mistral vydává AI modely Les Ministaux ve verzích s 3 miliardami a 8 miliardami parametrů a s 128 tisíci kontextovými okny, zaměřené na osobní počítače a telefony.
Výzkumníci z ETH Zurich představili metodu využívající YOLO modely k obejití systému reCAPTCHAv2 se 100% přesností.
Dropbox spouští Dash for Business – univerzální vyhledávací nástroj poháněný AI napříč pracovními aplikacemi, který umožňuje najít, shrnout a organizovat obsah pomocí přirozeného jazyka.
ElevenLabs představuje systém generování hlasu z textu, který nám umožňuje okamžitě vytvářet vlastní hlasy.

🛠️ AI prakticky

Vyzkoušejte si NotebookLM od Googlu. Nahrajte třeba PDF s odborným článkem a poslechněte si jej jako podcast (jen v angličtině). Zde je ukázka podcastu, kde 2 AI moderátoři probírají široce sdílenou esej CEO Anthropicu o tom, co vše dobrého nám AI přinese.

📚 Co si přečíst

䷉ Sequoia vydala skvělý článek o evoluci generativní AI a zdůrazňuje posun k uvažování (“systém 2”) a příležitosti, které otevírá.

䷉ a16 sdílí strategie pro AI produkty tady a tady.

䷉ Historický pohled na Microsoft a AI, od výzkumu po reálné aplikace, nedávný pokrok, konkurenci, výzvy a budoucnost.

💰Investice

🇺🇸 Decagon získal $65M v rámci Series B financování. Startup nabízí AI-powered agenty pro zákaznický servis. Vedoucím investorem byl Bain Capital Ventures.

🇺🇸 Galileo získal $45M v rámci Series B financování. Startup pomáhá společnostem ladit, hodnotit, sledovat a chránit jejich AI modely. Vedoucím investorem byl Scale Venture Partners.

🇺🇸 TollBit získal $24M v rámci Series A financování. Společnost nedávno spustila tržiště pro zpeněžení obsahu pro vydavatele a AI společnosti. Vedoucím investorem byl Lightspeed Ventures.

🇨🇿 E2B získalo $11.5M v rámci seed financování. Startup vytváří cloudové prostředí a infrastrukturu pro AI agenty a use-casy. Vedoucím investorem byl Decibel Partners.

🇫🇮 DataCrunch získal $13M v rámci seed financování. Společnost prodává GPU „as-a-service“, slibující snížení nákladů na AI zpracování. Z toho $7.6M bylo v podobě equity od investorů včetně ByFounders, J12 Ventures a Oskari Saarnemaa (spoluzakladatel Aiven), a $5.4M v podobě dluhu od Local Tapiola a Nordea.

🇺🇸 Abel získal $5M v rámci seed financování. Společnost vyvíjí AI, která využívá záběry z kamer a další data k vyplňování policejních zpráv.

🆇 Výběr z X

Proč stále používat ChatGPT? Odpověď může být: pokročilý hlasový mód (lze i v EU přes VPN, rychlý návod), ale hlavně poslední modely jako o1 a o1 preview. Claude od Anthropicu je ale rozhodně solidní alternativa.

To, že se vyhledávání stalo jedním z nejčastějších způsobů užívání LLMs, se dalo čekat. Lidé chtějí odpovědi, nikoli seznam modrých odkazů. Chce to ale trénink.

Co naopak lidé stále nedoceňují, je to, jak velký trh jsou AI přátelé a partneři. Prozkoumané consumer nápady má a16z.

🤖 a 👨‍💻

Představte si hraní Age of Empires proti posledním modelům, které uvažují v krocích, čtou obrazovku v reálném čase, a umí ovládat počítač. A nebo s nimi. Ostatně, herní podvádění s AI je značný a stále rostoucí problém.

r/ChatGPT - BACK IN MY DAY WE DIDN'T HAVE AI WE PLAYED VIDEO GAMES AGAINST "THE COMPUTER"

Pro další novinky mrkněte na náš Twitter, LinkedIn či blog.

Miton AI Newsletter

Discussion about this post