DeepSeek: Mullistava tekoälymaisema

AIPU WATON GROUP

Johdanto

Jatkuva ahdistus kilpailevien suurten mallien, markkinaosuuksista kilpailevien pilvipalveluntarjoajien ja ahkerien siruvalmistajien keskuudessa - DeepSeek-ilmiö jatkuu.

Kevätjuhlan lähestyessä loppuaan DeepSeekin ympärillä vallitsee edelleen vahva jännitys. Viimeaikaiset juhlapyhät korostivat merkittävää kilpailua teknologiateollisuudessa, ja monet keskustelivat ja analysoivat tätä "monnia". Piilaakso kokee ennennäkemätöntä kriisiä: avoimen lähdekoodin kannattajat ilmaisevat jälleen mielipiteitään, ja jopa OpenAI arvioi uudelleen, oliko sen suljetun lähdekoodin strategia paras valinta. Uusi alhaisempien laskentakustannusten paradigma on laukaissut ketjureaktion sirujättien, kuten Nvidian, keskuudessa, mikä on johtanut ennätyksellisiin yhden päivän markkina-arvon laskuihin Yhdysvaltain osakemarkkinoiden historiassa, samalla kun valtion virastot tutkivat DeepSeekin käyttämien sirujen vaatimustenmukaisuutta. Vaikka DeepSeekistä on ulkomailla annettu ristiriitaisia ​​arvioita, kotimaassa se on kokenut poikkeuksellista kasvua. R1-mallin lanseerauksen jälkeen siihen liittyvä sovellus on kokenut liikenteen kasvun, mikä osoittaa, että sovellussektorien kasvu vetää koko tekoälyekosysteemiä eteenpäin. Positiivista on, että DeepSeek laajentaa sovellusmahdollisuuksia, mikä viittaa siihen, että ChatGPT:hen luottaminen ei ole tulevaisuudessa yhtä kallista. Tämä muutos on heijastunut OpenAI:n viimeaikaisissa toimissa, mukaan lukien o3-mini-nimisen päättelymallin tarjoaminen ilmaisille käyttäjille vastauksena DeepSeek R1:een, sekä sitä seuranneet päivitykset, jotka tekivät o3-mini-ajatteluketjusta julkisen. Monet ulkomaiset käyttäjät ilmaisivat kiitollisuutensa DeepSeekille näistä kehitysaskeleista, vaikka tämä ajatusketju toimiikin yhteenvetona.

Optimistisesti on selvää, että DeepSeek yhdistää kotimaisia ​​toimijoita. Keskittyessään koulutuskustannusten vähentämiseen useat ylävirran siruvalmistajat, pilvipalveluntarjoajat ja lukuisat startupit liittyvät aktiivisesti ekosysteemiin, mikä parantaa DeepSeek-mallin kustannustehokkuutta. DeepSeekin tutkimusten mukaan V3-mallin täydellinen kouluttaminen vaatii vain 2,788 miljoonaa H800 GPU -tuntia, ja koulutusprosessi on erittäin vakaa. MoE (Mixture of Experts) -arkkitehtuuri on ratkaisevan tärkeä esikoulutuskustannusten kymmenkertaistamiseksi verrattuna Llama 3:een, jossa on 405 miljardia parametria. Tällä hetkellä V3 on ensimmäinen julkisesti tunnustettu malli, joka osoittaa näin suurta MoE:n harvuutta. Lisäksi MLA (Multi Layer Attention) toimii synergistisesti, erityisesti päättelyn osa-alueilla. "Mitä harvempi MoE, sitä suurempi eräkoko tarvitaan päättelyn aikana laskentatehon täysimääräiseen hyödyntämiseen, ja KVCachen koko on keskeinen rajoittava tekijä; MLA pienentää KVCachen kokoa merkittävästi", totesi Chuanjing Technologyn tutkija AI Technology Review'lle tekemässään analyysissä. Kaiken kaikkiaan DeepSeekin menestys piilee useiden teknologioiden yhdistämisessä, ei vain yhden. Alan sisäpiiriläiset ylistävät DeepSeek-tiimin insinööritaitoja ja huomauttavat heidän erinomaisuudestaan ​​rinnakkaiskoulutuksessa ja käyttäjien optimoinnissa, uraauurtavien tulosten saavuttamisessa hiomalla jokaista yksityiskohtaa. DeepSeekin avoimen lähdekoodin lähestymistapa vauhdittaa entisestään suurten mallien kehitystä, ja on odotettavissa, että jos vastaavat mallit laajenevat kuviksi, videoiksi ja muuksi, tämä stimuloi merkittävästi kysyntää koko alalla.

Mahdollisuudet kolmannen osapuolen päättelypalveluille

Tiedot osoittavat, että julkaisunsa jälkeen DeepSeek on kerännyt 22,15 miljoonaa päivittäistä aktiivista käyttäjää (DAU) vain 21 päivässä, saavuttaen 41,6 % ChatGPT:n käyttäjäkunnasta ja ylittäen Doubaon 16,95 miljoonan päivittäisen aktiivisen käyttäjän rajan. Näin siitä on tullut maailman nopeimmin kasvava sovellus ja se on ohittanut Apple App Storen 157 maassa/alueella. Vaikka käyttäjiä on parveillut joukoittain, kyberhakkerit ovat hyökänneet DeepSeek-sovelluksen kimppuun armottomasti aiheuttaen merkittävää kuormitusta sen palvelimille. Alan analyytikot uskovat, että tämä johtuu osittain siitä, että DeepSeek käyttää koulutuskortteja, vaikka sillä ei ole riittävästi laskentatehoa päättelyyn. Alan sisäpiiriläinen kertoi AI Technology Review'lle: "Usein esiintyvät palvelinongelmat voidaan ratkaista helposti veloittamalla maksuja tai rahoittamalla useampien koneiden ostamista; viime kädessä se riippuu DeepSeekin päätöksistä." Tämä on kompromissi teknologian ja tuotteistamisen välillä. DeepSeek on pitkälti luottanut kvanttikvantisointiin omavaraisuutensa vuoksi, koska se on saanut vain vähän ulkopuolista rahoitusta, mikä on johtanut suhteellisen alhaiseen kassavirtapaineeseen ja puhtaampaan teknologiseen ympäristöön. Edellä mainittujen ongelmien vuoksi jotkut käyttäjät kehottavat DeepSeekiä sosiaalisessa mediassa nostamaan käyttökynnyksiä tai ottamaan käyttöön maksullisia ominaisuuksia käyttömukavuuden parantamiseksi. Lisäksi kehittäjät ovat alkaneet hyödyntää virallista API:a tai kolmannen osapuolen API:a optimointiin. DeepSeekin avoin alusta kuitenkin ilmoitti äskettäin: "Nykyiset palvelinresurssit ovat niukkoja, ja API-palvelun lataukset on keskeytetty."

 

Tämä epäilemättä avaa lisää mahdollisuuksia kolmannen osapuolen toimittajille tekoälyinfrastruktuurisektorilla. Viime aikoina useat kotimaiset ja kansainväliset pilvijättiläiset ovat lanseeranneet DeepSeekin malli-API-rajapintoja – ulkomaiset jättiläiset Microsoft ja Amazon olivat ensimmäisten joukossa, jotka liittyivät mukaan tammikuun lopussa. Kotimainen johtaja Huawei Cloud teki ensimmäisen askeleen julkaisemalla DeepSeek R1- ja V3-päättelypalvelut yhteistyössä Silicon-pohjaisen Flow'n kanssa 1. helmikuuta. AI Technology Review'n raportit osoittavat, että Silicon-pohjaisen Flow'n palvelut ovat nähneet käyttäjätulvan, joka on käytännössä "kaatanut" alustan. Kolme suurta teknologiayritystä – BAT (Baidu, Alibaba, Tencent) ja ByteDance – julkaisivat myös edullisia, rajoitetun ajan tarjouksia 3. helmikuuta alkaen, mikä muistuttaa viime vuoden pilvitoimittajien hintakilpailuja, jotka DeepSeekin V2-mallin lanseeraus sytytti ja joissa DeepSeekiä alettiin kutsua "hintamurhaajaksi". Pilvipalveluntarjoajien kiihkeät toimet heijastelevat Microsoft Azuren ja OpenAI:n aiempia vahvoja siteitä, jolloin Microsoft teki vuonna 2019 huomattavan miljardin dollarin investoinnin OpenAI:hin ja hyötyi ChatGPT:n lanseerauksen jälkeen vuonna 2023. Tämä läheinen suhde alkoi kuitenkin murentua Metan julkaistettua Llaman avoimen lähdekoodin ohjelmistona, mikä mahdollisti muiden Microsoft Azure -ekosysteemin ulkopuolisten toimittajien kilpailla heidän suurilla malleillaan. Tässä tapauksessa DeepSeek ei ole ainoastaan ​​ohittanut ChatGPT:tä tuotekehityksessä, vaan on myös ottanut käyttöön avoimen lähdekoodin malleja o1-julkaisun jälkeen, samalla tavalla kuin Llaman GPT-3:n elvyttämistä ympäröivä innostus herätti.

 

Todellisuudessa pilvipalveluntarjoajat myös asemoituvat tekoälysovellusten liikenneyhdyskäytäviksi, mikä tarkoittaa, että kehittäjien kanssa syventyvät suhteet tarkoittavat ennaltaehkäiseviä etuja. Raporttien mukaan Baidu Smart Cloudilla oli yli 15 000 asiakasta, jotka käyttivät DeepSeek-mallia Qianfan-alustan kautta mallin lanseerauspäivänä. Lisäksi useat pienemmät yritykset tarjoavat ratkaisuja, mukaan lukien Silicon-based Flow, Luchen Technology, Chuanjing Technology ja useat tekoälyinfrastruktuurin tarjoajat, jotka ovat lanseeranneet tuen DeepSeek-malleille. AI Technology Review on havainnut, että DeepSeekin lokalisoitujen käyttöönottojen nykyiset optimointimahdollisuudet ovat pääasiassa kahdella alueella: toinen on MoE-mallin harvuusominaisuuksien optimointi käyttämällä sekaperusteista lähestymistapaa 671 miljardin parametrin MoE-mallin käyttöönottoon paikallisesti hyödyntäen samalla hybridi-GPU/CPU-päättelyä. Lisäksi MLA:n optimointi on elintärkeää. DeepSeekin kahdella mallilla on kuitenkin edelleen joitakin haasteita käyttöönoton optimoinnissa. ”Mallin koon ja lukuisten parametrien vuoksi optimointi on todellakin monimutkaista, erityisesti paikallisissa käyttöönotoissa, joissa optimaalisen tasapainon saavuttaminen suorituskyvyn ja kustannusten välillä on haastavaa”, totesi Chuanjing Technologyn tutkija. Merkittävin este on muistikapasiteettirajoitusten ylittäminen. ”Käytämme heterogeenistä yhteistyölähestymistapaa hyödyntääksemme täysimääräisesti suorittimia ja muita laskentaresursseja. Sijoitamme vain harvan MoE-matriisin jakamattomat osat suorittimen/DRAM-muistiin prosessoitavaksi tehokkaiden suoritinoperaattoreiden avulla, kun taas tiheät osat pysyvät näytönohjaimella”, hän selitti edelleen. Raporttien mukaan Chuanjingin avoimen lähdekoodin KTransformers-kehys sisällyttää ensisijaisesti erilaisia ​​strategioita ja operaattoreita alkuperäiseen Transformers-toteutukseen mallin kautta, mikä parantaa merkittävästi päättelynopeutta käyttämällä menetelmiä, kuten CUDAGraph. DeepSeek on luonut mahdollisuuksia näille startup-yrityksille, sillä kasvuhyödyt alkavat näkyä; monet yritykset ovat raportoineet huomattavasta asiakaskunnan kasvusta DeepSeek-rajapinnan lanseerauksen jälkeen saatuaan aiemmilta asiakkailta tiedusteluja optimoinnista. Alan sisäpiiriläiset ovat huomauttaneet: "Aiemmin vakiintuneet asiakasryhmät olivat usein sidottuja suurempien yritysten standardoituihin palveluihin ja sidottuja mittakaavaetujensa vuoksi. Kun DeepSeek-R1/V3:n käyttöönotto oli saatu päätökseen ennen kevätjuhlia, saimme kuitenkin yhtäkkiä yhteistyöpyyntöjä useilta tunnetuilta asiakkailta, ja jopa aiemmin passiiviset asiakkaat ottivat yhteyttä esitelläkseen DeepSeek-palveluitamme." Tällä hetkellä näyttää siltä, ​​että DeepSeek tekee mallien päättelykyvystä yhä tärkeämpää, ja suurten mallien laajemman käyttöönoton myötä tämä vaikuttaa edelleen merkittävästi tekoälyinfrastruktuurialan kehitykseen. Jos DeepSeek-tason malli voitaisiin ottaa käyttöön paikallisesti alhaisin kustannuksin, se auttaisi suuresti valtion ja yritysten digitaalisen transformaation pyrkimyksiä. Haasteita on kuitenkin edelleen, sillä joillakin asiakkailla voi olla korkeita odotuksia suurten mallien ominaisuuksista, mikä tekee selvemmäksi, että suorituskyvyn ja kustannusten tasapainottamisesta tulee elintärkeää käytännön käyttöönotossa. 

Jotta voidaan arvioida, onko DeepSeek parempi kuin ChatGPT, on tärkeää ymmärtää niiden keskeiset erot, vahvuudet ja käyttötapaukset. Tässä on kattava vertailu:

Ominaisuus/näkökohta DeepSeek ChatGPT
Omistajuus Kiinalaisen yrityksen kehittämä OpenAI:n kehittämä
Lähdemalli Avoimen lähdekoodin Omistusoikeudellinen
Maksaa Ilmainen käyttää; edullisemmat API-käyttövaihtoehdot Tilaus- tai käyttöperusteinen hinnoittelu
Mukauttaminen Erittäin muokattavissa, jolloin käyttäjät voivat säätää ja rakentaa sen pohjalta Rajoitettu räätälöintimahdollisuus
Suorituskyky tietyissä tehtävissä Erinomaista tietyillä alueilla, kuten data-analytiikassa ja tiedonhaussa Monipuolinen ja vahva suorituskyky luovassa kirjoittamisessa ja keskustelutehtävissä
Kielituki Vahva keskittyminen kiinan kieleen ja kulttuuriin Laaja kielituki, mutta yhdysvaltalaiskeskeinen
Koulutuskustannukset Pienemmät koulutuskustannukset, optimoitu tehokkuudelle Korkeammat koulutuskustannukset, jotka vaativat huomattavia laskentaresursseja
Vastausvaihtelu Saattaa tarjota erilaisia ​​​​vastauksia, joihin mahdollisesti vaikuttaa geopoliittinen konteksti Johdonmukaiset vastaukset koulutusdatan perusteella
Kohdeyleisö Suunnattu kehittäjille ja tutkijoille, jotka haluavat joustavuutta Suunnattu tavallisille käyttäjille, jotka etsivät keskustelutaitoja
Käyttötapaukset Tehokkaampi koodin luontiin ja nopeisiin tehtäviin Ihanteellinen tekstin luomiseen, kyselyihin vastaamiseen ja vuoropuheluun

Kriittinen näkökulma Nvidian mullistamiseen

Tällä hetkellä Huawein lisäksi useat kotimaiset siruvalmistajat, kuten Moore Threads, Muxi, Biran Technology ja Tianxu Zhixin, ovat myös sopeutumassa DeepSeekin kahteen malliin. Eräs siruvalmistaja kertoi AI Technology Review'lle: "DeepSeekin rakenne osoittaa innovaatiota, mutta se on edelleen LLM. DeepSeekiin sopeutumisemme keskittyy pääasiassa sovellusten päättelyyn, mikä tekee teknisestä toteutuksesta melko suoraviivaista ja nopeaa." MoE-lähestymistapa vaatii kuitenkin korkeampia vaatimuksia tallennuksen ja jakelun suhteen sekä yhteensopivuuden varmistamisen kotimaisten sirujen kanssa käyttöönotettaessa, mikä aiheuttaa lukuisia teknisiä haasteita, jotka on ratkaistava sopeutumisen aikana. "Tällä hetkellä kotimainen laskentateho ei vastaa Nvidian käytettävyyttä ja vakautta, mikä vaatii alkuperäisen tehtaan osallistumista ohjelmistoympäristön asennukseen, vianmääritykseen ja perustavanlaatuiseen suorituskyvyn optimointiin", alan ammattilainen sanoi käytännön kokemukseen perustuen. Samanaikaisesti: "DeepSeek R1:n suuren parametriskaalan vuoksi kotimainen laskentateho vaatii useampia solmuja rinnakkaistamiseen. Lisäksi kotimaiset laitteistospesifikaatiot ovat vielä jonkin verran jäljessä; esimerkiksi Huawei 910B ei tällä hetkellä voi tukea DeepSeekin esittelemää FP8-päättelyä." Yksi DeepSeek V3 -mallin kohokohdista on FP8:n sekatarkkuuden koulutuskehyksen käyttöönotto, joka on validoitu tehokkaasti erittäin suurella mallilla, mikä on merkittävä saavutus. Aiemmin suuret toimijat, kuten Microsoft ja Nvidia, ovat ehdottaneet asiaan liittyvää työtä, mutta alalla on edelleen epäilyksiä sen toteutettavuudesta. INT8:aan verrattuna FP8:n tärkeimpänä etuna ymmärretään, että koulutuksen jälkeinen kvantisointi voi saavuttaa lähes häviöttömän tarkkuuden ja samalla parantaa merkittävästi päättelynopeutta. FP16:een verrattuna FP8 voi saavuttaa jopa kaksinkertaisen kiihtyvyyden Nvidian H20:ssa ja yli 1,5-kertaisen kiihtyvyyden H100:ssa. Huomionarvoista on, että keskustelujen kotimaisen laskentatehon ja kotimaisten mallien trendistä kiihtyessä spekulaatiot siitä, voisiko Nvidia häiriintyä ja voisiko CUDA-vallihauta ohittaa, ovat yleistyneet. Yksi kiistaton tosiasia on, että DeepSeek on todellakin aiheuttanut merkittävän laskun Nvidian markkina-arvossa, mutta tämä muutos herättää kysymyksiä Nvidian huippuluokan laskentatehon eheydestä. Aiemmin hyväksyttyjä käsityksiä pääomavetoisesta laskennallisesta kertymisestä kyseenalaistetaan, mutta Nvidian on edelleen vaikea korvata täysin koulutusskenaarioissa. DeepSeekin CUDA-pohjaisen syvällisen käytön analyysi osoittaa, että joustavuus – kuten SM:n käyttö kommunikointiin tai verkkokorttien suora manipulointi – ei ole tavallisten näytönohjainten mahdollista. Alan näkökulmat korostavat, että Nvidian vallihauta kattaa koko CUDA-ekosysteemin eikä vain itse CUDA:a, ja DeepSeekin käyttämät PTX (Parallel Thread Execution) -käskyt ovat edelleen osa CUDA-ekosysteemiä. "Lyhyellä aikavälillä Nvidian laskentatehoa ei voida ohittaa – tämä on erityisen selvää koulutuksessa; kotimaisten korttien käyttöönotto päättelyä varten on kuitenkin suhteellisen helpompaa, joten edistyminen on todennäköisesti nopeampaa. Kotimaisten korttien mukauttaminen keskittyy ensisijaisesti päättelyyn; kukaan ei ole vielä onnistunut kouluttamaan mallia DeepSeekin suorituskyvystä kotimaisilla korteilla laajassa mittakaavassa", alan analyytikko huomautti AI Technology Review'lle. Kaiken kaikkiaan päättelyn näkökulmasta olosuhteet ovat rohkaisevia kotimaisille suurten mallien siruille. Kotimaisten siruvalmistajien mahdollisuudet päättelyn alueella ovat ilmeisempiä koulutuksen kohtuuttoman korkeiden vaatimusten vuoksi, jotka haittaavat markkinoille pääsyä. Analyytikot väittävät, että pelkkä kotimaisten päättelykorttien valjastaminen riittää; tarvittaessa lisäkoneen hankkiminen on mahdollista, kun taas koulutusmallit asettavat ainutlaatuisia haasteita – lisääntyneen konemäärän hallinta voi olla työlästä, ja korkeammat virheprosentit voivat vaikuttaa negatiivisesti koulutustuloksiin. Koulutuksella on myös erityisiä klusterikokoa koskevia vaatimuksia, kun taas klustereille asetetut vaatimukset päättelyä varten eivät ole yhtä tiukkoja, mikä helpottaa GPU-vaatimuksia. Tällä hetkellä Nvidian yhden H20-kortin suorituskyky ei ylitä Huawein tai Cambrianin suorituskykyä; sen vahvuus on klusteroinnissa. Laskentatehomarkkinoihin kohdistuvan kokonaisvaikutuksen perusteella Luchen Technologyn perustaja You Yang totesi AI Technology Review'n haastattelussa: "DeepSeek saattaa tilapäisesti heikentää erittäin suurten koulutuslaskentaklustereiden perustamista ja vuokraamista. Pitkällä aikavälillä, vähentämällä merkittävästi suurten mallien koulutukseen, päättelyyn ja sovelluksiin liittyviä kustannuksia, markkinoiden kysyntä todennäköisesti kasvaa. Tähän perustuvat tekoälyn myöhemmät iteraatiot ajavat siksi jatkuvasti kestävää kysyntää laskentatehomarkkinoilla." Lisäksi ”DeepSeekin lisääntynyt päättely- ja hienosäätöpalveluiden kysyntä sopii paremmin yhteen kotimaisen laskennallisen maiseman kanssa, jossa paikalliset kapasiteetit ovat suhteellisen heikkoja, mikä auttaa vähentämään käyttämättömien resurssien hukkaa klusterin perustamisen jälkeen. Tämä luo kannattavia mahdollisuuksia valmistajille kotimaisen laskennallisen ekosysteemin eri tasoilla.” Luchen Technology on tehnyt yhteistyötä Huawei Cloudin kanssa lanseeratakseen DeepSeek R1 -sarjan päättely-API:t ja pilvikuvantamispalvelut, jotka perustuvat kotimaiseen laskentatehoon. You Yang ilmaisi optimismia tulevaisuudesta: ”DeepSeek lisää luottamusta kotimaassa tuotettuihin ratkaisuihin ja kannustaa suurempaan innostukseen ja investointeihin kotimaisiin laskentakykyihin tulevaisuudessa.”

微信图片_20240614024031.jpg1

Johtopäätös

DeepSeekin "parempi" käyttötapa kuin ChatGPT riippuu käyttäjän erityistarpeista ja tavoitteista. Joustavuutta, edullisuutta ja räätälöintiä vaativissa tehtävissä DeepSeek voi olla parempi. Luovaan kirjoittamiseen, yleiseen tiedusteluun ja käyttäjäystävällisiin keskustelukäyttöliittymiin ChatGPT voi olla johtoasema. Jokaisella työkalulla on eri käyttötarkoitukset, joten valinta riippuu suuresti käyttökontekstista.

Etsi ELV-kaapeliratkaisu

Ohjauskaapelit

BMS-, BUS-, teollisuus- ja instrumentointikaapeleille.

Rakenteinen kaapelointijärjestelmä

Verkko ja data, valokuitukaapeli, kytkentäkaapeli, moduulit, etulevy

Vuoden 2024 näyttely- ja tapahtumakatsaus

16.–18. huhtikuuta 2024 Lähi-idän energiamessut Dubaissa

16.–18. huhtikuuta 2024 Securika Moskovassa

9. toukokuuta 2024 UUSIEN TUOTTEIDEN JA TEKNOLOGIOIDEN LANSEERAUSTILAISUUS Shanghaissa

22.–25. lokakuuta 2024 SECURITY CHINA Pekingissä

19.–20. marraskuuta 2024 CONNECTED WORLD Saudi-Arabia


Julkaisun aika: 10. helmikuuta 2025