Introduktion till statistisk programmering med R

Innehållsförteckning
R är ett statistiskt programmeringsspråk, det är gratis och öppen källkod. Den används främst för driften av datamining eller statistik, allt detta i syfte att skapa applikationer för analys av stora datamängder.
Kommandoradsgränssnittet för R Till en början kan det vara något skrämmande men detta överskuggas efter att vi har uppskattat kraften och möjligheterna som språket erbjuder oss att dela och reproducera informationsanalyser.
R Den kan laddas ner gratis för alla gratisplattformar som finns idag, vi har möjlighet att installera den i Windows, Linux och även Mac.
För denna handledning kommer vi att använda versionen för Windows som vi kan hitta på projektets officiella sida i följande länk. Efter nedladdning och installation har vi vår funktionella kopia av R, om vi kör det kommer vi att ha den första skärmen på R som ska se ut så här:

R Det gör att vi kan arbeta med data på ett snabbt och effektivt sätt, men standardgränssnittet är inte perfekt för denna uppgif.webpt. Ett av problemen är att allt öppnas i separata fönster vilket gör det svårt att arbeta och kommandoradsgränssnittet är inte detsamma i alla operativsystem.
Även om det finns många gränssnitt för att lösa detta problem, kommer vi i den här självstudien att använda RStudio som är tillgänglig för alla plattformar, men det är viktigt att nämna att det är nödvändigt att ha R installerad före installationen, för att få versionen av Windows vi går till följande länk och laddar ner motsvarande version.
Efter installationen kör vi RStudio och vi borde se huvudgränssnittet:

RStudio ger oss organisationen av alla fönster i R inom en enda panel och ger oss dessutom tillgång till funktioner som kan vara svåra att hitta, utöver detta kan vi nämna andra ytterligare fördelar:
  • Låt oss dela in vårt arbete i Projekt där var och en av dessa kommer att ha sin arbetskatalog, historik och källfiler.
  • Integration med GitHub.
  • Gör att du kan lagra en berättelse grafiskt.
  • Du kan exportera grafiken i olika format och storlekar.
  • Det gör att vi kan slutföra koden med tabellnyckeln.
  • Du kan skapa interaktiva diagram tack vare vissa paket.
Som vi ser RStudio är ett ganska optimalt sätt att arbeta med RDet finns dock andra lösningar på marknaden, det är upp till var och en att undersöka dessa och utvärdera om de är bättre anpassade till varje persons behov.
Det finns flera sätt att arbeta med R där det första vi kommer att ta upp är R -konsolTrots att vi inte kan lagra arbetet här är det ganska användbart att testa några funktioner och börja bekanta sig med språket.
Att arbeta med konsolen är ganska enkelt, vi anger ett kommando och sedan ger R oss utgången från det, låt oss prova en enkel tilläggsoperation som följande:
> 10 + 7

Vi trycker på Stiga på och automatiskt R I följande rad ger det oss svaret på vår verksamhet:

Som vi kan se på bilden innehåller den första raden kommandot med vår operation, det är viktigt att nämna det R det kräver inte att använda semikolon för att avsluta linjen eller någon annan avslutande operatör. Vi kan se på den andra raden före svaret [1] detta indikerar på vilket sätt R utför räkneoperationer och använder vektor, det ena betyder indexet för det första elementet i vektorn, där vi kan markera att många andra språk hanterar indexen från grunden men R gör det från den ena.
Som vi nämnde tidigare är konsolen ganska användbar men den är inte den bästa att arbeta med, främst för att den inte har möjlighet att lagra våra kommandon och möjligheten att bara ange ett kommando i taget, något liknande händer med Pytonorm, men vi ska inte oroa oss sedan RStudio ger oss skriptfönster ligger i den övre delen av vår konsol, om vi inte hittar den går vi till Arkiv> Ny fil> R -skript eller tryck på Skift + Kommando + N.
I grund och botten är ett R -skript ren text med tillägget .R. För att se hur det fungerar kan vi återskapa vår aritmetiska operation från föregående exempel genom att skapa ett nytt skript och lägga till ytterligare kommandorader, låt oss se:
 10 + 7 1:50 tryck ("Hej världen") 

A R -skript du kan köra rad för rad med det alternativ som vi har i den övre menyn som heter Springa och vi kommer att se resultatet av samma i konsolen, låt oss se svaret för varje rad i vårt manus:

Hur kan vi se att den första raden ger oss det resultat vi fick tidigare, den andra raden skapar en lista med siffror från 1 till 50 där talet inom parentes är det första indexet för den raden och slutligen har vi intryck av den klassiska Hej världen.
Efter att ha sett hur vi kan arbeta med språk, kommer vi att gå vidare till mer teoretiska begrepp för att bättre förstå vad vi har tillgängligt på språket för att arbeta och genomföra våra projekt.
Som i alla programmeringsspråk, variabler är en av de viktigaste aspekterna, att skapa dem i R Vi behöver bara skriva namnet på det utan att definiera typen. Vi använder uppdragsoperatör att ge värdet till variabeln.
ViktigVi kan tilldela värdet på en variabel med likhetstecknet men detta är dålig praxis i R, för att göra rätt tilldelning, använd operatören <-.
Låt oss se hur tilldela ett värde till en variabel och sedan skriva ut det ser ut:
 x <- 58 x 

Vi kan också tilldela våra värden flera värden med sammanfogningsfunktionen:
y <- c (5, 2, 11, 28, 17)

Om vi ​​kör exemplet ser vi i den högra panelen hur vi har värdet på x och den numeriska lista som tilldelats Y:

FÖRSTORA

Dessutom, för att eliminera en variabel från arbetsytan, måste vi bara använda funktionen rm, vi kan till och med rengöra hela arbetsytan, låt oss se hur vi gör detta:
 rm (x) rm (lista = ls ()) 

Med den första raden eliminerar vi variabeln och med den andra raden allt utrymme.
På språket har vi fyra datastrukturer, som känns igen av R:
Tecknad vektorEn vektor är en endimensionell matris där all data som finns i den måste vara av samma typ, heltal, röding etc., dessutom är det viktigt att notera att detta är det grundläggande dataobjektet i R.
Matriser och matriserEn matris liknar en vektor där data måste vara av samma typ, men matrisen har två dimensioner och informationen är organiserad i rader och kolumner. Arrayen liknar matrisen men den kan ha mer än två dimensioner.
DataramarDataramar är en samling av vektorer av samma längd, den liknar matrisen men särdragen hos denna typ av struktur är att de kan vara av blandade datatyper, där vektorerna till och med kan ha namn.
ListorDen mest generiska typen av struktur i R, en lista är en samling element av någon klass, längd eller struktur, vi kan till och med ha andra listor.
Ytterligare, R Den har flera funktioner som gör att vi kan konvertera en typ av struktur till en annan, låt oss se:
som. vektor ()Med denna funktion kan du konvertera matriser till endimensionella vektorer.
as.matrix ()Du kan konvertera datastrukturer till en array.
as.data.frame ()Du kan konvertera datastrukturer till dataramar.
as.list ()Du kan konvertera datastrukturer till listor.
En av styrkorna hos R är att du kan lägga till paket som gör att vi kan utöka språkets funktioner. På andra språk kommer dessa plugins på bibliotek men i R är biblioteket platsen där alla paket lagras.
De paket av R kan komma från två olika platser, vissa kommer med R som standard men de är inte aktiva och andra finns i onlinelager.
För att se paketen som för närvarande är installerade eller laddade kan vi utföra följande funktioner:
 bibliotek () sök () 

Funktionen bibliotek () ger oss en lista över de paket som för närvarande är installerade, låt oss se en del av vad det kastar på oss när vi kör den här raden:

Funktionen Sök () Å andra sidan visar det oss genom konsol de paket som för närvarande laddas, låt oss se i följande bild vilka paket vi har laddat:

För att installera paket kan vi göra det på flera sätt, det första är genom alternativet i toppmenyn Verktyg> Installera paket och sedan har vi genom språkets funktioner, det senare är det vi rekommenderar eftersom det därmed kan vara en del av vårt manus.
För att installera ett paket som vi använder installera. paket, efter detta måste vi inkludera det, vi kan använda bibliotek eller behöva För detta är det dock bäst att använda det senare för att undvika förvirring med funktionernas omfattning, låt oss se hur vi installerar och inkluderar paketet ggplot2:
 install.packages ("ggplot2") kräver ("ggplot2") 

Slutligen för att radera ett paket som vi kan använda ta bort. paket, låt oss se hur det används:
remove.packages ("ggplot2")

Med detta avslutar vi denna handledning, som vi redan har en uppfattning om hur man arbetar med R, förutom att ha förtydligade punkter som variabler och datastrukturer, viktiga aspekter som vi måste känna till för att dra full nytta av detta kraftfulla och effektiva språk.Gillade du och hjälpte denna handledning?Du kan belöna författaren genom att trycka på den här knappen för att ge honom en positiv poäng
wave wave wave wave wave