EMC VNXe 3150 nu pornește

Avem un VNXe3150 care nu vrea să pornească cu adevărat. Suportul nu mai este pe el și nici nu este prea oțel, dar ar fi totuși bine să economisiți.

vnxe

Povestea este scurtă:
A fost golit și conservat în urmă cu câteva luni, apoi a funcționat fără cusur. L-am ridicat acum câteva zile și am vrut să-l începem. Apoi, un controler tocmai a început, celălalt sa oprit în timpul pornirii (pe baza LED-urilor). O jumătate de picior a funcționat perfect, am crezut că nu este nimic în neregulă, să analizăm un controler. Cu toate acestea, ieri nu l-am ajuns doar în modul service.
Am încercat mai întâi să repornim unisfera și apoi întreaga cutie, dar de acum nu am mai putut ajunge deloc.
Am reușit să extrag procesul de pornire din aceasta pe o consolă, dar din păcate pentru mine nu este suficient să stabilesc dacă este recuperabil.
A mai văzut cineva asta înainte? Sau aveți șansa să le recuperați sau să le introduceți în deșeuri periculoase?

Salut orice idee/ajutor.

Comentarii

(thmir v | 08. 29. 2017, k - 18:53)

Când resetați, încercați să resetați toate componentele, discurile, controlerele amovibile etc. puneți totul înapoi la locul său inițial, apoi porniți-l.
Avertizează SSD pe ieșirea consolei, dar asta nu este neapărat o problemă. Nu cred că există alte defecte în el.
Am instalat unul înainte, dar acum nu am găsit cu adevărat un doc în care de ex. ar fi o reimagine. și îl puteți reinstala cu siguranță dacă a fost atât de supărat.
Îi răspunde oricum lui Ping sau nu mai mult?

(moe | 29/08/2017, k - 20:43)

Mulțumesc, o voi încerca mâine.
Din păcate, nu ping.:(

(moe | 31 august 2017, joi 16:51)

Din păcate, nu a ajutat. Ieșirea consolei este neschimbată.
Am încercat să caut în direcția „reimaginare”, dar conform tuturor descrierilor, ar trebui să ajung mai întâi la unisfer sau cli.

Pot exista și alte sfaturi?

(thmir v | 31.08.2017, joi - 22:09)

Ok, atunci îți voi da mai multe idei:)

Verificați-le dacă vreunul dintre ele vă avansează (apropo, deoarece aveți doar o conexiune la consolă, secțiunile CLI sunt relevante).
Dacă nu vă puteți conecta, voi încerca să încep jumătate de picior: conectați doar SPA-ul sau dacă LED-ul de alertă este aprins, SPB-ul

Am găsit o intrare pentru eroarea SSD, dar aceasta poate fi totuși o problemă. LED-ul de alertă de pe spatele unuia dintre SP (pe unul dintre ele) se aprinde?
https://community.emc.com/thread/201576?start=0&tstart=0

Poate că dacă reușiți să îl accesați cumva, ar merita să colectați date despre un serviciu despre acesta, ar dezvălui mai mult decât atât:
https://emcservice.force.com/CustomersPartners/kA2j0000000QVcgCAG

Chiar și asta mi-a amintit, nu puteți șterge configurarea și porni stocarea, așteptați doar fișierul de configurare?:
https://community.emc.com/thread/225221?start=0&tstart=0

(moe | 04/09/2017, h - 22:03)

Deocamdată, pare un succes pe jumătate. După câteva reluări și repornire, unul dintre SP-uri (spb) a început și a ajuns la un prompt de conectare. svc_diag a raportat că este în modul de service în timp ce peer-ul (spa) nu este accesibil.
svc_dc nu a avut succes. Se pare că funcționează bine, dar în cele din urmă mută fișierul și nu îl mai găsesc în sistemul de fișiere. Este ca și cum nu-l mișcați, îl ștergeți.

după svc_reimage spb a început în modul normal fără IP. I-am dat un IP (svc_network) și apoi am încercat din nou un svc_dc, dar rezultatul este similar. Starea SP actuală: spb-normal; de la egal la egal.

Sunt aici deocamdată. Cu toate acestea, unisphere încă nu funcționează, doar portul SSH este deschis pe el, iar celălalt sp nu dă un semnal de viață.
Pe SPB, LED-ul de stare clipește, ceea ce HIG spune că ar putea însemna două lucruri:
1. A pornit driverul sistemului de operare
2. Eroare, a apărut o eroare de sistem, cauzând unele
resursele de stocare să devină indisponibile. SP
nu funcționează și LED-ul de stare clipește
(Vezi nota)

Statutul celuilalt SP, pe de altă parte, este neschimbat.

(thmir v | 09. 09. 2017, k - 00:01)

Ei bine, acesta este un progres, am un cod de serviciu pentru care am găsit acest lucru (deși fără răspuns, dar poate):
https://community.emc.com/thread/217045?start=0&tstart=0
SSH în fiecare SP și rulați următoarele: svc_cdca --list-cdca (listați toate cache-urile murdare pentru SP curent) svc_cdca --clear (ștergeți toate cache-urile murdare pentru SP curent, pregătiți orice sistem lunar pentru auto fsck.) Și asta ar trebui să facă trucul.

Ieșirea svc_dc ar trebui să fie în principiu aici:
/ EMC/backend/service/data_collection /

Poate doriți să încercați să îl eliminați din modul de service:
https://community.emc.com/docs/DOC-40085
Aceste comenzi trebuie executate pe bază de SP.
Pentru a readuce SP în modul normal, rulați următoarele comenzi în ordine:
service @ spa spa:

> svc_rescue_state -c
service @ spa spa:

Dacă acest lucru nu ajută, a existat unul în linkurile anterioare care explică Instalarea manuală sau este posibil să nu fi încercat alimentând fișierul de configurare de pe un stick USB?
https://community.emc.com/thread/225221?start=0&tstart=0

(moe | 05.09.2017, k - 15:52)

Răspunde thmir Na, acesta este un progres, ai un mesaj

Lucrul evoluează. Una dintre pagini funcționează deja (spb). Mergeți la ssh, unisphere, vedeți discurile.
Cealaltă parte, pe de altă parte, nu merge. Este încă într-o stare inaccesibilă. Instrumentele Unisphere și CLI nu o văd și nu primesc o solicitare pe o consolă.
Între timp, controlerul pe care l-am desemnat a venit la noi. Încerc să înlocuiesc candidatul incorect. Fiecare descriere spune că ar trebui să transfer SSD-ul către noul SP. Cu toate acestea, din moment ce scrie o eroare, omit acest pas (Descrierea „înlocuiește SSD” îmi spune să o pun în modul de service -> Nu știu). Cred că cele două SP vor intra într-un fel de stare inconsistentă. Pot începe ceva în această stare care să pună ambele SP-uri în stare de fabrică? De fapt, nu are date, așa că poate ar fi cel mai clar.

Alte:
Am găsit locația ieșirii svc_dc, dar fișierul pe care ar fi trebuit să-l creați nu este acolo. Mai mult, nu se află în directorul tmp utilizat în timpul creării.

(thmir v | 05.09.2017, k - 18:50)

Ok, să trecem mai departe:) Înlocuitorul SP are destul de multe componente care trebuie mutate în noul SP (memorii, module IO etc.) Acestea trebuie verificate pentru a vedea dacă sunt incluse în ceea ce tocmai ați comandat.

Dacă nu înlocuiți SSD-ul defect anterior, acum parcă îl înlocuiți pe cel rău cu unul bun, există o astfel de secțiune în ghidul de înlocuire SSD:
Reporniți SP:
După ce ați instalat discul de stare solidă de schimb și ați returnat ansamblul SP la
șasiu, reporniți SP-ul recent deservit pentru a vă asigura că părăsește modul Service:
1. Din Unisphere, selectați Setări, apoi Service System.
2. Conectați-vă cu parola de serviciu.
3. În coloana Componente sistem, selectați procesorul de stocare (SP A sau SP B)
asociat cu discul de stare solidă de schimb.
4. Sub Acțiuni de serviciu, selectați Repornire, apoi Executați acțiune de serviciu.
Poate dura până la 12 minute până când sistemul își finalizează repornirea pentru a reveni la Normal
mod și reporniți serverele.
5. Reîmprospătați browserul sau urmați instrucțiunile de pe ecran pentru a scoate software-ul din
Mod de service și restaurare Unisphere cu funcții complete

Nu sunt sigur de svc_dc dacă funcționează și în modul Service, de parcă manualul ar scrie că merge doar în modul Normal, poate de aceea fișierul nu există. Cu toate acestea, dacă mergeți la Unisphere, puteți colecta deja în ea:
Colectarea din Unisphere GUI (Metoda recomandată):

1) Conectați-vă la Unisphere GUI cu acreditări de administrator.
2) Faceți clic pe Setări și apoi pe Sistem de service.
3) Introduceți parola de serviciu.
4) Sub „Componente de sistem”, evidențiați „Sistem de stocare”.
5) Selectați „Colectați informații despre servicii” sub „Acțiuni de service”.
6) Faceți clic pe „Executați acțiunea de serviciu”.
7) Se afișează acest mesaj: „Datele de serviciu au fost colectate anterior și sunt disponibile pentru descărcare. Doriți să descărcați aceste date de serviciu existente sau să începeți un nou proces de colectare a datelor de serviciu noi? Faceți clic pe Da pentru a descărca fișierul de date de serviciu existent . sau Nu pentru a începe o nouă colecție de date de serviciu. "
8) Selectați Da sau Nu, în funcție de situația dvs.
9) Faceți clic pe Da pentru a salva fișierele pe hard disk.

(moe | 06/09/2017, miercuri - 19:40)

Răspunde thmir Ok, ne mutăm:) La mesajul SP

Din nou cu un sfert de pas. Am înlocuit SP și situația este puțin mai bună. În prezent, ambele SP-uri merg, se văd (nici unul nu spune că celălalt este necunoscut/inaccesibil), dar ambele sunt în modul service și nu le pot scoate din el. Accesez doar spb pe consolă, spa doar pe ssh.
Am încercat ambele următoarele:
svc_reimage
svc_reinit
svc_shutdown (-r, --halt, --system-stop, --system-stop --force)

În timpul pornirii, spb (unul dintre controlerele originale) spune „Eroare nevalidă de tip SP peer”.

Am ajuns până aici și am rămas fără idei. Vor exista unele discrepanțe hardware, dar nu știu ce. Nu pot imprima asta undeva? Nici eu nu am găsit nimic semnificativ pentru codul de eroare.

(thmir v | 09.09.2017, miercuri - 22:37)

E atât de ciudat.
Sunt cele două numere de piesă SP la fel? Dacă nu, problema este că au versiuni hardware diferite. Nu puteți începe cu asta, aveți nevoie de aceeași versiune hw a ambelor SP-uri.

(moe | 07/09/2017, joi - 07:33)

Răspunde thmir Hm, acesta este mesajul

Între timp, chiar și noaptea, am găsit că celelalte hardware revin la cele două, așa că nici nu voi încerca sp-ul care tocmai a sosit.
În schimb, am mutat ssd-ul din cel vechi, dar până acum nu prea am reușit. Acum încerc să încep ambele separat după reimaginare și reinit (idea1).

Cu toate acestea, am găsit o secțiune interesantă într-unul dintre ghiduri care ar putea să mă ducă mai departe. Se spune că „starea de murdărie a cache-ului s-a produs” pe baza stării conduse. În acest caz, se întâmplă să așteptați 1 oră ca colegul (adică spb) să rezolve problema. Dacă acest lucru eșuează, în principiu va porni în modul de service.
Aici mă trimit să caut „emc263713” în baza de cunoștințe pentru mai multe informații. Din păcate, nu am găsit nimic pentru asta, doar două documente pe toată pagina de asistență. Ambele docuri sugerează că îl caut.
Unul se referă la o altă comandă svc_cache, pe care nu o am (cred că am încercat-o în modul normal, deci nu a avut-o).
Voi încerca să accesez această comandă din nou în modul de service și normal din nou seara și să o parametrizez cumva, ajutând astfel la pornirea celeilalte pagini (idea2).

În modul normal, apropo, DC-ul a funcționat foarte bine, i-am descărcat ieșirea undeva seara.

Vă mulțumesc foarte mult pentru ajutorul acordat până acum, ați făcut multe progrese în ceea ce privește progresul lucrurilor.
Deși deja mă gândesc mult la împingerea întregului lucru în deșeuri periculoase (idee 3).:)

(thmir v | 07.09.2017, Joi - 10:20)

Răspunde moe Între timp, chiar și la mesajul din noapte

Este vorba despre ștergerea Dirty Cache, despre esența căreia am scris mai devreme:
„SSH în fiecare SP și rulați următoarele: svc_cdca --list-cdca (listați toate cache-urile murdare ale SP curent) svc_cdca --clare (ștergeți toate cache-urile murdare pentru SP curent, pregătiți orice sistem lunar pentru automat fsck.) Și asta ar trebui să facă truc. "

Dirty Cache poate fi atât pentru LUN de sistem, cât și pentru LUN pentru utilizator, fiecare cu o soluție diferită, în principiu ambele fiind incluse în linkurile de mai sus.

Nu aruncați-l niciodată în deșeuri periculoase, deoarece poate fi salvat cu siguranță (nu există așa ceva):). Dacă nimic nu se unește, totuși am o idee.

(lun | 07/09/2017, joi - 19:49)

Răspundeți la mesajul lui thmir KB, printre altele

Am încercat totul, dar SPA a refuzat să înceapă. SPB funcționează deja perfect, dar niciuna dintre metode nu a ajutat cealaltă jumătate.

Ai o ultimă idee?:)

(Thmir v | 09.09.2017, p - 10:52)

Nu am multe idei suplimentare. Poate dacă puteți obține un SP cu numărul de piesă potrivit (același cu cel actual), puteți încerca în continuare.

Ideea finală ar fi fost de a întreba colegii dacă ar accepta acest lucru de la caz la caz, dar au spus că cel mai probabil ar implica sprijin EMC și nu ar merita din punct de vedere financiar, așa că cred că este de uitat.

(moe | 08/09/2017, p - 19:01)

Multumesc foarte mult pentru ajutorul tau!
Punem lucrurile ca parte în caz că altcineva se oprește.:)

Mulțumesc din nou, am învățat multe din caz.

(freeoli v | 11/09/2017, h - 22:28)

Răspunde moe Mulțumesc foarte mult pentru mesajul tău

Vă mulțumim pentru distribuire. A fost interesant și pentru mine.

(thmir v | 14. 09. 2017, Joi - 22:28)

Răspunde moe Mulțumesc foarte mult pentru mesajul tău

Chiar nu am nimic, dar îmi pare rău că nu i-am putut inspira viața de departe:(

Am luat-o puțin, a devenit o dezvoltare de atunci?

(bognarattila | 2017. 09. 08., p - 22:00)

Nu am aprofundat subiectul, dar ați încercat să conectați controlerul de lucru în cealaltă parte? Poate așa puteți localiza ceva.
Nu știu cât de mult sunteți dispus să sacrificați pentru asta, dar dacă îmi trimiteți un fragment, voi încerca să vă găsesc un controler și apoi să decid.

(moe | 11/09/2017, h - 19:40)

Răspunde bognarattila Nu prea am intrat în mesajul tău

Mulțumesc, voi încerca din nou. Voi conecta consola în seara asta, o voi împinge în locul „greșit” și ne vedem dimineața.