Запись данных в Azure Data Lake Store - сценарии Powershell

Мне нужно записать данные в хранилище озера данных Azure, а не на мой локальный диск D: \. Я пытаюсь получить информацию о триггерах ADF через PowerShell и хочу загрузить данные в контейнер озера данных Azure в каталог, а не в хранилище больших двоичных объектов.

ADF - ›PowerShell -› Azure Data Lake

Я хочу загрузить данные в каталог озера данных Azure внутри контейнера в формате ГГГГ (папка) - ›MM (папка) -› DD (папка) - ›Файл данных в .CSV

Вот мой код для записи данных на локальный компьютер, мне нужно преобразовать его, чтобы загрузить данные в Data Lake Storage. Для сокрытия имени пользователя и пароля я использовал механизм с файлом шифрования Passowrd и AES.

Любая помощь и предложения будут оценены?

КОД:

# 1- Connect to Azure Account

$username = "[email protected]"
$password = Get-Content D:\Powershell\new\passwords\password.txt | ConvertTo-SecureString -Key (Get-Content D:\Powershell\new\passwords\aes.key)
$credential = New-Object System.Management.Automation.PsCredential($username,$password)


#Connect-AzureRmAccount -Credential $credential | out-null

Connect-AzAccount -Credential $credential | out-null

# 2 - Input Area

$subscriptionName = 'Data Analytics'
$resourceGroupName = 'DataLake-Gen2'
$dataFactoryName = 'dna-production-gen2'


# 3 - (All Triggers Information)


$ErrorActionPreference="SilentlyContinue"
Stop-Transcript | out-null
$ErrorActionPreference = "Continue"
Start-Transcript -path D:\Powershell\new\TriggerInfo.txt -append
Get-AzDataFactoryV2Trigger -ResourceGroupName $resourceGroupName -DataFactoryName $dataFactoryName
Stop-Transcript 

# read the file as a single, multiline string using the -Raw switch

$triggers = Get-Content "D:\Powershell\new\TriggerInfo.txt" -Raw

# split the text in 'trigger' text blocks on the empty line

# loop through these blocks (skip any possible empty textblock)

$triggers = ($triggers -split '(\r?\n){2,}'| Where-Object {$_ -match '\S'}) | ForEach-Object {

    # and parse the data into Hashtables
    $today = Get-Date
    $yesterday = $today.AddDays(-1)

    $data  = $_ -replace ':', '=' | ConvertFrom-StringData

    $splat = @{ 
        ResourceGroupName       = $data.ResourceGroupName
        DataFactoryName         = $data.DataFactoryName
        TriggerName             = $data.TriggerName
        TriggerRunStartedAfter  = $yesterday
        TriggerRunStartedBefore = $today
   }
    
   Get-AzDataFactoryV2TriggerRun @splat 

} | Export-Csv -Path 'D:\Powershell\new\Output.csv' -Encoding UTF8 -NoTypeInformation 

# 4 - To extract the final output from the Output File.

Import-Csv D:\Powershell\new\Output.csv -DeLimiter "," | 
Select-Object 'TriggerRunTimestamp', 'ResourceGroupName','DataFactoryName','TriggerName','TriggerRunId','TriggerType','Status' | 
Export-Csv -Path 'D:\Powershell\new\Finalresult.csv' -Encoding UTF8 -NoTypeInformation -Force

Код попытался загрузить файл из локальной системы:

$storageAccount = Get-AzStorageAccount -ResourceGroupName "DataLake-Gen2" -AccountName "dna2020gen2"
>> $ctx = $storageAccount.Context
PS C:\Windows\system32> $filesystemName = "dev"
>> $dirname = "triggers/"
>> New-AzDataLakeGen2Item -Context $ctx -FileSystem $filesystemName -Path $dirname -Directory

$localSrcFile =  "D:\Powershell\new\passwords\password.txt"
>> $filesystemName = "dev"
>> $dirname = "triggers/"
>> $destPath = $dirname + (Get-Item $localSrcFile).Name
>> New-AzDataLakeGen2Item -Context $ctx -FileSystem $filesystemName -Path $destPath -Source $localSrcFile -Force

Я могу загрузить файл, но не могу записать вывод команды в datalake.


person Saurabh    schedule 24.10.2020    source источник
comment
Команда Export-Csv может просто написать соединение с локальным драйвером или сетевым драйвером. Поэтому я думаю, что мы не можем напрямую записывать контент в хранилище озера данных лазурного типа. Я предлагаю вам использовать azure data lake gen2 rest API для непосредственного хранения csv-контента.   -  person Jim Xu    schedule 26.10.2020
comment
Спасибо @JimXu. Попробую обновить здесь.   -  person Saurabh    schedule 26.10.2020
comment
Пожалуйста, проверьте мое решение.   -  person Jim Xu    schedule 27.10.2020


Ответы (1)


Что касается проблемы, обратитесь к следующему сценарию

$username = "[email protected]"
$password =ConvertTo-SecureString "" -AsPlainText -Force
$credential = New-Object System.Management.Automation.PsCredential($username,$password)


#Connect-AzureRmAccount -Credential $credential | out-null

Connect-AzAccount -Credential $credential
$dataFactoryName=""
$resourceGroupName=""
# get dataFactory triggers
$triggers=Get-AzDataFactoryV2Trigger -DataFactoryName $dataFactoryName  -ResourceGroupName $resourceGroupName
$datas=@()
foreach ($trigger in $triggers) {
    # get the trigger run history
    $today = Get-Date
    $yesterday = $today.AddDays(-1)
     $splat = @{ 
        ResourceGroupName       = $trigger.ResourceGroupName
        DataFactoryName         = $trigger.DataFactoryName
        TriggerName             = $trigger.Name
        TriggerRunStartedAfter  = $yesterday
        TriggerRunStartedBefore = $today
   }
    
   $historys =Get-AzDataFactoryV2TriggerRun @splat
   if($historys -ne $null){
     # create date
     foreach($history in $historys){
        $obj =[PsCustomObject]@{
            'TriggerRunTimestamp '     = $history.TriggerRunTimestamp
            'ResourceGroupName '   =$history.ResourceGroupName
            'DataFactoryName' =$history.DataFactoryName
            'TriggerName '  = $history.TriggerName
            'TriggerRunId'= $history.TriggerRunId
            'TriggerType'=$history.TriggerType
            'Status' =$history.Status

        }
        # add data to an array
        $datas += $obj
     }
   } 
   
  
 }
 #  convert data to csv string
 $contents =(($datas | ConvertTo-Csv -NoTypeInformation) -join [Environment]::NewLine)

 # upload to Azure Data Lake Store Gen2

 #1. Create a sas token
 $accountName="testadls05"
 $fileSystemName="test"
 $filePath="data.csv"
 $account = Get-AzStorageAccount -ResourceGroupName andywin7 -Name $accountName
 $sas= New-AzStorageAccountSASToken -Service Blob  -ResourceType Service,Container,Object `
      -Permission "racwdlup" -StartTime (Get-Date).AddMinutes(-10) `
      -ExpiryTime (Get-Date).AddHours(2) -Context $account.Context
$baseUrl ="https://{0}.dfs.core.windows.net/{1}/{2}{3}" -f $accountName ,  $fileSystemName, $filePath, $sas
#2. Create file
$endpoint =$baseUrl +"&resource=file"

Invoke-RestMethod -Method Put -Uri $endpoint -Headers @{"Content-Length" = 0} -UseBasicParsing

#3 append data
$endpoint =$baseUrl +"&action=append&position=0"
Invoke-RestMethod -Method Patch -Uri $endpoint -Headers @{"Content-Length" = $contents.Length} -Body $contents -UseBasicParsing

#4 flush data
$endpoint =$baseUrl + ("&action=flush&position={0}" -f $contents.Length)
Invoke-RestMethod -Method Patch -Uri $endpoint -UseBasicParsing

#Check the result (get data)

Invoke-RestMethod -Method Get -Uri $baseUrl -UseBasicParsing

введите описание изображения здесь

Дополнительные сведения см. здесь, здесь и здесь

person Jim Xu    schedule 27.10.2020
comment
Привет, Джим! Спасибо, что написал такой хороший сценарий! У меня это работает, но мне нужно записать файл данных в каталог, скажем, Triggers внутри FileSystem Dev. Здесь мне нужно, чтобы при ежедневном запуске этого скрипта было создано несколько папок, таких как YYYY = 2020 - ›MM = 10 -› DD = 28 - ›Внутри мне нужно записать Data.csv за последние 24 часа. - person Saurabh; 28.10.2020
comment
@SaurabhShakyawar, вы можете попробовать определить fileName как 2020/10/28/{}.csv. - person Jim Xu; 28.10.2020
comment
Но это будет жестко запрограммировано, верно? Я хочу, чтобы он ежедневно создавал папки для YYYY = 2020 - ›MM = 10 -› DD = 28 и помещал в них Data.csv. Я пытаюсь создать что-то подобное, но это дает мне полную дату, а не папку. New-Item -ItemType Directory -Path. \ $ ((Get-Date) .ToString ('yyyy-MM-dd')) - person Saurabh; 28.10.2020
comment
@SaurabhShakyawar Если вы хотите создать каталог в озере данных Azure Gen2, вы можете вызвать остальной API https://{accountName}.{dnsSuffix}/{filesystem}/{path}?resource=directory. - person Jim Xu; 28.10.2020
comment
Джим, я не очень хорошо знаком с PS. Поэтому не знаю, как включить это в сценарий, который вы показали выше. Извините за беспокойство. - person Saurabh; 28.10.2020
comment
@SaurabhShakyawar Поскольку у вас есть другие проблемы, я предлагаю вам опубликовать новый выпуск. Вы можете описать это подробно, другие могут лучше понять суть проблемы. После этого, вы можете @ меня, я продолжу помогать мне. - person Jim Xu; 28.10.2020
comment
Хорошо, Джим, спасибо за предложения! - person Saurabh; 28.10.2020