a bŠÝg< ã@s~ddlZddlZddlZddlmZmZmZmZmZm Z ddl mZddlm Z e e¡ZerjddlmZGdd„de ƒZdS)éN)Ú TYPE_CHECKINGÚAnyÚIteratorÚListÚOptionalÚTuple)ÚDocument)Ú BaseLoader)ÚSparkSessionc@sheZdZdZdedeeeedœdd„Ze e e fd œd d„Zee d œdd „Zee d œdd„ZdS)ÚPySparkDataFrameLoaderzLoad `PySpark` DataFrames.NÚtextçš™™™™™¹?r )Ú spark_sessionÚdfÚpage_content_columnÚfraction_of_memorycCs zddlm}m}Wnty.tdƒ‚Yn0|r8|n|j ¡|_t||ƒs`tdt |ƒ›ƒ‚||_ ||_||_| ¡\|_|_|j j t¡|_|j j|_dS)agInitialize with a Spark DataFrame object. Args: spark_session: The SparkSession object. df: The Spark DataFrame object. page_content_column: The name of the column containing the page content. Defaults to "text". fraction_of_memory: The fraction of memory to use. Defaults to 0.1. r)Ú DataFramer zFpyspark is not installed. Please install it with `pip install pyspark`z3Expected data_frame to be a PySpark DataFrame, got N)Úpyspark.sqlrr ÚImportErrorZbuilderZgetOrCreateZsparkÚ isinstanceÚ ValueErrorÚtyperrrÚget_num_rowsÚnum_rowsÚmax_num_rowsZrddÚmapÚlistÚrdd_dfÚcolumnsÚcolumn_names)Úselfrrrrrr ©r!ú„/var/www/html/cobodadashboardai.evdpl.com/venv/lib/python3.9/site-packages/langchain_community/document_loaders/pyspark_dataframe.pyÚ__init__s$ÿ ÿ ÿzPySparkDataFrameLoader.__init__)Úreturnc CsŽzddl}Wn.ty:}ztdƒ|‚WYd}~n d}~00|j d¡ ¡d}t |¡}| ¡}|j}t |||j ƒ}t||j ¡ƒ|fS)z4Gets the number of "feasible" rows for the DataFramerNzBpsutil not installed. Please install it with `pip install psutil`.é) ÚpsutilrrÚlimitZcollectÚsysÚ getsizeofZvirtual_memoryÚ availableÚintrÚminÚcount)r r&ÚeÚrowZestimated_row_sizeZmem_infoZavailable_memoryrr!r!r"r:s ÿþ ÿz#PySparkDataFrameLoader.get_num_rowsc#sTˆj ¡D]D‰‡‡fdd„ttˆƒƒDƒ}|ˆj}| ˆj¡t||dVq dS)z#A lazy loader for document content.csi|]}ˆj|ˆ|“qSr!)r)Ú.0Úi©r/r r!r"Ú Nóz4PySparkDataFrameLoader.lazy_load..)Zpage_contentÚmetadataN)rZtoLocalIteratorÚrangeÚlenrÚpopr)r r5rr!r2r"Ú lazy_loadKs z PySparkDataFrameLoader.lazy_loadcCsJ|j ¡|jkr0t d|j ¡›d|j›d¡| ¡}tt ||j¡ƒS)zLoad from the dataframe.z The number of DataFrame rows is zQ, but we will only include the amount of rows that can reasonably fit in memory: Ú.) rr-rÚloggerÚwarningrr9rÚ itertoolsÚislice)r Zlazy_load_iteratorr!r!r"ÚloadSsþÿzPySparkDataFrameLoader.load)NNrr )Ú__name__Ú __module__Ú__qualname__Ú__doc__rrÚstrÚfloatr#rr+rrrr9rr?r!r!r!r"rsûû'r)r=Úloggingr(ÚtypingrrrrrrZlangchain_core.documentsrZ)langchain_community.document_loaders.baser Ú getLoggerÚ__file__r;rr rr!r!r!r"Ús